微信客服
Telegram:guangsuan
电话联系:18928809533
发送邮件:xiuyuan2000@gmail.com

Quy định mới 2025: Tại sao sơ đồ trang XML gửi rồi vẫn không được lập chỉ mục|3 lý do bạn cần biết

本文作者:Don jiang

Trang web của bạn đã gửi sơ đồ trang web XML (Sitemap), nhưng sau vài tuần hoặc thậm chí vài tháng, khi tìm kiếm trên Google với từ khóa “site:tên miền của bạn.com”, số lượng trang hiển thị lại rất ít?

Đừng vội lo lắng, đây không phải là trường hợp hiếm gặp.

Dữ liệu chính thức từ Google cho thấy, trung bình một URL mới được gửi, từ lúc được phát hiện đến khi được lập chỉ mục cuối cùng, thường mất vài ngày đến vài tuần.

Thực tế, báo cáo trong Search Console cho thấy, hơn 60% người gửi sơ đồ trang web lần đầu tiên đều gặp phải tình trạng số lượng URL “đã phát hiện nhưng chưa được lập chỉ mục” vẫn cao.

Phân tích nhiều trường hợp cho thấy, những trở ngại chính khiến Google không lập chỉ mục tập trung vào ba khía cạnh cụ thể và có thể hành động được:

Tại sao gửi sơ đồ trang web XML nhưng vẫn không được lập chỉ mục

Sơ đồ trang web của bạn, Google “không thể đọc” hoặc không thể sử dụng được

Theo dữ liệu từ Search Console, trung bình cứ 5 trang web gửi Sitemap thì có 1 trang gặp lỗi “Không thể truy xuất” (Couldn’t Fetch).

Điều này có nghĩa gì? Có nghĩa là robot của Google không thể mở “danh sách chỉ mục” bạn gửi, hoặc đọc đến giữa chừng thì bị gián đoạn.

Điều tệ hơn nữa là, ngay cả khi Sitemap hiển thị “Xử lý thành công”, nhưng hơn một nửa liên kết trong đó có thể là “ngõ cụt” (lỗi 404) hoặc “đường sai” (liên kết chuyển hướng).

Khả năng truy cập Sitemap

Vấn đề cốt lõi: Bạn đã gửi đường dẫn Sitemap (ví dụ yoursite.com/sitemap.xml), nhưng khi Googlebot truy cập vào địa chỉ này, máy chủ hoàn toàn không cho phép truy cập!

Tình huống thực tế & Dữ liệu:

  • 404 Not Found: Báo cáo Sitemap trong Search Console trực tiếp hiển thị “Không thể truy xuất”. Trường hợp này chiếm khoảng 25-30% các lỗi gửi. Nguyên nhân phổ biến: sai đường dẫn file (phân biệt chữ hoa chữ thường!), file bị xóa, website thay đổi cấu trúc mà không cập nhật đường dẫn, cấu hình máy chủ sai.
  • 500 Internal Server Error / 503 Service Unavailable: Máy chủ bị sập hoặc lỗi xử lý bên trong. Google sẽ thử lại nhưng nếu máy chủ của bạn thường xuyên không ổn định, trạng thái xử lý Sitemap sẽ báo lỗi lâu dài. Tỉ lệ truy xuất thất bại nhiều lần sẽ ảnh hưởng đến đánh giá “sức khỏe” tổng thể của website với Google.
  • Vấn đề quyền truy cập: File Sitemap đặt trong thư mục cần đăng nhập hoặc whitelist IP. Googlebot là “khách ẩn danh”, không thể truy cập.

Cách kiểm tra?

  • Cách đơn giản nhất: Mở URL Sitemap bạn đã gửi trên trình duyệt. Nội dung XML có hiển thị bình thường không?
  • Báo cáo Sitemaps trong Search Console: Tìm Sitemap bạn gửi, xem trạng thái là “Thành công” hay “Không thể truy xuất”? Nếu là “Không thể truy xuất”, thông báo lỗi thường rất cụ thể (404? 500? Quyền?).

Cần làm ngay:

  • Đảm bảo URL Sitemap bạn gửi 100% chính xác.
  • Xác nhận URL này có thể mở trong cửa sổ ẩn danh (không đăng nhập).
  • Khắc phục vấn đề máy chủ không ổn định. Nếu gặp lỗi 500, nhanh chóng kiểm tra nhật ký máy chủ.

Tính hiệu quả nội dung

Vấn đề cốt lõi: URL trong Sitemap là liên kết chết hoặc cần chuyển hướng, Googlebot lãng phí tài nguyên mà không thu được nội dung hiệu quả.

Vấn đề thường gặp & Dữ liệu: Báo cáo Sitemap trong Search Console cho biết rõ số lượng URL “đã gửi” bên cạnh có bao nhiêu URL “lỗi” hoặc “cảnh báo”.

Nhiều website có tỉ lệ “lỗi” này dễ dàng vượt quá 50%, thậm chí lên đến 80%! Các loại chính:

  • 404 Not Found: Phổ biến nhất! Trang bị xóa mà Sitemap không được cập nhật, sản phẩm hết hàng mà URL chưa được dọn sạch, phiên bản tham số URL thay đổi, lỗi chính tả. Googlebot phải truy cập “vô ích”, lỗi này thường được ưu tiên cao.
  • 301/302 Redirects (Chuyển hướng): Sitemap có URL cũ A (URL này chuyển hướng 301 đến URL mới B). Vấn đề là:
    • Google cần truy cập thêm một lần URL A để biết chuyển sang B.
    • Google muốn Sitemap chứa trực tiếp URL đích cuối cùng B để sử dụng hạn mức thu thập hiệu quả nhất.
    • Nhiều lỗi dạng này sẽ làm chậm tốc độ thu thập và lập chỉ mục trang quan trọng trên toàn trang web.
  • Trang cần đăng nhập / bị chặn: Ví dụ như trang thành viên, lịch sử đơn hàng, trang quản trị bị đưa vào Sitemap. Google là khách không đăng nhập, không thể xem các trang này, không có tác dụng.

Làm sao để kiểm tra?

  • Hãy tập trung vào báo cáo lỗi Sitemap trong Search Console! Nó sẽ liệt kê chi tiết các URL bị lỗi và loại lỗi (404, chuyển hướng, v.v.).
  • Định kỳ sử dụng công cụ thu thập dữ liệu như Screaming Frog để quét các URL trong file Sitemap, kiểm tra mã trạng thái. Đặc biệt chú ý những URL có mã trạng thái không phải 200.

Cần làm ngay:

  • Thường xuyên dọn dẹp Sitemap! Xóa tất cả URL trả về 404 hoặc những trang cần đăng nhập.
  • Đảm bảo URL trong Sitemap trỏ đến địa chỉ cuối cùng! Đảm bảo tất cả URL đang dùng trả về trạng thái 200 OK trực tiếp. Nếu trang có chuyển hướng, hãy cập nhật Sitemap để trỏ đến URL đích cuối cùng.
  • Đừng đưa URL không liên quan hoặc không hợp lệ vào Sitemap: Chỉ để các trang công khai có nội dung thực sự mà bạn muốn Google lập chỉ mục và hiển thị cho người dùng.

Chuẩn định dạng

Vấn đề chính: File Sitemap không tuân thủ chuẩn cú pháp XML hoặc quy định của giao thức Sitemap, dẫn đến trình phân tích của Google (giống như đọc chữ viết xấu) không thể trích xuất chính xác thông tin URL bên trong.

Các lỗi phổ biến:

  • Lỗi cú pháp XML:
    • Thẻ không được đóng: Ví dụ https://... thiếu thẻ đóng
    • Ký tự không hợp lệ: Ví dụ ký tự & trong URL chưa được thay thế bằng &. Một số ký tự đặc biệt phải được mã hóa.
    • Vấn đề mã hóa: File được lưu với mã ký tự (như UTF-8, GBK) không đúng hoặc không đồng nhất, gây ra hiện tượng lỗi hiển thị ký tự đặc biệt như tiếng Việt.
  • Lỗi cấu trúc giao thức:
    • Thiếu thẻ gốc cần thiết hoặc .
    • Thiếu thẻ bắt buộc hoặc sai thứ tự: mỗi mục phải chứa thẻ (vị trí). Các thẻ tùy chọn khác (, , ) nếu dùng cũng phải đúng vị trí.
    • Dùng thẻ hoặc thuộc tính không được hỗ trợ trong giao thức Sitemap.

Ảnh hưởng lớn đến mức nào? Ngay cả khi tỷ lệ lỗi chỉ 0.5% (ví dụ 5 lỗi trong 1000 URL) cũng có thể khiến toàn bộ file Sitemap bị Google đánh dấu “lỗi một phần” hoặc thậm chí không xử lý được, dẫn đến toàn bộ URL trong đó có thể không được đọc đúng! Log của Google thường cho thấy lỗi phân tích dừng lại ở một dòng nào đó.

Làm sao để kiểm tra?

  • Dùng công cụ kiểm tra Sitemap chuyên nghiệp: Ví dụ XML Validator (tìm kiếm trên mạng) hoặc công cụ chính thức của các công cụ tìm kiếm (như công cụ kiểm tra URL trong Google Search Console có hiệu quả với từng URL đơn lẻ nhưng hạn chế với toàn bộ Sitemap).
  • Kiểm tra mẫu thủ công: Mở file Sitemap bằng trình soạn thảo văn bản như VSCode, kiểm tra thẻ có đóng đủ chưa, ký tự đặc biệt đã được mã hóa chưa. Đặc biệt kiểm tra các URL vừa được thêm hoặc sửa đổi. Trình soạn thảo thường báo lỗi cú pháp XML.

Cần làm ngay:

  • Dùng công cụ hoặc plugin tạo Sitemap đáng tin cậy (ví dụ plugin SEO, CMS tích hợp, công cụ tạo chuyên nghiệp), tránh viết tay.
  • Sau khi tạo phải kiểm tra định dạng bằng công cụ xác thực.
  • Nếu sửa tay thì phải tuân thủ nghiêm ngặt cú pháp XML và quy định giao thức Sitemap.

File có quá lớn không?

Vấn đề chính: Google quy định rõ ràng: một file Sitemap tối đa 50MB (chưa nén) hoặc 50,000 URL (tính theo điều kiện nào đến trước). Vượt quá sẽ bị bỏ qua hoặc chỉ xử lý một phần.

Kinh nghiệm thực tế:

  • Trang thương mại điện tử hoặc diễn đàn/mạng truyền thông có lượng nội dung lớn dễ bị vượt giới hạn.
  • Nhiều plugin CMS mặc định tạo Sitemap có thể vượt giới hạn, cần chia nhỏ ra.
  • Dù file không quá lớn, Sitemap có hàng chục nghìn URL vẫn xử lý chậm hơn Sitemap nhỏ hơn, Google có thể mất nhiều thời gian hơn để xử lý.

Làm thế nào để kiểm tra?​

  • Xem thuộc tính tập tin: Kích thước có vượt quá 50MB không?
  • Dùng công cụ hoặc script để thống kê số lượng URL trong tập tin. Có hơn 50.000 URL không?

Phải làm ngay:​

  • Website lớn nhất định phải dùng sitemap chỉ mục (index sitemap)!​
    • Tạo một tập tin chỉ mục chính (ví dụ: sitemap_index.xml), trong đó không chứa trực tiếp URL mà liệt kê các đường dẫn đến các sitemap nhỏ hơn (ví dụ: sitemap-posts.xmlsitemap-products.xml).
    • Gửi tập tin chỉ mục này (sitemap_index.xml) lên Google Search Console là được.​
  • Tách các loại URL khác nhau (bài viết, sản phẩm, danh mục, v.v.) ra các sitemap nhỏ riêng biệt.
  • Đảm bảo mỗi sitemap nhỏ có kích thước và số lượng URL trong giới hạn cho phép.

Sitemap chỉ mục (Index Sitemap)

Vấn đề cốt lõi:​​ Bạn đã gửi sitemap chỉ mục (sitemap_index.xml) nhưng các sitemap nhỏ liệt kê trong đó (sitemap1.xmlsitemap2.xml, v.v.) lại gặp vấn đề (đường dẫn sai, không thể truy cập, lỗi định dạng, v.v.). Điều này giống như có một mục lục đúng nhưng các chương sách cụ thể lại không tìm thấy hoặc bị hỏng.

Lỗi thường gặp:​

  • Đường dẫn sitemap nhỏ trong tập tin chỉ mục là đường dẫn tương đối (ví dụ <loc>/sitemap1.xml</loc>) trong khi phải là đường dẫn tuyệt đối đầy đủ (ví dụ <loc>https://www.yoursite.com/sitemap1.xml</loc>).
  • File sitemap nhỏ tự thân có bất kỳ lỗi nào đã nêu trên (404, 500, lỗi định dạng, quá lớn, v.v.).

Ảnh hưởng:​​ Nếu sitemap nhỏ được chỉ mục chỉ đến gặp sự cố, Google có thể không thu thập được các URL trong đó, đồng nghĩa các URL này không được gửi qua sitemap.

Cách kiểm tra?​

  • Sau khi gửi sitemap chỉ mục trên Search Console, kiểm tra trạng thái. Nếu xử lý thành công nhưng số “URL đã phát hiện” thấp hơn nhiều so với tổng số URL trong các sitemap nhỏ thì rất có thể sitemap nhỏ gặp lỗi.
  • Vào chi tiết báo cáo sitemap chỉ mục để xem trạng thái từng sitemap nhỏ!​​ Kiểm tra từng cái một để phát hiện lỗi.

Phải làm ngay:​

  • Xác nhận mỗi sitemap nhỏ trong tập tin chỉ mục đều có địa chỉ URL tuyệt đối đầy đủ.
  • Đảm bảo mỗi sitemap nhỏ được trích dẫn trong tập tin chỉ mục là khỏe mạnh (có thể truy cập, không lỗi link, định dạng đúng, kích thước phù hợp).

Googlebot “không thể truy cập” trang web của bạn

Bạn đã gửi sitemap thành công, nhưng trong báo cáo “Phủ sóng” của Search Console, trạng thái trang lại hiển thị “Đã tìm thấy – Chưa được lập chỉ mục” hoặc “Đã thu thập – Hiện chưa được lập chỉ mục”?

Nguyên nhân rất có thể là:​Googlebot hoàn toàn không thể truy cập nội dung trang web của bạn​.

Không phải chuyện phóng đại — Theo phân tích dữ liệu từ khách hàng, ​hơn 40% vấn đề lập chỉ mục bị kẹt ở bước thu thập dữ liệu​.

robots.txt có chặn bot không?

Vấn đề cốt lõi:​​ File robots.txt giống như quy định bảo vệ cổng kho hàng. Một dòng lệnh Disallow: sai có thể chặn Googlebot (Googlebot) ra khỏi toàn bộ website hoặc thư mục quan trọng, khiến nó chỉ biết URL mà không được “vào bên trong”.

Lỗi phổ biến & dấu hiệu cảnh báo:​

  • Chặn toàn bộ website, thảm họa:​Disallow: / (chỉ dấu gạch chéo). Đây là lỗi cơ bản và nghiêm trọng nhất khi kiểm tra site, thường do thiết lập thử nghiệm không gỡ hoặc nhầm lẫn thao tác. ​Nếu báo cáo phủ sóng Search Console nhiều URL hiển thị “bị chặn” hoặc không xuất hiện, rất có thể là do nguyên nhân này.​
  • Chặn tài nguyên/thư mục quan trọng:​
  • Chặn đường dẫn CSS/JS: Disallow: /static/ hoặc Disallow: /assets/. Bot tìm kiếm sẽ nhìn thấy trang web không có kiểu dáng, bố cục bị lỗi thậm chí chức năng chính bị mất, dẫn đến đánh giá chất lượng thấp và từ chối lập chỉ mục.
  • Chặn danh mục sản phẩm/bài viết: Disallow: /category/, Disallow: /products/. Bot không thể truy cập khu vực nội dung cốt lõi này, dù có nhiều trang cũng sẽ không được phát hiện.
  • Lỗi thao tác với Google: User-agent: Googlebot + Disallow: /some-path/. Ý định là hạn chế đường dẫn cụ thể nhưng lại chứa nội dung cốt lõi.
  • Chặn tham số động một cách tùy tiện: Một số trang web để tránh nội dung trùng lặp đã dùng Disallow: /*?* (chặn tất cả URL có dấu hỏi), có thể làm ảnh hưởng đến các trang lọc sản phẩm, phân trang hiệu quả.
  • Cách kiểm tra rất đơn giản!

    Mở trình duyệt truy cập: https://tên-miền-của-bạn/robots.txt. Xem kỹ từng dòng lệnh.

    Công cụ kiểm tra robots.txt trong Search Console:

    1. Nhập nội dung robots.txt hoặc tải lên file robots.txt.
    2. Chọn thử nghiệm với bot Googlebot.
    3. Nhập một vài URL trang cốt lõi (trang chủ, trang sản phẩm, trang bài viết).
    4. Xem kết quả có hiện là “Cho phép” (Allowed) không? Nếu hiển thị “Bị chặn” (Blocked) thì nhanh chóng tìm ra quy tắc Disallow liên quan để sửa.

    Cần làm ngay:

    • Kiểm tra khẩn cấp các quy tắc Disallow:: Đảm bảo không có quy tắc nào vô tình chặn toàn bộ website (/) hoặc thư mục nội dung cốt lõi/tài nguyên.
    • Chặn chính xác, tránh lạm dụng ký tự đại diện: Chỉ chặn các đường dẫn thực sự cần thiết (như trang quản trị, bản nháp chính sách bảo mật, trang kết quả tìm kiếm…). Với URL có tham số, ưu tiên dùng rel="canonical" hoặc xử lý tham số URL trong Search Console thay vì chặn tất cả.
    • Kiểm tra kỹ trước khi đưa lên: Sau khi chỉnh sửa robots.txt, phải dùng công cụ kiểm tra của Search Console xác nhận trạng thái “Cho phép” của các trang quan trọng trước khi lưu và phát hành online.

    Trang web bị lỗi tải hoặc rất chậm

    Vấn đề chính: Googlebot đã tới nhưng cửa không mở được (server sập), hoặc mở chậm đến mức bot không chờ nổi (timeout), hoặc mở ra thấy phòng trống không nội dung (render thất bại). Bot không lấy được nội dung thực tế.

    Triệu chứng thực tế của lỗi thu thập dữ liệu & dữ liệu liên quan:

    • Lỗi máy chủ 5xx (503, 500, 504): Đây là lỗi thường thấy trong nhật ký thu thập dữ liệu của Google. Đặc biệt 503 (Dịch vụ không khả dụng) nghĩa là server quá tải tạm thời hoặc bảo trì. Thu thập dữ liệu thất bại liên tục sẽ làm Google giảm ưu tiên thu thập cho site đó. Website lưu lượng lớn hoặc tài nguyên hosting hạn chế dễ gặp.
    • Timeout kết nối/đọc dữ liệu: Bot gửi yêu cầu mà trong vòng 30 giây hoặc ít hơn không nhận được phản hồi đầy đủ. Thường do cấu hình server sai (ví dụ PHP bị treo), truy vấn database chậm, tài nguyên bị nghẽn. Search Console phần “Trải nghiệm trang” hoặc phân tích log sẽ báo trang chậm và tỷ lệ lỗi.
    • Lỗi phía client 4xx (ngoại trừ 404): Ví dụ 429 (Quá nhiều yêu cầu) – server có chính sách chống bot hoặc giới hạn tần suất, từ chối Googlebot. Cần điều chỉnh hoặc cho phép IP của bot.
    • JavaScript render “trang trắng”: Trang web phụ thuộc nhiều vào JS để render nội dung chính, nhưng bot đợi thực thi JS quá lâu hoặc lỗi JS khiến render thất bại, nên chỉ nhìn thấy khung HTML trống.

    Công cụ kiểm tra:

    Google Search Console > Công cụ kiểm tra URL: Nhập URL cụ thể, xem trạng thái trong báo cáo “Phạm vi” là “Đã thu thập dữ liệu” hay khác? Nhấn “Kiểm tra URL thực tế” để kiểm tra thu thập dữ liệu và kết xuất theo thời gian thực! Điều quan trọng là xem “Ảnh chụp màn hình” và “HTML thu thập” sau khi kết xuất có chứa đầy đủ nội dung chính không.

    Search Console > Các chỉ số cốt lõi & Báo cáo trải nghiệm trang: Tỉ lệ cao các trang “FCP/LCP hiển thị kém” là khu vực bị ảnh hưởng nặng về tốc độ.

    Phân tích nhật ký máy chủ:

    1. Lọc các yêu cầu có User-agent chứa Googlebot.
    2. Chú ý kiểm tra Mã trạng thái: Ghi lại các mã 5xx, 429, 404 (404 bất ngờ).
    3. Xem Thời gian phản hồi: Thống kê thời gian phản hồi trung bình của bot, tìm các trang có thời gian chậm hơn 3 giây hoặc thậm chí 5 giây.
    4. Sử dụng công cụ giám sát nhật ký: Phân tích hiệu quả trạng thái hoạt động của Googlebot hơn.

    Kiểm tra tốc độ thực tế:

    Google PageSpeed Insights / Lighthouse: Cung cấp điểm hiệu suất, các chỉ số cốt lõi và đề xuất tối ưu cụ thể, bao gồm đánh giá nghiêm ngặt về FCP (Hiển thị nội dung đầu tiên), LCP (Vẽ nội dung lớn nhất), TBT (Tổng thời gian chặn).

    WebPageTest: Mô phỏng quá trình tải đầy đủ trang web theo vùng/thiết bị/mạng khác nhau (bao gồm dòng thời gian chi tiết và thác nước mạng), xác định chính xác thủ phạm gây tắc nghẽn tải (là JS nào? ảnh lớn? API ngoài? ).

    Phải làm ngay (theo thứ tự ưu tiên):

    • Giám sát và loại bỏ lỗi 5xx: Tối ưu tài nguyên máy chủ (CPU, bộ nhớ), truy vấn cơ sở dữ liệu, kiểm tra lỗi chương trình. Nếu dùng CDN/dịch vụ đám mây, kiểm tra trạng thái.
    • Kiểm tra lỗi 429: Xem có phải server giới hạn truy cập không. Điều chỉnh chiến lược chống bot hoặc mở whitelist IP của Googlebot (Google từng công bố danh sách IP của bot).
    • Toàn lực tối ưu tốc độ trang:
      • Tăng tốc phản hồi máy chủ: Tối ưu server, CDN, cache (Redis/Memcached).
      • Giảm dung lượng tài nguyên: Nén ảnh (ưu tiên định dạng WebP), nén và gộp CSS/JS, loại bỏ code không dùng.
      • Tối ưu tải JS: Tải bất đồng bộ, trì hoãn tải JS không quan trọng, chia nhỏ code.
      • Tối ưu đường dẫn render: Tránh CSS/JS chặn render, inline CSS quan trọng.
      • Tăng tốc tải tài nguyên: Đảm bảo CDN hoạt động trơn tru, dùng dns-prefetch, preload tài nguyên quan trọng.
    • Đảm bảo render JS đáng tin cậy: Cân nhắc render phía server (SSR) hoặc render tĩnh cho nội dung quan trọng, đảm bảo bot nhận được HTML chứa nội dung chính. Dù dùng render phía client (CSR) cũng phải đảm bảo JS chạy đúng trong giới hạn timeout của bot.

    Cấu trúc website lộn xộn, hiệu quả bot rất thấp

    Vấn đề chính: Bot dù vào từ trang chủ hay trang đầu, nhưng liên kết nội bộ như Mê cung phức tạp, khiến nó không tìm được đường dẫn hiệu quả đến trang quan trọng. Nó chỉ “chạm” được vài trang, nhiều trang sâu mặc dù có tồn tại nhưng lại như đảo cô lập không thể tiếp cận.

    Đặc điểm cấu trúc tệ & ảnh hưởng:

    • Mật độ liên kết nội bộ trên trang chủ/kênh quá thấp: Nội dung quan trọng (sản phẩm mới, bài hay) không có liên kết nổi bật. Google thống kê cho thấy trang có độ sâu nhấp hơn 4 lần từ trang chủ thì tỉ lệ được thu thập giảm đáng kể.
    • Trang cô lập nhiều: Nhiều trang gần như không hoặc rất ít liên kết từ các trang khác (đặc biệt qua liên kết HTML bình thường, không phải tạo động bằng JS hay trong Sitemap). Chúng gần như không bị bot “đi lang thang” chạm tới.
    • Liên kết bị ẩn sau menu phức tạp, điều khiển tương tác: Liên kết quan trọng phải nhấp menu phức tạp, gọi hàm JS hoặc tìm kiếm mới xuất hiện. Bot không thể “nhấn” những điều khiển này!
    • Thiếu phân loại/ thẻ/ logic liên kết hiệu quả: Nội dung không được tổ chức tốt, không thể qua điều hướng phân cấp hợp lý để tìm mọi nội dung liên quan.
    • Hệ thống phân trang lộn xộn: Không có liên kết “trang tiếp theo” rõ ràng hoặc dùng tải cuộn vô hạn khiến bot không thể “đi đến cuối”.
    • Thiếu Sitemap hoặc Sitemap kém chất lượng: Dù có Sitemap (như phần trước đề cập), nếu cấu trúc rối hoặc chỉ cung cấp index thì ít giúp định hướng bot.

    Cách đánh giá:

    • Dùng công cụ crawl web (như Screaming Frog):
      • Bắt đầu crawl từ trang chủ.
      • Xem báo cáo “Số liên kết nội bộ”: Quan tâm trang chủ có đủ nhiều liên kết (đến danh mục/ nội dung quan trọng) không?
      • Xem báo cáo “Độ sâu liên kết”: Có bao nhiêu trang quan trọng nằm sâu tầng 4 trở lên? Tỉ lệ có cao không?
      • Nhận diện “Trang cô lập” (Inlinks = 1): Trang nào quan trọng nhưng không được liên kết?
    • Xem báo cáo “Liên kết” trong Search Console: Ở tab “Liên kết nội bộ”, xem các trang mục tiêu nhận bao nhiêu liên kết nội bộ. Nếu trang quan trọng chỉ có vài hoặc không có liên kết thì có vấn đề.
    • Tắt JS để duyệt thủ công: Tắt JavaScript trên trình duyệt, mô phỏng góc nhìn bot. Menu còn dùng được không? Các liên kết trong vùng nội dung chính có nhìn thấy và nhấn được không? Các nút phân trang có hoạt động không?

    Những việc cần làm ngay:

    • Tăng cường trọng số liên kết nội bộ trên trang chủ/điều hướng chính: Phải hiển thị các đường dẫn vào nội dung quan trọng (bài viết mới, sản phẩm bán chạy, danh mục cốt lõi) bằng liên kết HTML tiêu chuẩn ở vị trí nổi bật trên trang chủ. Tránh việc để tất cả các liên kết quan trọng bị ẩn sau các phần tử cần tương tác mới thấy.
    • Xây dựng cấu trúc phân cấp trang web rõ ràng:
      • Trang chủ > Danh mục lớn (có hỗ trợ breadcrumb navigation) > Danh mục nhỏ/Thẻ > Trang nội dung cụ thể.
      • Đảm bảo mỗi cấp đều có các liên kết nội bộ đầy đủliên quan kết nối với nhau.
    • Xây cầu cho các “trang cô lập”: Thêm các liên kết tới các “trang cô lập” quan trọng nhưng thiếu liên kết trong các trang bài viết liên quan, thanh bên trang danh mục, hoặc trang sơ đồ trang web (HTML Sitemap).
    • Cẩn trọng với điều hướng tạo bằng JS: Đối với các chức năng điều hướng/phân trang/nút tải thêm phụ thuộc JS, phải cung cấp phương án dự phòng HTML (ví dụ như liên kết phân trang truyền thống), hoặc đảm bảo các phần tử điều hướng cốt lõi đã có sẵn trong mã nguồn HTML lúc tải trang (không phải tải thêm bằng AJAX).
    • Sử dụng tốt breadcrumb navigation: Hiển thị rõ vị trí người dùng, đồng thời cung cấp dấu hiệu về cấu trúc phân cấp cho spider.
    • Tạo XML Sitemap và gửi đi: Dù không thể thay thế cấu trúc liên kết nội bộ tốt, nhưng vẫn quan trọng để hướng dẫn spider phát hiện các trang sâu (đảm bảo bước “bản đồ khả dụng” đã có).

    Nội dung web mà Google đánh giá “không đáng để lập chỉ mục”

    Dữ liệu chính thức của Google cho thấy, trên tất cả các trang được crawl thành công nhưng không được lập chỉ mục, có hơn 30% bị lọc do giá trị nội dung thấp hoặc vấn đề chất lượng.

    Xem cụ thể trong báo cáo “Phạm vi” (Coverage) của Search Console, những URL bị đánh dấu “trùng lặp”, “trang thay thế có trang chuẩn” hoặc “chất lượng nội dung thấp” đều chỉ ra vấn đề nghiêm trọng ở nội dung

    • Thông tin quá ít ỏi như tờ giấy trắng
    • Sao chép từ nơi khác, không có sự mới mẻ
    • Toàn những từ khóa nhồi nhét mà người dùng không hiểu nổi

    Nhiệm vụ cốt lõi của Google là lọc và cung cấp kết quả hữu ích, độc đáo, đáng tin cậy cho người dùng.

    Thông tin thiếu hụt, không có giá trị thực tế

    Vấn đề chính: Trang chứa thông tin rất hạn chế, thiếu tính độc đáo, không giải quyết được vấn đề thực tế của người dùng như tờ giấy “trong suốt”. Thuật toán Google đánh giá đó là “nội dung giá trị thấp” (Low-value Content).

    Các loại trang “rác” phổ biến & dấu hiệu cảnh báo:

    Trang “đặt chỗ”: Trang kiểu “Sản phẩm sắp ra mắt”, “Trang danh mục chưa có sản phẩm”, “Vui lòng chờ đợi” không có nội dung thực tế. Dù có thể được gửi trong Sitemap, nhưng thực chất là trang rỗng.

    Trang “điểm cuối”: Trang “cảm ơn” sau khi gửi form (chỉ có lời cảm ơn, không có hướng dẫn tiếp theo hay nội dung liên quan), trang “hoàn tất thanh toán” (chỉ có số đơn hàng, không có liên kết theo dõi, câu hỏi thường gặp). Người dùng xong việc sẽ rời đi ngay, Google cho rằng không cần lập chỉ mục riêng.

    Trang bị “chia nhỏ” quá mức: Cố tách nội dung có thể gộp trong một trang (như các thông số khác nhau của một sản phẩm) thành nhiều URL riêng biệt, mỗi trang gần như rất ít thông tin. Search Console thường đánh dấu “trang thay thế có trang chuẩn”.

    Trang “tạo tự động” rác: Sinh ra hàng loạt bởi phần mềm, nội dung lộn xộn, câu cú không mạch lạc (thường gặp trong mạng lưới spam).

    Trang “dẫn đường” không có nội dung sâu sắc: Chỉ là danh sách liên kết, trang mục lục, không có phần văn bản giải thích về mối liên hệ hay giá trị của các liên kết. Chỉ là điểm nhảy liên kết.

    Điểm liên kết dữ liệu:

    • Trong khung EEAT của Google (Kinh nghiệm, Chuyên môn, Thẩm quyền, Đáng tin cậy), phần “E” đầu tiên (Experience – Kinh nghiệm) bị thiếu vì trang không thể hiện được trải nghiệm cung cấp thông tin hay dịch vụ hữu ích.
    • Trong báo cáo “Phạm vi” của Search Console, trạng thái có thể là “Nội dung trùng lặp”, “Không chọn lập chỉ mục – trang thay thế”, hoặc “Đã crawl – chưa lập chỉ mục” và xem chi tiết có thể thấy ghi “chất lượng nội dung thấp” hoặc “giá trị trang không đủ” (tên cảnh báo có thể thay đổi theo phiên bản).

    Làm sao để đánh giá là “mỏng”?

    • Số lượng chữ không phải là thước đo tuyệt đối, nhưng là chỉ số tham khảo: Trang có nội dung văn bản ít hơn 200-300 từ và không có các yếu tố giá trị khác như biểu đồ, video, công cụ tương tác thì rủi ro rất cao. Quan trọng là “mật độ thông tin”.
    • Tự hỏi 3 câu:
      1. Người dùng có thể giải quyết một vấn đề cụ thể hoặc học được điều mới từ trang này không? (Không thì là trang rác)
      2. Trang này có thể tồn tại độc lập không cần phụ thuộc trang khác? (Có thì có giá trị)
      3. Nội dung cốt lõi của trang có gì ngoài các liên kết dẫn đường hoặc chuyển tiếp? (Có thì có giá trị)
    • Xem tỷ lệ thoát/trung bình thời gian dừng trên trang: Nếu công cụ phân tích cho thấy trang đó có tỷ lệ thoát rất cao (>90%) và thời gian dừng trung bình cực ngắn (<10 giây), thì đây là bằng chứng rõ ràng người dùng (và Google) cho rằng trang đó không hữu ích.

    Những việc phải làm ngay:

    • Gộp hoặc xóa “trang rác”: Gộp các “trang thông số trống” bị phân mảnh quá mức vào trang sản phẩm chính; xóa hoặc noindex các trang rác tự động sinh ra, trang giữ chỗ không có nội dung.
    • Nâng cao giá trị trang “điểm kết thúc quy trình”: Thêm thời gian dự kiến / hướng dẫn các bước xác nhận / liên kết hỗ trợ liên quan vào trang “Cảm ơn”; thêm lối vào theo dõi đơn hàng, chính sách đổi trả, FAQ ở trang “Thanh toán”.
    • Bổ sung giá trị cho “trang điều hướng”: Thêm một đoạn giới thiệu ngắn ở đầu trang danh mục/danh sách liên kết, giải thích mục đích của danh mục này, nội dung bao gồm, phù hợp với ai. Ngay lập tức tăng cảm nhận giá trị.
    • Làm phong phú trang nội dung cốt lõi: Đảm bảo trang sản phẩm hoặc bài viết có mô tả chi tiết, đủ thông tin, trả lời các câu hỏi thường gặp.

    Tràn lan nội dung trùng lặp hoặc gần giống nhau

    Vấn đề chính: Nhiều URL hiển thị nội dung gần như giống hệt hoặc rất tương đồng (độ tương đồng > 80%). Điều này gây lãng phí tài nguyên công cụ tìm kiếm và làm người dùng khó chịu (tìm thấy nhiều URL khác nhau nhưng nội dung giống nhau). Google sẽ chọn chỉ một URL làm “đại diện” (Canonical URL) và bỏ qua các URL còn lại.

    Loại trùng lặp chính & mức độ ảnh hưởng:

    Ô nhiễm tham số (vấn đề lớn với trang thương mại điện tử): Cùng một sản phẩm tạo ra vô số URL do các tham số sắp xếp, lọc, theo dõi khác nhau (product?color=red&size=M, product?color=red&size=M&sort=price). Công cụ SEO thống kê 70% nội dung trùng lặp trên trang TMĐT đến từ nguyên nhân này.

    Trang in/PDF: Trang bài viết article.html và trang in article/print/ hoặc phiên bản PDF article.pdf gần như giống hệt nhau.

    Điều chỉnh khu vực/ngôn ngữ không phù hợp: Trang ở các khu vực khác nhau (us/en/page, uk/en/page) có nội dung chênh lệch rất ít.

    Trang đa phân loại: Một bài viết có nhiều thẻ, thuộc nhiều danh mục, dẫn đến nhiều đường dẫn URL khác nhau nhưng nội dung giống hệt (/news/article.html, /tech/article.html).

    Sao chép hàng loạt (trong và ngoài site): Sao chép nguyên đoạn hoặc cả trang.

    Dữ liệu:

    • Báo cáo Search Console thường hiện trạng thái “Không chọn lập chỉ mục – Trang thay thế có trang chuẩn” hoặc “Trùng lặp”. Cho biết Google đã chọn URL nào làm trang chính.
    • Công cụ crawl (Screaming Frog) có báo cáo “Độ tương đồng nội dung” giúp phát hiện hàng loạt nhóm URL có độ giống cao.

    Cách tự kiểm tra:

    Kiểm tra URL trong Search Console: Xem trạng thái và lý do cụ thể.

    Công cụ crawl Screaming Frog:

    1. Quét toàn bộ site.
    2. Báo cáo > “Nội dung” > “Nội dung tương đồng”.
    3. Đặt ngưỡng tương đồng (ví dụ 90%), xem các nhóm URL có nội dung gần như giống nhau.

    So sánh thủ công: Chọn vài URL nghi ngờ (ví dụ có tham số khác nhau), mở trên trình duyệt và so sánh nội dung chính.

    Phải làm ngay (theo thứ tự đề xuất):

    • Ưu tiên: Xác định rõ URL chuẩn (rel=canonical):
      • Trong phần <head> của mỗi trang có nghi ngờ trùng lặp, xác định chỉ một URL quyền uy duy nhất làm trang chuẩn.
      • Cú pháp: <link rel="canonical" href="https://www.example.com/this-is-the-main-page-url/" />
      • Google khuyên dùng cách này nhất!
    • Lựa chọn thứ hai: Sử dụng công cụ xử lý tham số của Google:
      • Thiết lập trong Google Search Console > Kiểm tra URL > Tham số URL.
      • Thông báo cho Google biết các tham số nào (ví dụ sort, filter_color) dùng để lọc/sắp xếp nội dung (chọn loại là “Sắp xếp” hoặc “Lọc”), Google thường sẽ bỏ qua các trùng lặp do các tham số này tạo ra.
    • Chuyển hướng 301: Đối với các URL cũ, không dùng nữa hoặc rõ ràng không phải phiên bản chính, bạn có thể chuyển hướng 301 vĩnh viễn đến URL có thẩm quyền nhất. Điều này đặc biệt phù hợp khi trang web thay đổi cấu trúc và cần bỏ các đường dẫn cũ.
    • Thẻ noindex: Với các trang không cần được thu thập hoặc lập chỉ mục (ví dụ trang in, trang có tham số theo dõi), thêm trong phần <head> của trang <meta name="robots" content="noindex">. Tuy nhiên lưu ý thẻ này không giải quyết được vấn đề lãng phí tài nguyên truy cập của bot (bot vẫn truy cập được), dùng thẻ chuẩn canonical hiệu quả hơn.
    • Xóa hoặc gộp nội dung: Với các bài viết hoặc trang trùng lặp cao trong website, nên gộp lại hoặc xóa phiên bản thừa.

    Khó đọc, lệch ý định, độ tin cậy thấp

    Vấn đề cốt lõi: Nội dung trình bày lộn xộn, câu văn cứng nhắc khó hiểu, nhồi nhét từ khóa, cung cấp thông tin sai hoặc lỗi thời hoặc không khớp với ý định tìm kiếm của người dùng, khiến trải nghiệm đọc của người dùng thật (và Google) rất tệ, không tìm được thông tin hữu ích, tự nhiên khó được xếp hạng.

    Đặc điểm Google “ghét”:

    • Khó đọc thảm họa:
      • Đoạn văn dài không chia nhỏ: Cả trang chỉ có 1 đoạn.
      • Ngôn ngữ rối rắm không trôi chảy: Nhiều lỗi chính tả, câu cú sai, rõ ràng là dịch máy.
      • Chất đầy thuật ngữ chuyên ngành không giải thích: Hướng đến người dùng phổ thông nhưng đầy các thuật ngữ chuyên môn không giải thích.
      • Trình bày tệ: Thiếu tiêu đề (H1-H6), danh sách, in đậm, gây mỏi mắt.
    • Lệch ý định (nghiêm trọng!):
      • Người dùng tìm “cách sửa ống nước” nhưng trang toàn quảng cáo sản phẩm ống nước.
      • Người dùng tìm “So sánh A và B” nhưng trang chỉ có giới thiệu A.
    • Thông tin lỗi thời/sai:
      • Luật đã thay đổi mà vẫn dùng nội dung cũ.
      • Mô tả bước thực hiện không đúng với thao tác thực tế.
    • “Nhồi nhét từ khóa”: Chèn quá nhiều từ khóa làm mất tính tự nhiên, đọc rất khó chịu.
    • Quảng cáo/cửa sổ bật lên chiếm chỗ: Nội dung chính bị quảng cáo lấn át, làm gián đoạn trải nghiệm đọc.

    Dữ liệu và điểm tham khảo đánh giá:

    Chỉ số cốt lõi của trang (CWV) có liên quan gián tiếp: Dù các chỉ số này chủ yếu về tốc độ/phản hồi, nhưng trang tải chậm dẫn đến độ trễ tương tác cao (FID/TBT kém) làm trải nghiệm đọc tồi hơn.

    Chỉ số người dùng thực (RUM): Tỷ lệ thoát rất cao + thời gian dừng trên trang gần như bằng 0 là tín hiệu rõ ràng cho thấy “nội dung không được người dùng chấp nhận”.

    Hướng dẫn đánh giá chất lượng của Google: Google công khai nhiều tiêu chí đánh giá chất lượng và EEAT, tập trung vào “Nội dung có giải quyết được ý định truy vấn của người dùng không?” + “Nội dung có đáng tin cậy không?” Mặc dù không phải thuật toán xếp hạng, nhưng tinh thần rất giống nhau.

    Cách tự kiểm tra trải nghiệm nội dung?

    • Giả lập làm người dùng mục tiêu, đọc với câu hỏi trong đầu:
      • Bạn có tìm được câu trả lời bạn muốn trên trang không?
      • Đọc có khó không? Có cần phải đi lại nhiều lần để tìm không?
      • Có bị quảng cáo hoặc cửa sổ bật lên làm gián đoạn không?
    • Kiểm tra khả năng đọc và bố cục:
      • Có thể hiện thông tin cốt lõi ngay trong 250 từ đầu tiên? (Tiêu đề H1 + đoạn đầu)
      • Bố cục tiêu đề rõ ràng (H2-H6 có thứ tự logic)?
      • Thông tin phức tạp có được trình bày rõ ràng bằng danh sách, sơ đồ, bảng biểu?
      • Đoạn văn có được giới hạn trong 3-5 câu, có đủ khoảng trắng?
    • Kiểm tra độ phù hợp với ý định tìm kiếm:
      • Từ khóa mục tiêu là gì? (Xem báo cáo Hiệu suất tìm kiếm trên Search Console)
      • Nội dung chính trên trang có trực tiếp và đầy đủ đáp ứng nhu cầu của từ khóa đó không?
      • Tiêu đề và đoạn đầu có trả lời rõ ràng câu hỏi chính không?
    • Kiểm tra độ tin cậy:
      • Có dẫn chứng, dữ liệu từ nguồn đáng tin cậy không? (Có link dẫn không?)
      • Người viết hoặc trang web có giới thiệu chuyên môn hoặc bằng cấp liên quan không? (EEAT: Chuyên môn/Thẩm quyền)
      • Ngày xuất bản hoặc cập nhật có rõ ràng? Nội dung có lỗi thời không?

    Việc cần làm ngay:

    • Viết lại đoạn văn không trôi chảy: Viết như người bình thường nói và viết!
    • Định dạng thông tin: Dùng thẻ tiêu đề phân tầng, danh sách, bảng so sánh dữ liệu.
    • Giải quyết nghiêm túc việc lệch ý định: Phân tích từ khóa chính (xem từ khóa lên top trong Search Console), đảm bảo nội dung chính trên trang phù hợp chính xác với nhu cầu người dùng từ từ khóa đó. Nếu cần, điều chỉnh trọng tâm nội dung hoặc tạo trang mới.
    • Cập nhật định kỳ và dọn dẹp nội dung: Đánh dấu độ mới của nội dung. Cập nhật hoặc gắn nhãn lưu trữ cho nội dung lỗi thời. Xóa hoặc chuyển hướng nội dung không còn hiệu quả.
    • Giảm thiểu quảng cáo gây phiền nhiễu: Kiểm soát số lượng và vị trí quảng cáo, tránh che khuất nội dung chính.
    • Tăng cường tín hiệu EEAT (quan trọng lâu dài):
      • Hiển thị thông tin chuyên môn và bằng cấp trong trang “Về chúng tôi” hoặc “Tiểu sử tác giả”.
      • Trích dẫn nguồn uy tín và có liên kết.
      • Hiển thị rõ ngày cập nhật nội dung.

    Chỉ mục bắt đầu từ bản đồ chính xác, phát triển nhờ con đường thông suốt và thành công nhờ nội dung có giá trị.

    滚动至顶部