No-index là một cách thức hiệu quả để giúp cho các webmaster có thể ngăn chặn các bot của công cụ tìm kiếm xâm nhập thu thập dữ liệu trong website. Trên thực tế thì rất có thể những con bot vẫn có thể thu thập dữ liệu cho những page được gắn thẻ no-index. Tuy nhiên, chúng sẽ không lập chỉ mục những trang này, điều này đồng nghĩa với việc những thông tin trong page được gắn no-index người dùng không thể tìm thấy thông qua các công cụ tìm kiếm.
Bài viết tham khảo:
- Xây dựng Permalink thân thiện trong SEO
- Yếu tố di động được Google chú ý trong xếp hạng
- Khi mới đăng bài lên website bạn cần làm gì tiếp theo?
Spider thu thập dữ liệu
Những điều bạn cần biết khi sử dụng thẻ no – index
Google có thể no- index một trang mà không cần thẻ điều hướng meta no-index
Nghĩa là dù rằng bạn không gắn thẻ meta no-index cho một page nào đó nhưng Google vẫn không vào lập chỉ mục. Đây là tình trạng rất dễ gặp, đối với những trang website hàng ngày cập nhật lên một lượng lớn nội dung thì Google bot không thể nào crawls hết tất cả, cộng với một trong số những nội dung nơi ấy không có người truy cập thì tự dưng Google sẽ không biết đến sự tồn tại của những nội dung ấy.
Google tự động loại những đường dẫn của các trang no- index
Ngay sau khi cập nhật nội dung lên website mà không được Google vào thu thập dữ liệu thì tự khắc Google sẽ loại bỏ tất cả các đường dẫn trùng url của những trang này trên SERP.
Xâm nhập và thu thập thông tin từ các trang gắn thẻ no-index
Thẻ no – index như một tín hiệu thông báo với Google không được phép vào lấy thông tin rồi index lên SERP. Tuy nhiên, Google bot vẫn sẽ truy cập và thu thập các dữ liệu bên trong như các liên kết trong trang. Chính vì vậy, mặc dù các trang no-index không được Google lập chỉ mục, chúng vẫn được công cụ tìm kiếm xác nhận là tồn tại và theo dõi thông tin.
Tự động index những trang đang được gắn thẻ no – index
Đối với những trang được gắn thẻ no –index nhưng người dùng tìm thấy bằng một hình thức nào đó thì trang ấy sẽ được lưu giữ lại trên trình duyệt và khi người đó cần tìm lại thì sẽ dễ dàng tìm thấy trên SERP. Tuy nhiên, trang no – index ấy chỉ lưu lại trên thiết bị đã truy cập.