Tiêu đề HTTP X-Robots-Tag là gì? Và làm thế nào để sử dụng nó?

5/5 - (1 vote)

Tiêu đề HTTP X-Robots-Tag là gì? Và làm thế nào để sử dụng nó?

Tiêu đề HTTP X-Robots-Tag là gì? Và làm thế nào để sử dụng nó? – Theo truyền thống, bạn sẽ sử dụng robots.txt tệp trên máy chủ của mình để quản lý những trang, thư mục, tên miền phụ hoặc các công cụ tìm kiếm nội dung khác sẽ được phép thu thập thông tin. Nhưng bạn có biết còn có một thứ như tiêu đề HTTP X-Robots-Tag không? Tại đây, chúng ta sẽ thảo luận về các khả năng và cách đây có thể là lựa chọn tốt hơn cho blog của bạn.

Tiêu đề HTTP X-Robots-Tag là gì? Và làm thế nào để sử dụng nó? Bài viết dưới đây sẽ giải thích cho bạn:

Tiêu đề HTTP X-Robots-Tag là gì Và làm thế nào để sử dụng nó 1
Tiêu đề HTTP X-Robots-Tag là gì Và làm thế nào để sử dụng nó 1
  1. robots.txt

Trước khi tiếp tục, chúng ta hãy xem robots.txt tập tin làm gì. Tóm lại, nó yêu cầu các công cụ tìm kiếm không thu thập dữ liệu một trang, tệp hoặc thư mục cụ thể trên trang web của bạn. Sử dụng điều này sẽ giúp ích cho cả bạn và các công cụ tìm kiếm như Google. Bằng cách không cung cấp quyền truy cập vào các khu vực cụ thể, không quan trọng trên trang web của bạn, bạn có thể tiết kiệm ngân sách thu thập dữ liệu và giảm tải cho máy chủ của mình.

Xin lưu ý rằng khôngrobots.txt nên sử dụng tệp để ẩn toàn bộ trang web của bạn khỏi các công cụ tìm kiếm. Hướng dẫn cơ bản về robots.txt của chúng tôi có mọi thứ bạn cần về chủ đề này.

Tiêu đề HTTP X-Robots-Tag là gì Và làm thế nào để sử dụng nó 2
Tiêu đề HTTP X-Robots-Tag là gì Và làm thế nào để sử dụng nó 2
  1. Nói xin chào với X-Robots-Tag

Năm 2007, Google đã thêm hỗ trợ cho chỉ thị X-Robots-Tag. Điều này có nghĩa là bạn không chỉ có thể hạn chế quyền truy cập của các công cụ tìm kiếm thông qua tệp robots.txt mà còn có thể đặt các lệnh liên quan đến robot.txt theo chương trình trong tiêu đề của phản hồi HTTP. Bạn có thể đang nghĩ, “Nhưng thay vào đó, tôi không thể sử dụng thẻ meta robot sao?”. Câu trả lời là có. Và không.

Nếu bạn dự định chặn một trang cụ thể được viết bằng HTML theo chương trình thì việc sử dụng thẻ meta là đủ. Nhưng nếu bạn dự định chặn Googlebot thu thập dữ liệu hình ảnh chẳng hạn, bạn có thể sử dụng phương pháp phản hồi HTTP để thực hiện việc này bằng mã. Bạn luôn có thể sử dụng phương pháp sau nếu bạn không muốn thêm HTML bổ sung vào trang web của mình.

Dưới đây là ví dụ về phản hồi HTTP có Thẻ X-Robots hướng dẫn trình thu thập thông tin không lập chỉ mục một trang và không theo các liên kết trên trang đó:

HTTP/1.1 200 OK

Date: Thu, 25 November 2021 20:12:23 GMT

(…)

X-Robots-Tag: noindex, nofollow

(…)

  1. Chỉ thị X-Robots-Tag

Có hai loại chỉ thị khác nhau: chỉ thị trình thu thập thông tin và chỉ thị trình lập chỉ mục. Chúng tôi sẽ giải thích ngắn gọn sự khác biệt dưới đây.

Chỉ thị của trình thu thập thông tin

Tệp robots.txtchỉ chứa cái gọi là ‘chỉ thị trình thu thập thông tin’, cho các công cụ tìm kiếm biết họ được phép đi đâu hoặc không được phép đi đến đâu. Bằng cách sử dụng lệnh này, bạn có thể chỉ định nơi công cụ tìm kiếm được phép thu thập thông tin:

Allow

Lệnh này thực hiện hoàn toàn ngược lại:

Disallow

Ngoài ra, bạn có thể sử dụng lệnh sau để giúp các công cụ tìm kiếm thu thập dữ liệu trang web của bạn nhanh hơn:

Sitemap

Lưu ý rằng cũng có thể tinh chỉnh các lệnh cho một công cụ tìm kiếm cụ thể bằng cách sử dụng lệnh sau kết hợp với các lệnh khác:

User-agent

Hãy nhớ rằng các trang vẫn có thể hiển thị trong kết quả tìm kiếm trong trường hợp có đủ liên kết trỏ đến chúng, mặc dù đã xác định rõ ràng các trang này bằng lệnh sau:

Disallow

Điều này có nghĩa là nếu bạn muốn thực sự che giấu điều gì đó khỏi các công cụ tìm kiếm và do đó với những người sử dụng tìm kiếm thì robots.txtsẽ không đủ.

Tiêu đề HTTP X-Robots-Tag là gì Và làm thế nào để sử dụng nó 3
Tiêu đề HTTP X-Robots-Tag là gì Và làm thế nào để sử dụng nó 3
  1. Chỉ thị của người lập chỉ mục

Chỉ thị của người lập chỉ mục là các chỉ thị được đặt trên cơ sở từng trang và/hoặc từng phần tử. Cho đến tháng 7 năm 2007, có hai chỉ thị: microformat rel=”nofollow”, nghĩa là liên kết đó không được vượt qua Authority/PageRank và thẻ Meta Robots.

Với thẻ Meta Robots, bạn thực sự có thể ngăn công cụ tìm kiếm hiển thị các trang mà bạn muốn loại khỏi kết quả tìm kiếm. Bạn có thể đạt được kết quả tương tự với tiêu đề HTTP X-Robots-Tag. Như đã mô tả trước đó, X-Robots-Tag mang đến cho bạn sự linh hoạt hơn bằng cách cho phép bạn kiểm soát cách lập chỉ mục (các loại) tệp cụ thể. Thông tin thêm về chủ đề này trong hướng dẫn cơ bản về meta robot của chúng tôi.

  1. Ví dụ về X-Robots-Tag đang được sử dụng

Lý thuyết thì hay đấy, nhưng hãy xem bạn có thể sử dụng X-Robots-Tag như thế nào trong thực tế! Nếu bạn muốn ngăn công cụ tìm kiếm hiển thị các tệp bạn đã tạo bằng PHP, bạn có thể thêm phần sau vào phần đầu của tệp header.php:

header(“X-Robots-Tag: noindex”, true);

Điều này sẽ không ngăn cản các công cụ tìm kiếm theo dõi các liên kết trên các trang đó. Nếu bạn muốn làm điều đó, hãy thay đổi ví dụ trước như sau:

header(“X-Robots-Tag: noindex, nofollow”, true);

Mặc dù phương pháp này trong PHP có những lợi ích riêng nhưng có thể bạn sẽ muốn chặn hoàn toàn các loại tệp cụ thể. Cách tiếp cận thực tế hơn là thêm X-Robots-Tag vào cấu hình máy chủ Apache của bạn hoặc tệp.htaccess. Hãy tưởng tượng bạn điều hành một trang web có một số tệp.doc nhưng bạn không muốn các công cụ tìm kiếm lập chỉ mục loại tệp đó vì một lý do cụ thể. Trên máy chủ Apache, bạn nên thêm dòng sau vào tệp cấu hình/a.htaccess:

<FilesMatch “.doc$”>

Header set X-Robots-Tag “noindex, noarchive, nosnippet”

 

Hoặc nếu bạn muốn thực hiện việc này cho cả tệp.doc và.pdf:

<FilesMatch “.(doc|pdf)$”>

Header set X-Robots-Tag “noindex, noarchive, nosnippet”

 

Nếu bạn đang chạy Nginx thay vì Apache, bạn có thể nhận được kết quả tương tự bằng cách thêm phần sau vào cấu hình máy chủ:

location ~* .(doc|pdf)$ {

add_header X-Robots-Tag “noindex, noarchive, nosnippet”;

}

Có những trường hợp chính tệp robots.txt có thể hiển thị trong kết quả tìm kiếm. Bằng cách sử dụng thay đổi phương pháp trước đó, bạn có thể ngăn điều này xảy ra với trang web của mình:

<FilesMatch “robots.txt”>

Header set X-Robots-Tag “noindex”

 

Và trong Nginx:

location = robots.txt {

add_header X-Robots-Tag “noindex”;

}

Tiêu đề HTTP X-Robots-Tag là gì Và làm thế nào để sử dụng nó 4
Tiêu đề HTTP X-Robots-Tag là gì Và làm thế nào để sử dụng nó 4
  1. Kết luận

Như bạn có thể thấy, dựa trên các ví dụ ở trên, tiêu đề HTTP X-Robots-Tag là một công cụ mạnh mẽ. Hãy sử dụng nó một cách khôn ngoan và thận trọng, vì bạn sẽ không phải là người đầu tiên vô tình chặn toàn bộ trang web của mình. Tuy nhiên, đây là một bổ sung tuyệt vời cho bộ công cụ của bạn nếu bạn biết cách sử dụng nó.

Xem thêm: Chúng tôi đang triển khai tích hợp IndexNow trong Yoast SEO

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses cookies to offer you a better browsing experience. By browsing this website, you agree to our use of cookies.