Ngăn chặn việc lập chỉ mục trang web của bạn đúng cách
Ngăn chặn việc lập chỉ mục trang web của bạn đúng cách – Chúng tôi đã nói điều đó từ lâu rồi, nhưng chúng tôi sẽ nhắc lại: điều khiến chúng tôi ngạc nhiên là vẫn có những người chỉ sử dụng tệp robots.txt để ngăn việc lập chỉ mục trang web của họ trong Google hoặc Bing. Kết quả là, trang web của họ vẫn hiển thị trong các công cụ tìm kiếm.
Bạn có biết tại sao nó luôn làm chúng ta ngạc nhiên không? Bởi vì robots.txt thực sự không làm điều sau, mặc dù nó ngăn cản việc lập chỉ mục trang web của bạn. Hãy để tôi giải thích cách thức hoạt động của nó trong bài viết này.
Ngăn chặn việc lập chỉ mục trang web của bạn đúng cách là gì? Bài viết dưới đây sẽ giải thích cho bạn:
Để biết thêm về robots.txt, vui lòng đọc robots.txt: hướng dẫn cơ bản. Hoặc tìm các phương pháp hay nhất để xử lý robots.txt trong WordPress.
-
Có sự khác biệt giữa việc được lập chỉ mục và được liệt kê trong Google
Trước khi giải thích thêm, trước tiên chúng ta cần xem qua một số thuật ngữ ở đây:
Được lập chỉ mục / Lập chỉ mục
Quá trình tải một trang web hoặc nội dung của một trang xuống máy chủ của công cụ tìm kiếm, từ đó thêm nó vào “chỉ mục” của nó.
Xếp hạng / Liệt kê / Hiển thị
Hiển thị một trang web trong các trang kết quả tìm kiếm (còn gọi là SERPs).
Vì vậy, mặc dù quy trình phổ biến nhất là từ Lập chỉ mục đến Danh sách, nhưng một trang web không cần phải được lập chỉ mục để được liệt kê. Nếu một liên kết trỏ đến một trang, tên miền hoặc bất cứ nơi nào, Google sẽ đi theo liên kết đó. Nếu robots.txt trên miền đó ngăn công cụ tìm kiếm lập chỉ mục trang đó thì nó vẫn sẽ hiển thị URL trong kết quả nếu nó có thể thu thập từ các biến khác mà nó có thể đáng xem.
Ngày xưa, đó có thể là DMOZ hoặc thư mục Yahoo, nhưng tôi có thể tưởng tượng Google đang sử dụng, chẳng hạn như thông tin chi tiết về Doanh nghiệp của tôi ngày nay hoặc dữ liệu cũ từ các dự án này. Nhiều trang web tóm tắt trang web của bạn, phải không.
Bây giờ nếu lời giải thích ở trên không có ý nghĩa, hãy xem video giải thích này của cựu nhân viên Google Matt Cutts từ năm 2009:
Nếu bạn có lý do để ngăn việc lập chỉ mục trang web của mình, việc thêm yêu cầu đó vào trang cụ thể mà bạn muốn chặn như Matt đang nói đến, vẫn là cách đúng đắn.
Nhưng bạn sẽ cần thông báo cho Google về thẻ meta robot đó. Vì vậy, nếu muốn ẩn các trang khỏi công cụ tìm kiếm một cách hiệu quả, bạn cần chúng lập chỉ mục các trang đó. Mặc dù điều đó có vẻ mâu thuẫn. Có hai cách để làm điều đó.
-
Ngăn danh sách trang của bạn bằng cách thêm thẻ meta robot
Tùy chọn đầu tiên để ngăn danh sách trang của bạn là sử dụng thẻ meta robot. Chúng tôi có hướng dẫn cơ bản về thẻ meta rô-bốt, hướng dẫn này bao quát hơn nhưng về cơ bản nó chỉ đơn giản là thêm thẻ này vào trang của bạn:
Nếu bạn sử dụng Yoast SEO, việc này cực kỳ dễ dàng! Không cần phải tự thêm mã. Tìm hiểu cách thêm thẻ noindex với Yoast SEO tại đây.
Tuy nhiên, vấn đề với một thẻ như vậy là bạn phải thêm nó vào mỗi trang.
Tab nâng cao trong Yoast SEO để đặt trang thành noindex hoặc nofollow
Quản lý thẻ meta robot được đơn giản hóa trong Yoast SEO
Hoặc bằng cách thêm tiêu đề HTTP X-Robots-Tag
Để làm cho quá trình thêm thẻ meta robots vào mỗi trang trên trang web của bạn dễ dàng hơn một chút, các công cụ tìm kiếm đã đưa ra tiêu đề HTTP X-Robots-Tag. Điều này cho phép bạn chỉ định tiêu đề HTTP được gọi X-Robots-Tagvà đặt giá trị giống như giá trị của thẻ meta robot. Điều thú vị ở đây là bạn có thể làm điều đó cho toàn bộ trang web. Nếu trang web của bạn đang chạy trên Apache và mod_headers được bật (thường là như vậy), bạn có thể thêm dòng đơn sau vào tệp.htaccess của mình:
Header set X-Robots-Tag “noindex, nofollow”
Và điều này sẽ có tác dụng là toàn bộ trang web đó có thể được lập chỉ mục. Nhưng sẽ không bao giờ được hiển thị trong kết quả tìm kiếm.
Vì vậy, hãy loại bỏ tệp robots.txt có Disallow: /trong đó. Thay vào đó, hãy sử dụng X-Robots-Tag hoặc thẻ meta robot đó!