Cách chỉnh sửa Robots.txt của bạn với SEO Rank Math
Cách chỉnh sửa Robots.txt của bạn với SEO Rank Math – Tệp robots.txt thông báo cho công cụ tìm kiếm những trang nào trên trang web của bạn sẽ được thu thập dữ liệu. Điều này có thể dễ dàng được chỉnh sửa bằng plugin Rank Math SEO. Nếu bạn chưa sử dụng Rank Math trên trang web của mình – hãy tìm hiểu thêm và bắt đầu tại đây.
Cách chỉnh sửa Robots.txt của bạn với SEO Rank Math là gì? Bài viết dưới đây sẽ giải thích cho bạn:
Trong hướng dẫn này, chúng tôi sẽ chỉ cho bạn cách bạn có thể chỉnh sửa tệp robots.txt với sự trợ giúp của Rank Math.
1. Tại sao Robots.txt lại quan trọng?
Trước khi bắt đầu chỉnh sửa tệp robots.txt, chúng ta hãy cố gắng hiểu tầm quan trọng của nó.
Khi trình thu thập dữ liệu của công cụ tìm kiếm hoặc bất kỳ bot nào truy cập trang web của bạn, trước tiên chúng sẽ tìm kiếm sự hiện diện của tệp robots.txt vì tệp này chứa các hướng dẫn quan trọng về cách công cụ tìm kiếm thu thập dữ liệu trang web của bạn.
Mặc dù hầu hết các bot đều đáp ứng yêu cầu của bạn nhưng một số bot chứa phần mềm độc hại và bot quét email không có khả năng làm theo hướng dẫn từ robots.txt. Tuy nhiên, điều đó nói lên rằng, trong hầu hết các trường hợp, những bot xấu này hầu như không có bất kỳ lưu lượng truy cập nào và do đó, bạn có thể an toàn bỏ qua những bot như vậy.
2. Cách tìm tệp robots.txt của bạn
Tệp robots.txt của bạn nằm ở thư mục gốc của miền. Bạn có thể xem nó bằng cách nhập tên miền của bạn và /robots.txt vào thanh địa chỉ của trình duyệt. Ví dụ, https://yourdomain.com/robots.txt. Sau khi hoàn tất, tệp robots.txt của bạn sẽ được hiển thị như hiển thị bên dưới.
URL sẽ hiển thị nội dung của tệp robots.txt vật lý hoặc ảo của bạn. Nếu đang sử dụng Rank Math, bạn có thể chỉnh sửa nội dung của tệp robots.txt ảo như minh họa bên dưới.
3. Cách chỉnh sửa Robots.txt của bạn bằng Rank Math
Rank Math giúp bạn có thể chỉnh sửa tệp robots.txt ngay trong bảng điều khiển WordPress của mình bằng cách tạo một tệp ảo. Nếu muốn chỉnh sửa tệp robots.txt bằng Rank Math, bạn sẽ cần xóa tệp robots.txt thực tế (nếu có) khỏi thư mục gốc của trang web bằng ứng dụng khách FTP.
Như đã nói, để chỉnh sửa tệp robots.txt của bạn bằng Rank Math, bạn có thể làm theo các bước dưới đây.
3.1. Điều hướng đến Chỉnh sửa Robots.txt
Để bắt đầu, hãy truy cập Bảng điều khiển WordPress → Xếp hạng SEO Rank Math.
Tiếp theo, điều hướng đến góc trên bên phải của trang và đảm bảo rằng Chế độ nâng cao được bật. Sau khi hoàn tất, hãy nhấp vào Cài đặt chung, như hình bên dưới.
3.2. Thêm mã vào Robots.txt của bạn
Theo mặc định, Rank Math sẽ tự động thêm một bộ quy tắc (bao gồm Sơ đồ trang web của bạn vào tệp robots.txt của bạn. Nhưng bạn luôn có thể thêm/chỉnh sửa mã theo ý muốn trong vùng văn bản có sẵn.
Nếu bạn không chắc chắn về các quy tắc có sẵn để sử dụng với tệp robots.txt của mình, hãy chờ vì chúng tôi cũng sẽ sớm thảo luận về chúng trong bài viết này. Và nếu bạn cần bản sao của các quy tắc robots.txt mặc định, bạn có thể tham khảo chúng tại đây.
3.3. Lưu thay đổi của bạn
Lưu các thay đổi của bạn bằng cách nhấp vào Lưu Thay đổi sau khi bạn đã thực hiện các thay đổi cần thiết đối với tệp.
Thận trọng Hãy cẩn thận khi thực hiện bất kỳ thay đổi lớn hoặc nhỏ nào đối với trang web của bạn thông qua robots.txt. Mặc dù những thay đổi này có thể cải thiện lưu lượng tìm kiếm của bạn nhưng chúng cũng có thể gây hại nhiều hơn là có lợi nếu bạn không cẩn thận.
4. Quy tắc robots.txt
Bây giờ chúng ta đã biết cách chỉnh sửa robots.txt bằng Rank Math, hãy cùng tìm hiểu các quy tắc mà bạn có thể thêm vào tệp robots.txt của mình.
Quy tắc (hoặc lệnh) trong robots.txt chỉ đơn giản là hướng dẫn cho trình thu thập thông tin về những trang cần lập chỉ mục. Đó là một cách đơn giản để nói, ‘ Này trình thu thập thông tin, bạn nên thu thập dữ liệu các trang này chứ không phải các trang từ các chỉ thị đó ‘, v.v.
Mỗi nhóm bắt đầu bằng Tác nhân người dùng, sau đó chỉ định những thư mục hoặc tệp nào mà tác nhân có thể truy cập và không thể truy cập.
Theo mặc định, giả định rằng tác nhân người dùng có thể thu thập dữ liệu bất kỳ trang nào trên trang web của bạn trừ khi bạn chặn quyền truy cập một cách cụ thể bằng quy tắc không cho phép.
Và bây giờ, hãy xem xét các quy tắc (hoặc chỉ thị khác nhau có thể được sử dụng trong robots.txt:
Đại lý người dùng Quy tắc cho biết trình thu thập dữ liệu web (hoặc bot) mà nhóm đang nhắm mục tiêu. Danh sách đầy đủ các tác nhân người dùng Google và tác nhân người dùng Bing có sẵn tại đây.
Không cho phép Quy tắc đề cập đến thư mục hoặc trang trên trang web của bạn mà bạn không muốn tác nhân người dùng thu thập dữ liệu.
Cho phép Quy tắc đề cập đến thư mục hoặc trang trên trang web của bạn mà bạn muốn tác nhân người dùng thu thập dữ liệu.
Sơ đồ trang web Quy tắc cho biết sơ đồ trang web của trang web và phải được nhập dưới dạng URL đủ điều kiện. Mặc dù nó là tùy chọn, nhưng đó là một cách thực hành tốt.
Xin lưu ý, mọi dòng trong robots.txt của bạn không khớp với các chỉ thị trên đều hoàn toàn bị bỏ qua. Và tất cả các lệnh ngoại trừ sơ đồ trang web sẽ chấp nhận ký tự đại diện * làm tiền tố, hậu tố hoặc toàn bộ chuỗi. $ là một ký tự đại diện khác được cả Google & Bing tôn trọng và nó cho biết phần cuối của URL.
5. Ví dụ về quy tắc Robots.txt
Mặc dù chỉ có một số quy tắc được phép trong robots.txt nhưng vẫn dễ mắc lỗi hơn. Do đó, chúng tôi có một số ví dụ về quy tắc robots.txt mà bạn có thể sử dụng ngay.
5.1. Không cho phép thu thập thông tin toàn bộ trang web
Quy tắc không cho phép này sẽ ngăn tất cả các bot thu thập dữ liệu toàn bộ trang web của bạn. Ở /đây đại diện cho thư mục gốc của thư mục trang web và tất cả các trang phân nhánh từ đó. Do đó, nó bao gồm trang chủ của trang web của bạn và tất cả các trang được liên kết từ đó.
Chúng tôi khuyên bạn không nên sử dụng quy tắc này trên trang web đang hoạt động vì trình thu thập thông tin của công cụ tìm kiếm sẽ không thu thập dữ liệu và lập chỉ mục trang web của bạn. Tuy nhiên, điều đó nói lên rằng, quy tắc này được sử dụng trong các trang web phát triển và dàn dựng, nơi bạn không muốn trình thu thập thông tin truy cập và lập chỉ mục nội dung của trang web.
5.2. Không cho phép thu thập thông tin toàn bộ trang web đối với một Bot cụ thể
Thay vì chặn quyền truy cập vào tất cả các trình thu thập thông tin web, nếu bạn muốn bảo mật quyền truy cập trang web của mình từ các trình thu thập thông tin cụ thể, hãy thay thế ký tự đại diện trong Tác nhân người dùng bằng tên của trình thu thập thông tin. Ví dụ: quy tắc sau sẽ chặn quyền truy cập vào Adsbot của Google.
Và nếu bạn muốn đề cập rõ ràng rằng các bot khác có thể thu thập dữ liệu trang web của bạn thì hãy sử dụng nhóm quy tắc sau.
5.3. Xếp hạng các quy tắc Robots.txt mặc định trong Rank Math
Theo mặc định, Rank Math bao gồm các quy tắc sau trong tệp robots.txt. Nếu bạn tình cờ xóa các quy tắc này khỏi tệp robots.txt của mình nhưng sau đó muốn đưa chúng vào, bạn có thể sao chép-dán các quy tắc sau. Đảm bảo thay thế yoursite.com bằng tên miền của bạn.
5.4. Không cho phép truy cập vào thư mục cụ thể
Để chặn quyền truy cập vào các thư mục cụ thể trên trang web của bạn, bạn có thể bao gồm đường dẫn tương đối của thư mục với quy tắc không cho phép. Ví dụ: nếu bạn muốn chặn quyền truy cập vào các trang nguồn cấp dữ liệu trên trang web của mình, bạn có thể bao gồm quy tắc như sau.
5.5. Không cho phép thu thập thông tin các tệp của một loại tệp cụ thể
Nếu bạn muốn ngăn trình thu thập thông tin của công cụ tìm kiếm truy cập vào các loại tệp cụ thể thì bạn có thể cân nhắc sử dụng quy tắc sau. Nhưng xin lưu ý, việc chặn các tệp CSS và JS không được Google khuyến nghị, vì nó sẽ ngăn việc hiển thị trang cho Google và điều này có thể ảnh hưởng đến lưu lượng tìm kiếm của bạn.
5.6. Không cho phép Mô hình AI & Chatbot sử dụng nội dung của bạn
Nếu bạn không muốn Google sử dụng nội dung trang web của bạn để đào tạo các mô hình Gemini và Vertex AI, bạn có thể không cho phép tác nhân người dùng của nó.
Xin lưu ý rằng điều này sẽ không ngăn Google thu thập dữ liệu và lập chỉ mục nội dung trang web của bạn cho kết quả tìm kiếm. Ngoài ra, điều này sẽ không ngăn nội dung của bạn xuất hiện trong phần Tổng quan về AI của Google trong kết quả tìm kiếm.
Tương tự, nếu bạn muốn ngăn nội dung của mình được sử dụng để huấn luyện mô hình AI, bạn có thể không cho phép tác nhân người dùng tương ứng. Ví dụ: bạn có thể chặn OpenAI sử dụng nội dung của mình để đào tạo các mô hình AI của nó (bao gồm ChatGPT) bằng quy tắc bên dưới.
Lưu ý: Quy tắc này cũng sẽ chặn người dùng ChatGPT sử dụng ChatGPT-Userbot để duyệt trang web của bạn.
Và thế là xong! Chúng tôi hy vọng hướng dẫn này đã giúp bạn chỉnh sửa tệp robots.txt của mình bằng cách sử dụng Rank Math. Nhưng xin lưu ý, bạn cũng có thể tạo và chỉnh sửa tệp robots.txt của mình theo cách thủ công và nếu muốn theo cách đó, bạn chỉ cần tải tệp lên thư mục gốc của trang web (trên máy chủ của bạn) và chỉnh sửa nó — nếu bạn không chắc chắn về nơi tải tệp lên, bạn luôn có thể kiểm tra với nhà cung cấp dịch vụ lưu trữ web của mình để được hỗ trợ thêm.
Sau khi chỉnh sửa tệp robots.txt, bạn luôn có thể thử mô phỏng quá trình thu thập dữ liệu các trang trên trang web của mình bằng bot Google và kiểm tra xem chúng có thể truy cập trang hay không bằng cách sử dụng trình kiểm tra robots.txt.
Nếu bạn vẫn có bất kỳ câu hỏi nào về việc chỉnh sửa tệp robots.txt của mình bằng Rank Math hoặc gặp phải vấn đề trong khi chỉnh sửa, bạn luôn sẵn sàng liên hệ với nhóm hỗ trợ tận tâm của chúng tôi và chúng tôi luôn sẵn sàng 24/7, 365 ngày một năm…
Xem thêm: Cách gửi và xác minh trang web của bạn trên Alexa bằng Rank Math