Quy tắc tệp Robots.txt tốt nhất cho nhiều trang là gì?
Quy tắc tệp Robots.txt tốt nhất cho nhiều trang là gì? – Một trong những điều quan trọng nhất bạn có thể làm để đảm bảo sự thành công cho trang web của mình là tạo và duy trì tệp robots.txt được tối ưu hóa tốt.
Quy tắc tệp Robots.txt tốt nhất cho nhiều trang là gì? Bài viết dưới đây sẽ giải thích cho bạn:
Tệp robots.txt cho biết những trang nào trên trang web của bạn, các công cụ tìm kiếm như Google nên thu thập dữ liệu và những trang nào nên bỏ qua. Điều này quan trọng vì bạn không muốn mọi trang trên trang web của mình được lập chỉ mục – đặc biệt nếu một số trang đó có nội dung chất lượng thấp hoặc trùng lặp.
Nếu bạn có một trang WordPress nhiều trang thì bạn cần đặc biệt cẩn thận với tệp robots.txt của mình. Điều này là do một WordPress nhiều trang có thể có hàng trăm hoặc thậm chí hàng nghìn trang web, tất cả đều có cài đặt riêng.
Tin vui là Rank Math giúp bạn dễ dàng quản lý tệp robots.txt của mình trên nhiều trang WordPress. Trong bài viết cơ sở kiến thức này, chúng tôi sẽ hướng dẫn bạn tạo các quy tắc tệp robots.txt tốt nhất cho nhiều trang bằng cách sử dụng Rank Math SEO.
1. Cú pháp kỹ thuật của Robots.txt
Tác nhân người dùng: Mỗi công cụ tìm kiếm tự xác định bằng một chuỗi tác nhân người dùng thường ẩn với người dùng nhưng có thể nhìn thấy trong nhật ký máy chủ web. Tác nhân người dùng được sử dụng để phân biệt trình thu thập thông tin nào đang truy cập trang và có thể được sử dụng để xác định công cụ tìm kiếm. Ví dụ: rô-bốt của Google xác định là Googlebot, rô-bốt của Yahoo xác định là Slurp và rô-bốt của Bing được gọi là BingBot.
Không cho phép: Bạn có thể hướng dẫn các công cụ tìm kiếm không truy cập hoặc thu thập dữ liệu các tệp, trang hoặc phần nhất định trên trang web của mình bằng cách sử dụng lệnh Không cho phép. Lệnh Disallow được sử dụng để ngăn chặn quyền truy cập trực tiếp vào tệp, thư mục hoặc tài nguyên trên máy chủ web.
Cho phép: Lệnh Cho phép cho phép yêu cầu nếu máy chủ có tệp, thư mục hoặc URL được chỉ định. Nói cách khác, nó ghi đè chỉ thị Disallow. Nó được hỗ trợ bởi cả Google và Bing. Các lệnh Cho phép và Không cho phép cùng nhau cho phép bạn kiểm soát những trình thu thập dữ liệu web như Googlebot có thể xem và truy cập trang web của bạn. Bạn thậm chí có thể thiết lập quy tắc cho các trang cụ thể, do đó trình thu thập thông tin sẽ chỉ nhìn thấy một tập hợp các trang trong một thư mục nhất định chứ không nhìn thấy bất kỳ thứ gì khác.
Sơ đồ trang web: Bạn có thể sử dụng lệnh để gọi vị trí của bất kỳ (các) sơ đồ trang web XML nào được liên kết với URL này. Điều này rất hữu ích khi gửi một trang web cho mục đích SEO. Google và Bing là những công cụ tìm kiếm chính hỗ trợ sơ đồ trang web.
Trì hoãn thu thập thông tin: Có một sự thật đáng tiếc về việc lưu trữ web, mặc dù phần lớn thời gian trang web của bạn hoạt động tốt nhưng chắc chắn bạn sẽ gặp phải tình huống có sự cố với máy chủ của mình và có thể cần một số thao tác để khắc phục sự cố trở lại như cũ. Chỉ thị Trì hoãn thu thập thông tin là một phương pháp không chính thức để tránh làm quá tải máy chủ web với quá nhiều yêu cầu.
Bây giờ bạn đã biết những gì cần đưa vào tệp robots.txt của mình, hãy xem cách tạo các quy tắc tốt nhất cho nhiều trang WordPress của bạn bằng Rank Math. Trước khi chúng tôi bắt đầu, bạn cần đảm bảo rằng bạn đã cài đặt và kích hoạt phiên bản Rank Math mới nhất trên trang web WordPress của mình.
Lưu ý: Nếu bạn muốn tìm hiểu cách thêm robots.txt cho một trang web, có một bài viết trên KB này giải thích cách thiết lập robots.txt trên một trang web.
2. Làm cách nào để đặt Robots.txt cho nhiều trang?
Khi cài đặt Rank Math trên nhiều trang hoặc nhiều miền, bạn nên cài đặt nó trên mạng và chỉ sử dụng nó trên các trang web riêng lẻ.Nhưng xin lưu ý rằng robots.txt chỉ có thể được sửa đổi trên trang web chính của mạng và tất cả những thứ khác sẽ kế thừa cài đặt từ trang web chính.
Điều này là do các trang web trên mạng không có cấu trúc tệp thực tế có thể hỗ trợ các loại tệp này và đây là một hạn chế của chức năng nhiều trang.
Thông thường, tệp robots.txt phải nằm ở thư mục trên cùng của máy chủ web của bạn. Ngay cả khi đó là cài đặt thư mục con, tệp robots.txt vẫn có thể truy cập được từ URL chính.
Tuy nhiên, Rank Math sử dụng bộ robots_txtlọc để thêm nội dung. Nếu tệp robots.txt tồn tại trên máy chủ thì Rank Math sẽ tự động vô hiệu hóa tùy chọn chỉnh sửa hoặc sửa đổi tệp robots.txt. Điều này được thực hiện để ngăn người dùng ghi đè lên tệp.
3. Làm cách nào bạn có thể xử lý Robots.txt trên nhiều trang bằng cách sử dụng Rank Math?
Nếu bạn đang sử dụng WordPress nhiều trang, tệp robots.txt phức tạp hơn một chút và bạn cần cẩn thận khi chỉnh sửa tệp. Cách tốt nhất để chỉnh sửa tệp robots.txt của bạn trên nhiều trang web WordPress là sử dụng cài đặt mạng để xác định quy tắc nào áp dụng cho trang web nào trên mạng của bạn.
Lưu ý: Chúng tôi giả định rằng bạn đã cài đặt Rank Math trên nhiều trang WordPress của mình, nếu không, chúng tôi khuyên bạn nên đọc bài viết này Cài đặt Rank Math trên môi trường nhiều trang.
Tiếp theo, nhấp vào tab Bảng điều khiển cho trang web bạn muốn thêm quy tắc robots.txt.
Khi bạn ở trên trang tổng quan của trang web, hãy điều hướng Xếp hạng SEO → Cài đặt chung. Tại đây, bạn sẽ có thể chỉnh sửa tệp robots.txt của mình và thêm các quy tắc cần thiết.
Đảm bảo rằng bạn lưu các thay đổi của mình trước khi rời khỏi trang. Lặp lại các bước này cho từng trang web trên mạng mà bạn muốn thêm quy tắc robots.txt.
4. Ví dụ về Quy tắc Robots.txt
Chỉ có một số quy tắc được phép trong robots.txt và bạn nên sử dụng chúng ngay lập tức. Nếu bạn mắc một lỗi nhỏ, bạn có thể mất tất cả lưu lượng truy cập khó kiếm được và có thể mất vị trí xếp hạng. Dưới đây là một số ví dụ về quy tắc robots.txt:
4.1. Cho phép toàn bộ tên miền và chặn một thư mục con cụ thể
Điều này sẽ cho phép các bot công cụ tìm kiếm truy cập vào mọi trang trên trang web của bạn, ngoại trừ các trang nằm trong thư mục /subdirectory/. Nếu bạn có mạng nhiều trang và muốn chặn quyền truy cập vào một trang con cụ thể, bạn có thể sử dụng mã này:
Trong ví dụ trên, ký tự * là ký tự đại diện cho phép tất cả các bot truy cập vào trang web. Disallow yêu cầu các bot không thu thập dữ liệu bất kỳ trang nào trong thư mục trang con. Sơ đồ trang web cho các bot biết nơi tìm sơ đồ trang web của bạn để chúng có thể thu thập dữ liệu trang web của bạn hiệu quả hơn.
4.2. Không cho phép thu thập thông tin toàn bộ trang web
Quy tắc này ngăn tất cả các bot công cụ tìm kiếm thu thập dữ liệu toàn bộ trang web của bạn. Quy /tắc trong đại diện cho thư mục gốc của trang web và bao gồm tất cả các trang web.
Quy tắc này không được khuyến nghị cho các trang web trực tiếp vì nó chặn các bot công cụ tìm kiếm thu thập dữ liệu và lập chỉ mục trang web của bạn.
Bạn có thể sử dụng quy tắc này khi trang web của bạn đang trong giai đoạn phát triển, khi bạn không muốn trình thu thập thông tin truy cập và lập chỉ mục những nội dung chưa được hiển thị.
4.3. Không cho phép thu thập thông tin toàn bộ trang web đối với một Bot cụ thể
Nếu bạn chỉ muốn bảo mật quyền truy cập trang web của mình từ các trình thu thập dữ liệu web cụ thể, bạn có thể thay thế ký tự đại diện trong Tác nhân người dùng bằng tên của trình thu thập thông tin, chẳng hạn như Adsbot của Google.
Bây giờ, chặn trình thu thập thông tin được đề cập ở trên, nếu bạn muốn các bot công cụ tìm kiếm khác thu thập dữ liệu trang web của bạn, thì hãy sử dụng cách sau.
4.4. Robots.txt mặc định trong Rank Math
Theo mặc định, bạn sẽ có thể xem các quy tắc sau trong trường trình chỉnh sửa tệp robots.txt của Rank Math.
Bạn có thể thay đổi hoặc tùy chỉnh quy tắc này theo nhu cầu của bạn. Nhưng chúng tôi khuyên bạn nên giữ một bản sao của quy tắc này trước khi thực hiện bất kỳ thay đổi nào.
4.5. Không cho phép truy cập vào thư mục cụ thể
Nếu bạn muốn chặn quyền truy cập vào các thư mục cụ thể trên trang web của mình, thì bạn có thể bao gồm đường dẫn tương đối của thư mục đó với quy tắc không cho phép. Quy tắc sau đây cho bạn thấy một ví dụ về việc bạn có thể chặn quyền truy cập vào các trang nguồn cấp dữ liệu trên trang web của mình.
4.6. Không cho phép thu thập thông tin các tệp của một loại tệp cụ thể
Bạn cũng có thể cân nhắc sử dụng quy tắc sau để ngăn trình thu thập thông tin của công cụ tìm kiếm truy cập hoặc thu thập thông tin các loại tệp cụ thể.
Tuy nhiên, việc chặn file CSS, JS không được Google khuyến khích. Bởi vì nó sẽ ngăn việc hiển thị trang cho Google và điều này có thể ảnh hưởng đến thứ hạng tìm kiếm của bạn.
5. Kết luận
Và thế là xong! Chúng tôi hy vọng bài viết KB này đã giúp bạn hiểu cách chỉnh sửa quy tắc robots.txt cho nhiều trang hoặc nhiều miền. Nếu bạn vẫn có bất kỳ câu hỏi nào hoặc gặp phải bất kỳ vấn đề nào khi chỉnh sửa quy tắc robots.txt cho một trang web hoặc nhiều trang web, vui lòng liên hệ với nhóm hỗ trợ tận tâm của chúng tôi bất cứ lúc nào vì chúng tôi luôn sẵn sàng 24/7, 365 ngày một năm. Chúng tôi rất vui được giúp đỡ bạn bất cứ lúc nào.