Tối ưu ngân sách thu thập thông tin: Điều cần thiết để SEO thành công

Rate this post

Tối ưu ngân sách thu thập thông tin: Điều cần thiết để SEO thành công

Google không phải lúc nào cũng thu thập thông tin toàn bộ các trang trên một website ngay lập tức. Đôi khi, quy trình trên có thể kéo dài vài tuần, gây khó khăn cho chiến dịch SEO của bạn.

Trang đích mới được tối ưu có thể không được lập chỉ mục. Lúc này, đã đến lúc bạn cần tối ưu ngân sách thu thập thông tin của website. Hãy cùng tìm hiểu “ngân sách thu thập thông tin” là gì và cách thức tối ưu ngân sách giúp Google hiểu sâu thêm về website của bạn.

toi-uu-ngan-sach-thu-thap-thong-tin-dieu-can-thiet-de-seo-thanh-cong
Tối ưu ngân sách thu thập thông tin: Điều cần thiết để SEO thành công

 

Ngân sách thu thập thông tin – Bí quyết cho SEO thành công

Ngân sách thu thập thông tin (crawl budget) là số lượng trang mà Google sẽ thu thập thông tin trên website của bạn hàng ngày. Con số này có thể biến động một chút, tuy nhiên nói chung, vẫn khá ổn định. Google có thể thu thập thông tin 6 trang, 5.000 trang, hoặc 4.000.000 trang mỗi ngày trên website của bạn.

“Ngân sách” này sẽ được xác định bằng kích cỡ website, “sức khoẻ” của website (số lượng sự cố do Google gặp phải) và số lượng link về website của bạn. Một số yếu tố trong danh sách trên bạn có thể áp dụng nhằm tối ưu ngân sách thu thập thông tin, chúng ta cùng khám phá nha!

Cách thức làm việc của trình thu thập thông tin

Trình thu thập thông tin giống Googlebot làm việc như một “con nhện” cần mẫn, dò theo danh sách từng URL cần thu thập thông tin trên website. Nó sẽ quét tập tin robots.txt để xác nhận được quyền thu thập thông tin mỗi URL và từ đó thu thập thông tin các URL khác. Khi “con nhện” đã thu thập thông tin một URL và phát hiện chúng, Google sẽ thêm các URL mới được nhìn thấy trên trang đích vào danh sách “cần làm” để quay lại sau.

Có nhiều lý do có thể khiến Google xác định một URL cần phải được thu thập thông tin. Có thể là vì Google nhìn thấy các link mới dẫn đến nội dung đó, ai đó đã tweet về nội dung, hoặc nó dường như đã được hiển thị trong sơ đồ trang web XML, v.v. Không có cách cụ thể nào xác định được các yếu tố khiến Google thu thập thông tin một URL, tuy nhiên khi xác định được yếu tố đó, Google sẽ thêm nó vào danh sách “cần làm” của mình.

toi-uu-ngan-sach-thu-thap-thong-tin-dieu-can-thiet-de-seo-thanh-cong
Tối ưu ngân sách thu thập thông tin: Điều cần thiết để SEO thành công

Khi nào ngân sách thu thập thông tin trở thành vấn đề?

Ngân sách thu thập thông tin không phải là vấn đề nếu Google cần thu thập thông tin nhiều URL trên website của bạn vì đã có nhiều người thu thập thông tin. Tuy nhiên, nếu website của bạn có 250.000 trang và Google cần thu thập thông tin 2.500 trang mỗi ngày.

Google sẽ thu thập thông tin một vài trang (hoặc trang chủ) nhiều hơn một vài trang web khác. Có thể cần khoảng 200 ngày trước khi Google nhìn thấy những thay đổi rõ ràng trên hồ sơ trang của bạn nếu bạn không hành động. Lúc này, tối ưu ngân sách thu thập thông tin đã gặp vấn đề. Ngược lại, nếu Google thu thập thông tin 50.000 trang mỗi ngày, vì vậy bạn không cần quá lo ngại.

Xác định website của bạn có gặp vấn đề về ngân sách thu thập thông tin không?

Để xác định website của bạn có gặp vấn đề về ngân sách thu thập thông tin hay không, vui lòng làm theo các hướng dẫn trên. Lưu ý rằng, việc này nghĩa là website của bạn có số lượng URL khá bé để Google thu thập thông tin chứ không lập chỉ mục (ví dụ: nếu bạn đã thêm meta noindex).

Xác định số lượng trang web của bạn: Số lượng URL trong sơ đồ trang web XML của bạn có thể là một sự bắt đầu tốt.

toi-uu-ngan-sach-thu-thap-thong-tin-dieu-can-thiet-de-seo-thanh-cong
Tối ưu ngân sách thu thập thông tin: Điều cần thiết để SEO thành công

Truy cập Google Search Console.

Đi tới “Cài đặt” -> “Thống kê thu thập thông tin” và xem tổng số trang trung bình được thu thập thông tin hàng ngày.

Chia số lượng trang theo mức “Trung bình được thu thập thông tin hàng ngày”.

Nếu con số lớn hơn mức 10 (tức là bạn có số trang gấp 10 lần số trang Google thu thập thông tin mỗi ngày), bạn có thể cần tối ưu ngân sách thu thập thông tin của mình. Nếu con số nhỏ hơn 3, bạn có thể an tâm rằng website của bạn không có vấn đề về ngân sách thu thập thông tin.

Google đang thu thập thông tin về URL nào?

Bạn thực sự muốn biết Google đang thu thập thông tin về URL nào trên website của bạn. Nhật ký máy chủ của website là cách duy nhất bạn biết điều này. Đối với các website lớn hơn, bạn có thể dùng phần mềm SEO Logstash + Kibana. Đối với các website phức tạp hơn, Screaming Frog đã ra mắt phần mềm SEO Log File Analyser.

Nhận và xem nhật ký máy chủ của bạn

Tuỳ thuộc vào loại hình lưu trữ của bạn, bạn có thể không phải lúc nào cũng muốn lấy tệp nhật ký của mình. Tuy nhiên, nếu bạn biết rằng bạn cần tối ưu ngân sách thu thập thông tin và website của bạn lớn, bạn cũng nên lấy tệp. Nếu nhà cung cấp dịch vụ lưu trữ của bạn không cho phép bạn lấy tệp, đã đến thời điểm chuyển đổi nhà cung cấp dịch vụ lưu trữ.

Sửa ngân sách thu thập thông tin của website tương tự với sửa xe hơi. Bạn không thể sửa động cơ bằng cách nhìn vào mặt sau và bạn sẽ phải tắt động cơ đó. Nhìn vào nhật ký sẽ đáng sợ hãi trong tâm trí. Bạn sẽ tìm thấy rằng có quá nhiều lỗi trong nhật ký. Bạn sẽ tìm thấy nhiều lỗi 404 khác thường thấy mà bạn nghĩ là vô nghĩa. Nhưng bạn phải sửa ngay lập tức. Bạn phải vượt qua tiếng ồn và đảm bảo website của bạn không phải ngập trong hàng tấn lỗi 404 cũ.

Tăng ngân sách thu thập thông tin của bạn

Hãy thử cân nhắc một vài điều có thể tăng số lượng trang để Google có thể thu thập thông tin trên website của bạn.

toi-uu-ngan-sach-thu-thap-thong-tin-dieu-can-thiet-de-seo-thanh-cong
Tối ưu ngân sách thu thập thông tin: Điều cần thiết để SEO thành công

Bảo trì website: giảm thiểu lỗi

Bước đầu tiên để có nhiều trang được thu thập thông tin hơn là đảm bảo rằng các trang được thu thập thông tin trả bằng một hoặc hai mã trả về có thể: 200 (cho “OK “) or 301 (cho” Đi đến đây “). Tất cả các mã trả về khác đều không tốt. Để tìm thấy điều tương tự, vui lòng kiểm tra nhật ký máy chủ của website của bạn. Google Analytics và phần lớn các công cụ Analytics khác sẽ chỉ xem các trang đã sử dụng 200. Vì vậy, bạn sẽ không tìm thấy nhiều lỗi trên website của mình trước đó.

Khi bạn đã có nhật ký máy chủ của mình, bắt đầu tìm cách sửa các lỗi phổ biến. Cách dễ nhất là lấy toàn bộ số lượng URL không trả về 200 hoặc 301 và sau đó phân loại theo tần suất chúng được truy cập. Khắc phục lỗi có thể có nghĩa là bạn phải sửa mã. Hoặc bạn có thể phải chuyển hướng URL đến nơi khác. Nếu bạn biết nơi xảy ra lỗi, bạn cũng có thể tự sửa nguồn.

Một công cụ tuyệt vời khác giúp tìm lỗi là Google Search Console. Đọc hướng dẫn Search Console của Google để biết thêm thông tin về điều đó. Nếu bạn có Yoast SEO Premium, bạn có thể dễ dàng chuyển hướng chúng chỉ với trình quản trị chuyển hướng.

Chặn bất kỳ phần nào của website của bạn

Nếu bạn có các thành phần của website không cần có trong Google, vui lòng lọc chúng với robots.txt. Tuy nhiên, hãy làm điều tương tự nếu bạn biết mình đang làm gì. Một trong những điều thú vị nhất chúng ta thấy trên các website thương mại điện tử lớn hơn là khi chúng có hàng tỷ cách để lọc hàng hoá. Mỗi bộ lọc có thể thêm URL mới cho Google. Trong những tình huống như vậy, bạn nên đảm bảo rằng bạn đang yêu cầu Google chỉ thu thập thông tin một hoặc hai trong số các bộ lọc đó mà không phải tất cả.

Giảm chuỗi chuyển hướng

Khi bạn chuyển hướng 301 một URL, điều gì đó bất thường sẽ xảy ra. Google sẽ thấy URL mới đó và thêm URL đó vào danh mục việc cần làm. Nó không phải lúc nào cũng làm theo nghĩa đen; Google thêm chuyển hướng vào danh mục việc cần làm của Google và tiếp tục. Khi bạn chọn chuyển hướng, chẳng hạn: khi bạn chuyển hướng không phải www thành www, tiếp theo đó là http đến https, bạn có hai chuyển hướng từ mọi nơi, khiến mọi người tốn nhiều công sức hơn để thu thập thông tin.

Tóm lại: tối ưu ngân sách thu thập thông tin là cần thiết

Tối ưu ngân sách thu thập thông tin không thích hợp đối với những khách hàng yếu tim. Nếu bạn đang bảo trì website của mình thường xuyên hoặc website của bạn quá bé, nó có thể không cần thiết. Nếu website của bạn có qui mô vừa và được bảo trì thường xuyên, thì việc triển khai tương đối đơn giản dựa trên các mẹo trên.

Xem thêm: 5 bước tối ưu giỏ hàng – bí kíp seo cho website bán hàng

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses cookies to offer you a better browsing experience. By browsing this website, you agree to our use of cookies.