Lỗi thu thập dữ liệu là gì?
Lỗi thu thập dữ liệu là gì? – Lỗi thu thập dữ liệu xảy ra khi công cụ tìm kiếm cố gắng truy cập một trang trên trang web của bạn nhưng không thành công. Trước tiên, hãy làm sáng tỏ hơn về việc bò. Thu thập thông tin là quá trình công cụ tìm kiếm cố gắng truy cập mọi trang trên trang web của bạn thông qua bot.
Bot công cụ tìm kiếm tìm thấy một liên kết đến trang web của bạn và bắt đầu tìm tất cả các trang công khai của bạn. Bot thu thập dữ liệu các trang, lập chỉ mục tất cả nội dung để sử dụng trong Google và thêm tất cả liên kết trên các trang này vào các trang mà nó vẫn phải thu thập dữ liệu. Mục tiêu chính của bạn với tư cách là chủ sở hữu trang web là đảm bảo bot công cụ tìm kiếm có thể truy cập tất cả các trang trên trang web. Quá trình này không thành công sẽ trả về cái mà chúng tôi gọi là lỗi thu thập dữ liệu.
Lỗi thu thập dữ liệu là gì? Bài viết dưới đây sẽ giải thích cho bạn:
Mục tiêu của bạn là đảm bảo rằng mọi liên kết trên trang web của bạn đều dẫn đến một trang thực tế. Điều đó có thể thông qua chuyển hướng 301, nhưng trang ở cuối liên kết đó phải luôn trả về phản hồi 200 OK của máy chủ.
Google chia lỗi thu thập dữ liệu thành hai nhóm:
Lỗi trang web. Bạn không muốn những thứ này vì chúng có nghĩa là toàn bộ trang web của bạn không thể được thu thập dữ liệu.
Lỗi URL. Bạn không muốn những điều này, nhưng vì chúng chỉ liên quan đến một URL cụ thể cho mỗi lỗi nên chúng dễ bảo trì và sửa chữa hơn.
Hãy giải thích chi tiết về điều đó.
-
Lỗi trang web
Lỗi trang web là tất cả các lỗi thu thập dữ liệu ngăn bot công cụ tìm kiếm truy cập vào trang web của bạn. Điều đó có thể có nhiều lý do, đây là những lý do phổ biến nhất:
Lỗi DNS. Điều này có nghĩa là công cụ tìm kiếm không thể liên lạc với máy chủ của bạn. Ví dụ: nó có thể ngừng hoạt động, nghĩa là trang web của bạn không thể truy cập được. Đây thường là một vấn đề tạm thời. Google sẽ quay lại trang web của bạn sau và vẫn thu thập dữ liệu trang web của bạn. Nếu bạn thấy thông báo về lỗi thu thập dữ liệu trong Google Search Console của mình, điều đó có thể có nghĩa là Google đã thử vài lần nhưng vẫn không thành công.
Lỗi máy chủ. Bot không thể truy cập trang web của bạn nếu Search Console hiển thị lỗi máy chủ. Yêu cầu có thể đã hết thời gian chờ. Công cụ tìm kiếm (fi) đã cố gắng truy cập trang web của bạn nhưng phải mất quá nhiều thời gian để tải nên máy chủ đã gửi thông báo lỗi.
Lỗi máy chủ cũng xảy ra khi có sai sót trong mã của bạn khiến trang không thể tải. Điều đó cũng có thể có nghĩa là trang web của bạn có quá nhiều khách truy cập đến nỗi máy chủ không thể xử lý tất cả các yêu cầu. Nhiều lỗi trong số này được trả về dưới dạng mã trạng thái 5xx, như mã trạng thái 500 và 503.
Robot thất bại Trước khi thu thập dữ liệu, (fi) Googlebot cũng cố gắng thu thập dữ liệu tệp robots.txt của bạn, chỉ để xem liệu có bất kỳ khu vực nào trên trang web mà bạn chưa lập chỉ mục hay không. Nếu bot đó không thể truy cập tệp robots.txt thì Google sẽ hoãn quá trình thu thập dữ liệu cho đến khi bot đó có thể truy cập được tệp robots.txt. Vì vậy, hãy luôn đảm bảo rằng nó có sẵn.
Điều đó giải thích một chút về lỗi thu thập dữ liệu liên quan đến toàn bộ trang web của bạn. Bây giờ hãy xem những lỗi thu thập dữ liệu nào có thể xảy ra đối với các trang cụ thể.
-
Lỗi URL
Như đã đề cập, lỗi URL đề cập đến lỗi thu thập dữ liệu xảy ra khi bot công cụ tìm kiếm cố gắng thu thập dữ liệu một trang cụ thể trên trang web của bạn. Khi thảo luận về lỗi URL, trước tiên chúng tôi có xu hướng thảo luận về các lỗi thu thập dữ liệu như lỗi 404 Không tìm thấy (mềm).
Bạn nên thường xuyên kiểm tra các lỗi này (sử dụng công cụ quản trị trang web Google Search Console hoặc Bing) và khắc phục chúng. Nếu trang/chủ đề của trang đó không còn nữa, đừng bao giờ quay lại trang web của bạn, hãy phục vụ trang 410. Nếu bạn có nội dung tương tự trên một trang khác, vui lòng sử dụng chuyển hướng 301 thay thế. Đảm bảo sơ đồ trang web và liên kết nội bộ của bạn cũng được cập nhật.
Nhân tiện, chúng tôi nhận thấy rằng rất nhiều lỗi URL này là do các liên kết nội bộ gây ra. Vì vậy rất nhiều lỗi trong số này là lỗi của bạn. Nếu bạn xóa một trang khỏi trang web của mình tại một thời điểm nào đó, hãy điều chỉnh hoặc xóa mọi liên kết đến trang đó. Các liên kết này không còn sử dụng nữa.
Nếu liên kết đó vẫn giữ nguyên, bot sẽ tìm và theo dõi nó, chỉ để tìm ra ngõ cụt (lỗi 404 Không tìm thấy) trên trang web của bạn. Bạn cần thực hiện một số hoạt động bảo trì ngay bây giờ đối với các liên kết nội bộ của mình!
Một lỗi URL phổ biến khác là lỗi có từ ‘URL đã gửi’ trong tiêu đề. Những lỗi này xuất hiện ngay khi Google phát hiện hành vi không nhất quán. Một mặt, bạn đã gửi URL để lập chỉ mục, vì vậy bạn đang nói với Google: “Có, tôi muốn bạn lập chỉ mục trang này”.
Mặt khác, có điều gì đó khác đang nói với Google: “Không, đừng lập chỉ mục trang này”. Một lý do có thể là do tệp robots.txt chặn trang của bạn. Hoặc trang đó được đánh dấu là ‘noindex’ bằng thẻ meta hoặc tiêu đề HTTP. Nếu bạn không sửa thông báo không nhất quán, Google sẽ không lập chỉ mục URL của bạn.
Trong số các lỗi phổ biến này có thể thỉnh thoảng xảy ra lỗi DNS hoặc lỗi máy chủ đối với URL cụ thể đó. Hãy kiểm tra lại URL đó sau và xem lỗi đã biến mất chưa. Đảm bảo sử dụng tìm nạp như Google và đánh dấu lỗi là đã sửa trong Google Search Console nếu đó là công cụ giám sát chính của bạn.
-
Lỗi URL cụ thể
Một số lỗi URL chỉ áp dụng cho một số trang web nhất định. Đó là lý do tại sao tôi muốn liệt kê những điều này một cách riêng biệt:
Lỗi URL dành riêng cho thiết bị di động. Điều này đề cập đến lỗi thu thập dữ liệu theo trang cụ thể xảy ra trên điện thoại thông minh hiện đại. Nếu bạn có một trang web đáp ứng, những điều này khó có thể hiển thị. Bạn có thể gặp nhiều lỗi hơn nếu duy trì một miền phụ di động riêng biệt như m.example.com.
Những vấn đề liên quan đến chuyển hướng bị lỗi từ trang web trên máy tính để bàn của bạn sang trang web trên thiết bị di động đó. Bạn thậm chí có thể đã chặn một số trang web dành cho thiết bị di động đó bằng một dòng trong tệp robots.txt của mình.
Lỗi phần mềm độc hại. Nếu bạn gặp lỗi phần mềm độc hại trong công cụ quản trị trang web của mình, điều này có nghĩa là Bing hoặc Google đã tìm thấy phần mềm độc hại trên URL đó. Điều đó có thể có nghĩa là phần mềm được tìm thấy được sử dụng, chẳng hạn như “để thu thập thông tin được bảo vệ hoặc làm gián đoạn hoạt động của chúng nói chung.”(Wikipedia. Bạn cần điều tra trang đó và xóa phần mềm độc hại.
Lỗi của Google Tin tức. Có một số lỗi cụ thể của Google Tin tức. Có khá nhiều danh sách các lỗi có thể xảy ra này trong tài liệu của Google, vì vậy nếu trang web của bạn nằm trong Google Tin tức, bạn có thể gặp phải các lỗi thu thập dữ liệu này. Chúng khác nhau từ việc thiếu tiêu đề cho đến các lỗi cho bạn biết rằng trang của bạn dường như không chứa một bài báo nào. Hãy chắc chắn tự kiểm tra xem điều này có áp dụng cho trang web của bạn không.
-
Sửa lỗi thu thập dữ liệu của bạn
Điểm mấu chốt trong bài viết này chắc chắn là: nếu bạn gặp phải lỗi thu thập dữ liệu, hãy khắc phục chúng. Việc thỉnh thoảng kiểm tra lỗi thu thập dữ liệu là một phần trong lịch trình bảo trì trang web của bạn.
Xem thêm: Trang chủ và SEO: Liệu Có Tồn Tại?