Hiệu quả thu thập dữ liệu: Giúp việc thu thập dữ liệu của Google dễ dàng hơn
Hiệu quả thu thập dữ liệu: Giúp việc thu thập dữ liệu của Google dễ dàng hơn – Công cụ tìm kiếm thu thập dữ liệu trang web của bạn để đưa nội dung vào chỉ mục của họ. Trang web của bạn càng lớn thì quá trình thu thập thông tin này càng mất nhiều thời gian. Điều quan trọng là thời gian thu thập dữ liệu trang web của bạn được sử dụng hiệu quả. Nếu trang web của bạn có 1.000 trang trở xuống thì đây không phải là chủ đề bạn cần phải suy nghĩ nhiều.
Tuy nhiên, nếu bạn có ý định phát triển trang web của mình, hãy tiếp tục đọc. Việc hình thành một số thói quen tốt từ sớm có thể giúp bạn tránh khỏi những cơn đau đầu nặng nề sau này. Trong bài viết này, chúng tôi sẽ đề cập đến hiệu quả thu thập dữ liệu là gì và bạn có thể làm gì với hiệu quả đó.
Hiệu quả thu thập dữ liệu: giúp việc thu thập dữ liệu của Google dễ dàng hơn là gì? Bài viết dưới đây sẽ giải thích cho bạn:
Tất cả các công cụ tìm kiếm đều thu thập dữ liệu theo cùng một cách. Trong bài viết này chúng ta sẽ đề cập đến Google và Googlebot.
-
Việc thu thập dữ liệu trang web của bạn hoạt động như thế nào?
Google tìm thấy một liên kết đến trang web của bạn ở đâu đó trên web. Tại thời điểm đó, URL đó là phần đầu của một đống ảo.
Trong quá trình thu thập thông tin, Googlebot có thể gặp phải chuyển hướng. URL được chuyển hướng đến sẽ được xếp chồng lên nhau.
Mục tiêu chính của bạn là đảm bảo Googlebot có thể truy cập tất cả các trang trên trang web. Mục tiêu phụ là đảm bảo nội dung mới và cập nhật được thu thập thông tin nhanh chóng. Kiến trúc trang web tốt sẽ giúp bạn đạt được mục tiêu đó. Điều bắt buộc là bạn phải duy trì tốt trang web của mình.
-
Độ sâu thu thập dữ liệu
Một khái niệm quan trọng khi nói về thu thập thông tin là khái niệm về độ sâu thu thập thông tin. Giả sử bạn có 1 liên kết, từ 1 trang đến 1 trang trên trang web của bạn. Trang này được liên kết với trang khác, trang khác, trang khác, v.v. Googlebot sẽ tiếp tục thu thập dữ liệu trong một thời gian. Tuy nhiên, tại một thời điểm nào đó, nó sẽ quyết định rằng không cần thiết phải tiếp tục thu thập dữ liệu nữa. Thời điểm đó phụ thuộc vào mức độ quan trọng của liên kết trỏ đến trang đầu tiên đó.
Điều này có vẻ lý thuyết, vì vậy hãy xem một ví dụ thực tế. Nếu bạn có 10.000 bài đăng, tất cả đều thuộc cùng một danh mục và bạn hiển thị 10 bài viết trên mỗi trang. Các trang này chỉ liên kết đến “Tiếp theo »” và ““ Trước đó”. Google sẽ cần thu thập dữ liệu sâu 1.000 trang để đến được bài đăng đầu tiên trong số 10.000 bài đăng đó. Trên hầu hết các trang web, nó sẽ không làm điều đó.
-
Đây là lý do tại sao điều quan trọng là:
Sử dụng danh mục/thẻ và các nguyên tắc phân loại khác để phân đoạn chi tiết hơn. Đừng quá nhiệt tình với chúng. Theo nguyên tắc chung, thẻ chỉ hữu ích khi nó kết nối nhiều hơn 3 phần nội dung. Ngoài ra, hãy đảm bảo tối ưu hóa các kho lưu trữ danh mục đó.
Liên kết đến các trang sâu hơn bằng số để Googlebot có thể truy cập trang đó nhanh hơn. Giả sử bạn liên kết trang 1 đến trang 10 trên trang 1 và tiếp tục làm điều đó. Trong ví dụ trên, trang sâu nhất sẽ chỉ cách trang chủ 100 lần nhấp chuột.
Giữ trang web của bạn nhanh chóng. Trang web của bạn càng chậm thì quá trình thu thập thông tin sẽ mất nhiều thời gian hơn.
-
Sơ đồ trang web XML và hiệu quả thu thập dữ liệu
Trang web của bạn phải có một hoặc nhiều sơ đồ trang web XML. Các sơ đồ trang web XML đó cho Google biết URL nào tồn tại trên trang web của bạn. Sơ đồ trang web XML tốt cũng cho biết thời điểm bạn cập nhật lần cuối một URL cụ thể. Hầu hết các công cụ tìm kiếm sẽ thu thập dữ liệu các URL trong sơ đồ trang XML của bạn thường xuyên hơn các công cụ khác.
Trong Google Search Console, sơ đồ trang web XML mang lại cho bạn một lợi ích bổ sung. Đối với mỗi sơ đồ trang web, Google sẽ hiển thị cho bạn các lỗi và cảnh báo. Bạn có thể sử dụng điều này bằng cách tạo các sơ đồ trang web XML khác nhau cho các loại URL khác nhau. Điều này có nghĩa là bạn có thể xem loại URL nào trên trang web của mình gặp nhiều vấn đề nhất.
-
Các vấn đề gây ra hiệu quả thu thập dữ liệu kém
Trong khi thu thập dữ liệu trang web của bạn, Google sẽ gặp lỗi. Nó thường sẽ chỉ chọn trang tiếp theo từ chồng trang khi có. Nếu bạn gặp nhiều lỗi trên trang web của mình trong quá trình thu thập dữ liệu, Googlebot sẽ chạy chậm lại. Nó làm vậy vì nó sợ rằng nó sẽ gây ra lỗi do thu thập dữ liệu quá nhanh. Để ngăn Googlebot chạy chậm lại, bạn nên sửa càng nhiều lỗi càng tốt.
Google báo cáo tất cả những lỗi đó cho bạn trong Công cụ quản trị trang web, Bing và Yandex cũng vậy. Trước đây, chúng tôi đã đề cập đến các lỗi trong Google Search Console (GSC) và Công cụ quản trị trang web Bing. Trình quản lý chuyển hướng trong Yoast SEO Premium giúp bạn khắc phục các lỗi này bằng cách chuyển hướng chúng đến các URL chính xác.
Bạn sẽ không phải là khách hàng đầu tiên chúng tôi thấy có 3.000 URL thực tế và 20.000 lỗi trong GSC. Đừng để trang web của bạn trở thành trang web đó. Sửa những lỗi đó một cách thường xuyên, ít nhất là mỗi tháng.
-
Chuyển hướng 301 quá mức
Gần đây tôi đang tư vấn về một trang web vừa thực hiện di chuyển tên miền. Trang web này rất lớn nên tôi đã sử dụng một trong các công cụ của chúng tôi để thu thập thông tin đầy đủ về trang web và xem chúng tôi nên khắc phục những gì. Rõ ràng là chúng tôi có một vấn đề lớn.
Một nhóm lớn các URL trên trang web này luôn được liên kết đến mà không có dấu gạch chéo ở cuối. Nếu bạn truy cập một URL như vậy mà không có dấu gạch chéo ở cuối, bạn sẽ được chuyển hướng 301. Bạn được chuyển hướng đến phiên bản có dấu gạch chéo ở cuối.
Nếu đó là vấn đề đối với một hoặc hai URL trên trang web của bạn thì điều đó không thực sự quan trọng. Nó thực sự thường là một vấn đề với trang chủ. Nếu đó là vấn đề với 250.000 URL trên trang web của bạn thì nó sẽ trở thành vấn đề lớn hơn. Googlebot không phải thu thập dữ liệu 250.000 URL mà là 500.000. Điều đó không thực sự hiệu quả.
Đây là lý do tại sao bạn phải luôn cố gắng cập nhật các liên kết trong trang web của mình khi thay đổi URL. Nếu không, bạn sẽ ngày càng nhận được nhiều chuyển hướng 301 hơn theo thời gian. Điều này sẽ làm chậm quá trình thu thập dữ liệu và người dùng của bạn. Hầu hết các hệ thống mất tới một giây để chuyển hướng máy chủ. Điều đó làm tăng thêm một giây nữa vào thời gian tải trang của bạn.
-
Bẫy nhện
Nếu trang web của bạn có uy tín hơn trong mắt Google, những điều thú vị có thể xảy ra. Ngay cả khi rõ ràng rằng một liên kết không có ý nghĩa, Google sẽ thu thập dữ liệu liên kết đó. Cung cấp cho Google một cầu thang ảo tương đương với một cầu thang xoắn ốc vô tận, nó sẽ tiếp tục hoạt động. Tôi muốn chia sẻ một ví dụ vui nhộn về điều này mà tôi đã gặp ở Guardian.
Tại Guardian, chúng tôi từng có kho lưu trữ hàng ngày cho tất cả các danh mục chính của mình. Vì Guardian xuất bản rất nhiều nội dung nên những kho lưu trữ hàng ngày đó đều có ý nghĩa. Bạn có thể nhấp lại từ hôm nay, đến hôm qua, v.v. Và hơn thế nữa. Và hơn thế nữa. Thậm chí rất lâu trước khi Guardian tồn tại. Bạn có thể đến ngày 25 tháng 12 năm 0 nếu bạn có khuynh hướng như vậy. Chúng tôi đã thấy Google lập chỉ mục trở lại năm 1.600. Đó là gần 150.000 lần nhấp chuột.
Đây là cái mà chúng tôi gọi là “bẫy nhện”. Những cái bẫy như thế này có thể khiến công cụ tìm kiếm thu thập thông tin cực kỳ kém hiệu quả. Việc sửa chúng hầu như luôn dẫn đến kết quả tốt hơn trong tìm kiếm không phải trả tiền. Trang web của bạn càng lớn thì càng khó tìm ra những vấn đề như thế này. Điều này đúng ngay cả đối với những người làm SEO có kinh nghiệm.
Công cụ để tìm sự cố và cải thiện hiệu quả thu thập dữ liệu
Nếu bạn bị hấp dẫn bởi điều này và muốn thử nghiệm trang web của riêng mình, bạn sẽ cần một số công cụ. Chúng tôi đã sử dụng Screaming Frog rất nhiều trong quá trình đánh giá trang web của mình. Đó là con dao quân đội Thụy Sĩ của hầu hết các SEO. Một số SEO khác mà tôi biết đều khen ngợi Xenu, điều này cũng khá tốt (và miễn phí). Hãy lưu ý: đây không phải là những công cụ “đơn giản”. Chúng là những công cụ quyền lực thậm chí có thể đánh sập một trang web khi sử dụng sai cách, vì vậy hãy cẩn thận.
Bước đầu tiên tốt nhất là bắt đầu thu thập dữ liệu trang web và lọc các trang HTML. Sau đó sắp xếp giảm dần theo mã trạng thái HTTP. Bạn sẽ thấy các câu trả lời loại 500 – 400 – 300 ở đầu danh sách. Bạn sẽ có thể biết trang web của mình đang hoạt động tệ đến mức nào so với tổng số URL. Xem một ví dụ dưới đây:
-
Hiệu quả thu thập dữ liệu trang web của bạn như thế nào?
Tôi muốn biết liệu bạn có gặp phải các vấn đề cụ thể như thế này về hiệu quả thu thập dữ liệu hay không và cách bạn giải quyết chúng. Còn tốt hơn nữa nếu bài đăng này giúp bạn khắc phục điều gì đó, hãy cho chúng tôi biết bên dưới!
-
Đánh giá khả năng SEO kỹ thuật của bạn
Hiệu quả thu thập dữ liệu là một phần thiết yếu của SEO kỹ thuật. Bạn tò mò mức độ phù hợp của kỹ thuật SEO tổng thể trên trang web của bạn? Chúng tôi đã tạo một bài kiểm tra thể chất về mặt kỹ thuật SEO để giúp bạn tìm ra những gì bạn cần phải cải thiện!
Xem thêm: Cách xếp hạng cao trên Google