Những nội dung trùng lặp – 1 số nguyên nhân và giải pháp
Google và các công cụ tìm kiếm khác đang phải đối mặt với một vấn đề nan giải: những nội dung trùng lặp. Tình trạng này xảy ra khi nội dung tương tự xuất hiện trên nhiều địa chỉ URL khác nhau trên web.
Điều này khiến các công cụ tìm kiếm “lúng túng” không biết URL nào nên được ưu tiên hiển thị trong kết quả tìm kiếm. Hậu quả là thứ hạng của trang web có thể bị ảnh hưởng tiêu cực, đặc biệt là khi mọi người bắt đầu liên kết đến các phiên bản khác nhau của những nội dung trùng lặp.
Những nội dung trùng lặp là gì?
Hãy tưởng tượng bạn đang đứng tại một ngã tư, nơi các biển báo chỉ đường hướng đến cùng một địa điểm nhưng theo hai hướng khác nhau. Bạn sẽ chọn đi theo hướng nào? Tình huống này tương tự như vấn đề những nội dung trùng lặp.
Chưa hết, điểm đến cuối cùng của hai con đường này cũng có chút khác biệt. Đối với người đọc, điều này có thể không quan trọng miễn là họ tìm được thông tin mình cần.
Tuy nhiên, công cụ tìm kiếm thì phải đưa ra lựa chọn, bởi hiển nhiên chúng không muốn hiển thị cùng những nội dung trùng lặp hai lần.
Lấy ví dụ, bài viết của bạn về “từ khóa X” xuất hiện tại địa chỉ
http://www.example.com/tu-khoa-x/ và những nội dung trùng lặp cũng xuất hiện tại http://www.example.com/danh-muc-bai-viet/tu-khoa-x/. Đây là tình huống thường gặp trong nhiều Hệ thống quản lý nội dung (CMS) hiện đại.
Giả sử bài viết của bạn được nhiều blogger khác chia sẻ, một số người liên kết đến URL thứ nhất, trong khi những người khác liên kết đến URL thứ hai.
Đây chính là lúc vấn đề của công cụ tìm kiếm trở thành vấn đề của bạn. Những nội dung trùng lặp gây ra bất lợi bởi các liên kết này đang quảng bá cho các URL khác nhau. Nếu tất cả chúng đều liên kết đến cùng một URL, cơ hội xếp hạng cho “từ khóa X” của bạn sẽ cao hơn.
Nếu bạn không chắc chắn liệu trang web của mình có đang gặp phải vấn đề đó là những nội dung trùng lặp hay không, hãy sử dụng các công cụ phát hiện những nội dung trùng lặp để tìm hiểu!
Tại sao cần ngăn chặn những nội dung trùng lặp trên trang web của bạn?
Những nội dung trùng lặp sẽ ảnh hưởng đến thứ hạng của bạn. Ít nhất, các công cụ tìm kiếm sẽ không biết nên đề xuất trang nào cho người dùng. Kết quả là, tất cả các trang mà công cụ tìm kiếm xem là trùng lặp đều có nguy cơ bị xếp hạng thấp hơn. Đó là trường hợp khả quan nhất.
Nếu vấn đề những nội dung trùng lặp của bạn thực sự nghiêm trọng, ví dụ như nội dung sơ sài kết hợp với nội dung sao chép nguyên văn, bạn thậm chí có thể phải đối mặt với hành động thủ công từ Google vì cố gắng đánh lừa người dùng.
Vì vậy, nếu bạn muốn nội dung của mình được xếp hạng cao, điều quan trọng là phải đảm bảo rằng mỗi trang đều cung cấp một lượng nội dung độc đáo nhất định.
Vấn đề này không chỉ ảnh hưởng đến công cụ tìm kiếm. Nếu người dùng đang tìm kiếm một trang cụ thể, việc không thể tìm thấy đúng thứ họ cần có thể gây ra sự thất vọng.
Vì vậy, cũng như nhiều khía cạnh khác của SEO, việc giải quyết vấn đề về những nội dung trùng lặp là quan trọng đối với cả trải nghiệm người dùng và công cụ tìm kiếm.
Nguyên nhân gây ra những nội dung trùng lặp
Có rất nhiều nguyên nhân dẫn đến những nội dung trùng lặp. Hầu hết chúng đều mang tính kỹ thuật: con người thường không cố ý đặt cùng một nội dung ở hai vị trí khác nhau mà không xác định rõ đâu là bản gốc, trừ khi bạn vô tình sao chép và xuất bản một bài đăng. Đối với hầu hết chúng ta, việc này khá phi lý.
Tuy nhiên, có nhiều lý do kỹ thuật dẫn đến tình trạng này, chủ yếu là do các nhà phát triển không suy nghĩ như một trình duyệt hoặc thậm chí là người dùng, chứ đừng nói đến trình thu thập thông tin của công cụ tìm kiếm – họ suy nghĩ như một lập trình viên.
Lấy ví dụ bài viết mà chúng ta đã đề cập trước đó, xuất hiện trên http://www.example.com/tu-khoa-x/ và http://www.example.com/danh-muc-bai-viet/tu-khoa-x/. Nếu bạn hỏi nhà phát triển, họ sẽ nói rằng nó chỉ tồn tại một lần.
Hiểu sai về khái niệm URL
Không, nhà phát triển đó không hề phát điên, họ chỉ đang nói một ngôn ngữ khác. Một CMS có thể sẽ cung cấp năng lượng cho trang web và trong cơ sở dữ liệu đó chỉ có một bài viết, nhưng phần mềm của trang web cho phép truy xuất cùng một bài viết đó trong cơ sở dữ liệu thông qua một số URL.
Đó là bởi vì, theo quan điểm của nhà phát triển, mã định danh duy nhất cho bài viết đó là ID mà bài viết có trong cơ sở dữ liệu, chứ không phải URL. Nhưng đối với công cụ tìm kiếm, URL là mã định danh duy nhất cho một phần nội dung.
Nếu bạn giải thích điều đó cho nhà phát triển, họ sẽ bắt đầu hiểu vấn đề. Và sau khi đọc bài viết này, bạn thậm chí có thể cung cấp cho họ một giải pháp ngay lập tức.
ID phiên
Thông thường, bạn muốn theo dõi khách truy cập của mình và cho phép họ, chẳng hạn như lưu trữ các mặt hàng họ muốn mua trong giỏ hàng. Để làm điều đó, bạn phải cung cấp cho họ một ‘phiên’.
Phiên là lịch sử ngắn gọn về những gì khách truy cập đã làm trên trang web của bạn và có thể chứa những thứ như các mặt hàng trong giỏ hàng của họ. Để duy trì phiên đó khi khách truy cập nhấp từ trang này sang trang khác, mã định danh duy nhất cho phiên đó – được gọi là ID phiên – cần được lưu trữ ở đâu đó.
Giải pháp phổ biến nhất là làm điều đó với cookie. Tuy nhiên, công cụ tìm kiếm thường không lưu trữ cookie.
Tại thời điểm đó, một số hệ thống quay lại sử dụng ID phiên trong URL. Điều này có nghĩa là mọi liên kết nội bộ trên trang web đều được thêm ID phiên đó vào URL của nó và vì ID phiên đó là duy nhất cho phiên đó, nên nó tạo ra một URL mới và do đó là những nội dung trùng lặp.
Tham số URL được sử dụng để theo dõi và sắp xếp
Một nguyên nhân khác gây ra những nội dung trùng lặp là sử dụng các tham số URL không thay đổi nội dung của trang, chẳng hạn như trong các liên kết theo dõi. Bạn thấy đấy, đối với công cụ tìm kiếm, http://www.example.com/tu-khoa-x/
http://www.example.com/tu-khoa-x/?source=rss không phải là cùng một URL. Cái sau có thể cho phép bạn theo dõi nguồn gốc của mọi người, nhưng nó cũng có thể khiến bạn khó xếp hạng tốt hơn – một tác dụng phụ rất không mong muốn!
Điều này không chỉ đúng với các tham số theo dõi. Nó áp dụng cho mọi tham số bạn có thể thêm vào URL không thay đổi phần nội dung quan trọng, cho dù tham số đó là để ‘thay đổi cách sắp xếp trên một tập hợp sản phẩm’ hay để ‘hiển thị thanh bên khác’: tất cả chúng đều gây ra những nội dung trùng lặp.
Sao chép và phân phối nội dung
Hầu hết các lý do gây ra những nội dung trùng lặp đều là ‘lỗi’ của bạn hoặc trang web của bạn. Tuy nhiên, đôi khi, các trang web khác sử dụng nội dung của bạn, có hoặc không có sự đồng ý của bạn.
Họ không phải lúc nào cũng liên kết đến bài viết gốc của bạn và do đó công cụ tìm kiếm không ‘hiểu’ nó và phải xử lý thêm một phiên bản khác của cùng một bài viết. Trang web của bạn càng phổ biến, bạn càng có nhiều người sao chép, khiến vấn đề này ngày càng lớn hơn.
Xem Thêm: Bộ lọc nội dung nền tảng cũ: Giữ cho nội dung nền tảng của bạn trông mới mẻ!