Googlebot và những vấn đề cần lưu tâm

1. Googlebot là gì?

Googlebot hiểu nôm na đó là những con bọ tìm kiếm đôi khi cũng được gọi là Spider (con nhện). Nhiệm vụ chính là Crawling (bò) thu thập các thông tin, thu thập dữ liệu. Mỗi một Spider có một địa chỉ IP riêng và thường được thay đổi.

2.Googlebot kết nối đến website của bạn như thế nào?

Googlebot hay những con bọ tìm kiếm mọi ngõ ngách trên mạng internet để thu thập thông tin, tìm kiếm những website, blog, URL mới, … đối với những trang như facebook, những tài khoản facebook cá nhân hay tài khoản Twitter… cũng đều có thể coi như những URL mới và Googlebot đều không bỏ qua. Nó thu thập tất cả thông tin và cho vào rổ thông tin của Google chờ đánh chỉ mục.

Google sử dụng một lượng lớn máy tính để thu thập dữ liệu trên website của bạn. Googlebot ngày nay được lập trình thông minh hơn có thể xác định được trang web của bạn có được cập nhật thường xuyên, chu kỳ cập nhật như thế nào…

Googlebot thu thập dữ liệu từ tập hợp các URL trước đó và tăng cường thu thập thông qua Sitemap (sơ đồ trang web) được người quản trị web gửi tới trong Search Console (Google Webmaster Tools). Googlebot bò qua website của bạn, xác định được các liên kết (hyperlink) và thẻ meta từ đó có xác định có đi theo các liên kết đó hay không.

Chúng ta cũng nên chú ý mỗi lần Googlebot bò qua trang web của bạn là 1 lần tải bản sao tại thời điểm đó. Và quá trình Spider Crawling là quá trình đầu tiên trong cơ chế làm việc của các Search Engine nói chung (không chỉ Google Search). Đôi khi Google sử dụng dữ liệu của các đối tác, đại lý.

3. Ngăn chặn Googlebot dò được nội dung website của bạn

Gần như là không thể giữ kín nội dung của web server bằng việc không public đường dẫn đến Googlebot. Chỉ cần ai đó follow một đường dẫn từ web server của bạn đến một web server khác thì URL bí mật của bạn sẽ xuất hiện trong tag giới thiệu, thậm chí có thể được lưu lại và public bởi các web server khác.

Web có nhiều đường dẫn quá cũ và lỗi cũng vậy, bất cứ khi nào ai đó public một đường dẫn sai đến web của bạn hoặc thất bại trong việc cập nhật đường dẫn để phản ánh những thay đổi trên server của bạn thì Googlebot sẽ có gắng download một đường dẫn sai từ web của bạn.

Nếu bạn muốn ngăn chặn Googlebot tìm kiếm đến nội dung web của bạn, bạn có thể dùng file robots.txt để khóa kết nối đến các file và thư mục trên server.

Một khi bạn tạo một file robots.txt, có thể có một sự chậm trể nhỏ trước khi Googlebot phát hiện những thay đổi của bạn. Nếu Googlebot vẫn còn phát hiện nội dung mà bạn đã block trong file robots.txt, hãy kiểm tra lại xem file này đã đặt đúng đường dẫn chưa.

File robots.txt phải được đặt ở thư mục đầu tiên của hosting (vd: wiki.matbao.net/robots.txt); nếu chúng ta đặt ở thư mục con sẽ không có tác dụng. Bạn có thể tham khảo 2 bài viết về cách chúng ta Tạo file robots.txtKiểm tra hoạt động.

Nếu bạn muốn ngăn chặn thông báo lỗi “file not found” trên log web server của bạn, bạn có thể tạo một thư mục rổng đặc tên là robots.txt. Nếu bạn muốn ngăn chặn Googlebot follow tất cả các đường dẫn trên web của bạn hoặc follow đường dẫn cá nhân bạn nên đọc bài viết này.

4. Chắc chắn rằng website của bạn đang kết nối đến Googlebot

Googlebot phát hiện các website bằng cách follow đường dẫn từ page sang page khác. Trang Crawl Error trên Search Console (tên mới của Google Webmaster) liệt kê tất cả những vấn đề Googlebot đã tìm khi đang thu thập dữ liệu trên website của bạn. Bạn nên xem xét các lỗi thu thập dữ liệu thường xuyên để xác định bất kỳ vấn đề với trang web của bạn.

Nếu bạn đang chạy ứng dụng AJAX với nội dung mà bạn muốn hiển thị trên kết quả tìm kiếm, đừng chần chờ hãy click vào hướng dẫn này.

Nếu file robots.txt của bạn hoạt động như mong muốn nhưng web của bạn không có lưu lượng truy cập, bạn nên tìm hiểu thêm tại đây.

5. Các vấn đề với các spammer và các user-agent khác

Địa chỉ IP mà Googlebot sử dụng thay đổi liên tục, cách tốt nhất để xác định kết nối đến Googlebot là sử dụng user-agent. Bạn có thể xác minh việc Googlebot có thật sự kết nối đến web server của bạn không bằng việc thực hiện reverse DNS.

Googlebot và các bot search engine khác đều bị chịu ảnh hưởng bởi nội dung cấu hình trong file robots.txt, nhưng vẫn có những trường hợp như Report spam / paid links / malware.

Googlebot có các user-agent khác nhau như Feedfetcher (user-agent Feedfetcher-Google). Do những yêu cầu của Feedfetcher đến từ hành động rõ ràng xuất phát từ các user con người, mà các user này hoàn toàn tự đưa dữ liệu đến trang chủ Google và không đến từ việc tự động tìm kiếm thông tin của Googlebot nên Feedfetcher không chịu ảnh hưởng bởi file robots.txt. Bạn có thể ngăn chặn việc này bằng cách cấu hình server của bạn gửi thông báo lỗi 401, 404 hoặc thông báo lỗi khác đến user-agent Feedfetcher-google.

6. Kiểm tra file robots.txt bằng công cụ robots.txt tester tool

Để thực hiện nhanh, chúng ta truy cập vào Search Console

1

Đầu tiên bạn Click và nút Gửi, mục đích việc này là chúng ta cập nhật lại robots.txt hiện tại.

1

Các bạn hãy nhìn vào các con số, nó trùng với thứ tự bài này.

1. Click Gửi.

2. Kiểm tra xem có chữ Thành công!..

3. Tắt cửa sổ đi.

Chú ý: Bạn cần refresh lại trang web bằng cách bấm F5 hoặc chuột phải nhấn reload.

1

Bạn cần kiểm tra dòng lệnh của robots.txt bằng thao tác Kiểm tra.

1

Khi chúng ta nhận thấy dòng màu xanh lá và chữ Được Phép ở góc phải như trên hình tức là bạn đang kết nối thành công đến Googlebot.

7. Một số lỗi thường gặp

  • Lỗi URL Errors, robots.txt trong google webmaster tool

– Nếu bạn nhận được thông báo “Google couldn’t crawl your site because we were unable to access the robots.txt” hoặc bạn gặp trường hợp Server error, Not found hoặc Google không thể truy cập trang web của bạn do sự cố kết nối máy chủ.

– Đầu tiên bạn phải kiểm tra trong file robots.txt của bạn xem có cấm một thư mục nào đó mà google không thể tiến hành index các URL của các bạn.

– Thứ hai bạn nên kiểm tra hosting, liệu hosting của bạn có chạy liên tục và không bị gián đoạn hay không. Nếu host bạn bị gián đoán (không uptime 100%) thì cũng có thể xảy ra lỗi trên.

  • Googlebot không thể truy cập trang web của bạn

Nếu bạn nhận được thông báo “Trong 24 giờ qua, Googlebot đã gặp 2 lỗi trong khi cố truy cập robots.txt của bạn. Để đảm bảo rằng chúng tôi không thu thập dữ liệu bất kỳ trang nào được liệt kê trong tệp đó, chúng tôi đã trì hoãn việc thu thập dữ liệu của mình. Tỷ lệ lỗi robots.txt chung của trang web của bạn là 66.7%.” thì bạn có thể xem chi tiết tại Search Console.

– Nếu tỷ lệ lỗi của trang web là 100%:

Hãy cố gắng truy cập http://www.example.com/robots.txt bằng trình duyệt web. Nếu bạn có thể truy cập tệp này từ trình duyệt của mình, trang web của bạn có thể được định cấu hình từ chối quyền truy cập vào Googlebot. Kiểm tra cấu hình của tường lửa và trang web của bạn để đảm bảo rằng bạn không từ chối quyền truy cập vào Googlebot.

Nếu robots.txt của bạn là trang tĩnh, xác minh rằng dịch vụ web có quyền truy cập phù hợp vào tệp.

Nếu robots.txt của bạn được tạo động, xác minh rằng tập lệnh tạo robots.txt được định cấu hình đúng cách và có quyền chạy. Kiểm tra nhật ký của trang web của bạn để xem tập lệnh có bị lỗi không và nếu bị lỗi, cố gắng chẩn đoán nguyên nhân gây ra lỗi.

– Nếu tỷ lệ lỗi của trang web nhỏ hơn 100%:

Sử dụng Công cụ quản trị trang web, tìm ngày có tỷ lệ lỗi cao và kiểm tra nhật ký của máy chủ web của bạn cho ngày đó. Tìm kiếm các lỗi khi truy cập robots.txt trong nhật ký cho ngày đó và khắc phục nguyên nhân gây ra các lỗi đó.

Nguyên nhân có thể xảy ra nhất là trang web của bạn bị quá tải. Liên hệ với nhà cung cấp dịch vụ lưu trữ của bạn và thảo luận việc định cấu hình lại máy chủ web hoặc việc thêm tài nguyên cho trang web của bạn.

Nếu trang web của bạn chuyển hướng tới tên máy chủ khác, nguyên nhân có thể khác là URL trên trang web đang chuyển hướng tới tên máy chủ phân phối tệp robots.txt đang gặp một hoặc nhiều sự cố trong các sự cố này. Sau khi cho rằng bạn đã khắc phục được sự cố, sử dụng “Tìm nạp như Google” để tìm nạp http://www.example.com/robots.txt nhằm xác minh rằng Googlebot có thể truy cập trang web của bạn một cách bình thường.

Leave A Comment?