Bài test nhanh về hoạt động thu thập dữ liệu của Bot Google
Bài test nhanh về hoạt động thu thập dữ liệu của Bot Google. Hiểu được Google thì các SEOer mới làm SEO tốt được, nên bạn cứ tìm hiểu kỹ thông tin này nha. Bài viết Bài test nhanh về hoạt động thu thập dữ liệu của Bot Google sẽ chia sẽ chi tiết các câu hỏi này.
Google bot là gì?
Theo wiki thì: Google bot là con bọ của google, còn gọi là spider. Google bot dùng để thu thập thông tin website, giúp google cập nhật thêm những chỉ mục mới và website mới.
Google bot sử dụng những thuật toán và bò vào website, thực hiện quá trình thu thập và tiếp nhận dữ liệu web. Nhờ vậy mà người dùng tìm kiếm được thông tin từ hàng tỷ website thế giới.
👉Xem thêm: Phân tích từ khóa hiệu quả
Bài test nhanh về hoạt động thu thập dữ liệu của Bot Google
Quá trình thực hiện google bot:
Google bot bắt đầu với danh sách URL của web tạo ra từ quá trình thu thập trước đó và bổ sung sitemap vào dữ liệu được cung cấp bởi quản trị web.
Khi google ghé thăm mỗi người trong số các trang web này phát hiện liên kết trên mỗi trang và thêm chúng vào danh sách của các trang để thu thập dữ liệu. Các trang web mới, thay đổi các trang web đang hoạt động, các liên kết chết được ghi nhận và được sử dụng để cập nhật chỉ mục trên google.
Google mới đây đã hoàn thiện và bổ sung bài kiểm tra nhanh dưới dạng Đúng – Sai về cào dữ liệu (crawling).
Các SEOers có thể tham gia text dưới đây (chỉ bản tiếng Anh mới test nhé, còn tiếng Việt thì không có test đâu).
Bài test nhanh về hoạt động thu thập dữ liệu của Bot Google. Link bài test bài có thể xem: https://developers.google.com/search/docs/advanced/crawling/large-site-managing-crawl-budget?fbclid=IwAR1eeOL5lszbFAb6UN92VOf_x6zko2cgZJH_7EeU7dneBrG20jwAGBO0Ux8#myths_and_facts
Bài test nhanh về hoạt động thu thập dữ liệu của Bot Google
Nội dung 14 câu hỏi của bài Test đây nha anh em:
1. Nén sitemap có giúp tăng tần suất thu thập dữ liệu của Google?
Sai nha. Boot google sẽ dò khắp server để tìm nạp sitemaps nên việc nén hay không nén cũng không khác nhau:
2. Google ưu tiên nội dung mới, vì vậy tôi nên thay đổi site mình liên tục?
Nếu chọn “Đúng” thì chúc mừng bạn nên chọn lại “Sai“
Vì google giải thích rằng: “Nội dung được xếp hạng theo chất lượng, bất kể thời gian. Hãy tạo và cập nhật nội dung nếu bạn thấy cần, nhưng việc cố tình làm mới các trang bằng cách thực hiện các thay đổi không quan trọng và cập nhật ngày tháng của trang sẽ không có tác dụng gì.”
3. Google ưu tiên nội dung cũ (vì có nhiều giá trị) hơn là nội dung mới?
Sai. Mức độ hữu ích với người dùng không liên quan trang đó cũ hay mới.
4. Google ưu tiên các URL đơn thuần và không thu thập dữ liệu các tham số truy vấn?
(URL chứa tham số rất hay gặp cho cùng 1 sản phẩm nhưng có nhiều kích thước, màu sắc)
Sai nha. Google Bot không thiên vị thằng nào cả. Tuy nhiên Google dặn là phải chặn việc thu thập các tham số để khỏi bị trùng lặp nội dung nha.
5. Trang càng Load nhanh, bot càng cào nhanh?
Đúng
Theo google thì: Đúng vì tài nguyên của chúng tôi bị giới hạn về cả thời gian và số lượng bot thu thập dữ liệu. Trong một khoảng thời gian nhất định, bạn phân phát cho chúng tôi càng nhiều trang thì chúng tôi có thể thu thập dữ liệu càng nhiều trang.
Tuy nhiên, chúng tôi có thể dành nhiều thời gian để thu thập dữ liệu trên các trang web có thông tin quan trọng hơn, ngay cả khi mất nhiều thời gian hơn.
Việc bạn tăng tốc độ của trang để hỗ trợ người dùng sẽ quan trọng hơn là chỉ tăng tốc độ của trang để tăng mức độ thu thập dữ liệu. Bạn có thể giúp Google thu thập dữ liệu bằng một cách đơn giản hơn, đó là cung cấp đúng nội dung cần thu thập thay vì để Google thu thập dữ liệu toàn bộ nội dung.
Hãy lưu ý rằng hoạt động thu thập dữ liệu trang web bao gồm cả hoạt động truy xuất và kết xuất nội dung. Thời gian dành cho hoạt động kết xuất trang cũng quan trọng không kém thời gian dành cho hoạt động yêu cầu trang. Vì vậy, tăng tốc độ kết xuất cho các trang cũng làm tăng tốc độ thu thập dữ liệu.
Nói túm lại: Vì Googel Bot cũng biết “mệt”, đơn giản là vậy. Tuy nhiên nếu như có nội dung hay, nội dung xịn thì dù cho có load chậm thì Bot vẫn cào nhiệt tình nhé.
6. Các trang web nhỏ không được google thu thập dữ liệu thường xuyên bằng trang web lớn?
Sai
Sai nha: Nếu trang web có nội dung quan trọng và thay đổi thường xuyên, thì bot sẽ thu thập dữ liệu trang web đó thường xuyên, bất kể kích thước.
7. Nội dung của bạn càng gần trang chủ, thì google thu thập dữ liệu càng nhiều nội dung?
Đúng
Đúng một phần: Trang chủ của trang web thường là trang quan trọng nhất trên trang web. Do đó, những trang được liên kết trực tiếp tới trang chủ có thể được coi trọng hơn và được thu thập dữ liệu thường xuyên hơn. Tuy nhiên, điều này không có nghĩa là những trang như vậy sẽ có thứ hạng cao hơn các trang khác trên trang web của bạn.
8. Trang của bạn tải và kết xuất càng nhanh, thì google có thể thu thập dữ liệu càng nhiều nội dung?
Bạn chọn “sai” vui lòng chọn lại là “Đúng”
Google giải thích như sau: Đúng… vì tài nguyên của chúng tôi bị giới hạn về cả thời gian và số lượng bot thu thập dữ liệu. Trong một khoảng thời gian nhất định, bạn phân phát cho chúng tôi càng nhiều trang thì chúng tôi có thể thu thập dữ liệu càng nhiều trang.
Tuy nhiên, chúng tôi có thể dành nhiều thời gian để thu thập dữ liệu trên các trang web có thông tin quan trọng hơn, ngay cả khi mất nhiều thời gian hơn.
Việc bạn tăng tốc độ của trang để hỗ trợ người dùng sẽ quan trọng hơn là chỉ tăng tốc độ của trang để tăng mức độ thu thập dữ liệu. Bạn có thể giúp Google thu thập dữ liệu bằng một cách đơn giản hơn, đó là cung cấp đúng nội dung cần thu thập thay vì để Google thu thập dữ liệu toàn bộ nội dung.
Hãy lưu ý rằng hoạt động thu thập dữ liệu trang web bao gồm cả hoạt động truy xuất và kết xuất nội dung. Thời gian dành cho hoạt động kết xuất trang cũng quan trọng không kém thời gian dành cho hoạt động yêu cầu trang. Vì vậy, việc tăng tốc độ kết xuất cho các trang cũng làm tăng tốc độ thu thập dữ liệu.
9. Tạo 1 phiên bản URL mới, google sẽ cập nhật nội dung trang web thường xuyên
Đúng một phần: Việc tạo phiên bản URL cho trang của mình có thể hữu ích trong việc khuyến khích google sớm thu thập dữ liệu trở lại. Tuy nhiên, việc này thường không cần thiết và sẽ làm lãng phí tài nguyên thu thập dữ liệu nếu trang đó không thực sự thay đổi. Nhìn chung, sơ đồ trang web có giá trị <lastmod>
là cách tốt nhất để cho Google biết đâu là nội dung mới cập nhật. Nếu muốn tạo thêm phiên bản URL để thông báo nội dung mới, bạn chỉ nên thay đổi URL khi nội dung trên trang có thay đổi quan trọng.
10. Trang load chậm, và có nhiều lỗi sẽ ảnh hưởng tới thu thập dữ liệu bot?
Đúng. Tương tự như điều số (5). Để kiểm soát các lỗi thì GG khuyên hãy đọc phần Crawl Stats report trong Search Console.
11. Quá trình thu thập dữ liệu là một yếu tố xếp hạng.
Sai
Sai: Việc cải thiện tốc độ thu thập dữ liệu không nhất thiết sẽ dẫn đến vị trí tốt hơn trong các kết quả tìm kiếm. Google sử dụng nhiều tín hiệu để xếp hạng kết quả. Mặc dù Google cần thu thập dữ liệu để đưa một trang vào kết quả tìm kiếm, nhưng hoạt động này không phải là tín hiệu xếp hạng.
12. URL thay thế và nội dung dạng nhúng cũng được tính vào hạn mức thu thập dữ liệu.
Đúng
Đúng: Nhìn chung, mọi URL mà Googlebot thu thập dữ liệu đều sẽ được tính vào hạn mức thu thập dữ liệu của trang web. Các URL thay thế (như AMP hoặc hreflang) cũng như nội dung dạng nhúng (như CSS và JavaScriptm bao gồm cả các lần tìm nạp XHR) đều có thể cần thu thập dữ liệu và sẽ làm tiêu tốn hạn mức thu thập dữ liệu của trang web.
13. Tôi có thể kiểm soát Googlebot bằng lệnh “crawl-delay”.
Sai: Googlebot không xử lý lệnh “crawl-delay” không theo tiêu chuẩn trong tệp robots.txt.
Bạn đã trả lời đúng.
14. Lệnh nofollow ảnh hưởng đến hạn mức thu thập dữ liệu.
Đúng
Đúng một phần: Mọi URL được thu thập dữ liệu đều sẽ ảnh hưởng đến hạn mức thu thập dữ liệu. Vì vậy, ngay cả khi trang của bạn đánh dấu một URL là nofollow
, Google vẫn sẽ thu thập dữ liệu URL đó nếu một trang khác trên trang web của bạn (hay bất kỳ trang nào khác trên web) không gắn nhãn nofollow
cho URL.
Kiến thức thu thập dữ liệu của google rất bổ ích cho các bạn làm SEO. Chúc các bạn sớm tìm hiểu vấn đề này để áp dụng vào dự án tốt nhất nha. Cảm ơn đã xem bài viết của mình.
Mình chia sẻ “Bài test nhanh về hoạt động thu thập dữ liệu của Bot Google” bạn có thể chọn đúng sai, nhưng chọn kỹ nha, kẻo sai đó. Thấy dễ nhưng không hề dễ tí nào.
Tác giả: Thông tin từ Google + Nguyễn Đình Toản