Ngân sách thu thập thông tin là gì

Mục lục:

Thu thập dữ liệu ngân sách và định vị web
Chất lượng của trang web
Đặt những trang quan trọng
Làm thế nào ngân sách thu thập dữ liệu hoạt động trong nội bộ
Lợi ích của một trang web được tối ưu hóa
Cách tính ngân sách thu thập dữ liệu của trang web của bạn
Thu thập ngân sách và SEO: chúng có giống nhau không?
Cách tối ưu hóa ngân sách thu thập dữ liệu
Đảm bảo các trang của bạn có thể được theo dõi
Sử dụng thận trọng các tập tin đa phương tiện
Tránh chuyển hướng chuỗi
Sửa các liên kết bị hỏng
Đặt tham số trong URL động
Làm sạch sơ đồ trang web
Tận dụng thức ăn
Tạo liên kết ngoài
Duy trì tính toàn vẹn của liên kết nội bộ
Chúng ta rút ra kết luận gì?

Một thuật ngữ được đề cập rất nhiều ngày nay trong cộng đồng SEO là thu thập ngân sách. Nếu chúng tôi dịch nó, nó sẽ đọc dưới dạng ngân sách theo dõi của Wap. Nó là một nền tảng trung gian hiếm hoi, nhưng đây là một khái niệm rất cũ trong lĩnh vực SEO.

Những người làm việc với các dự án quy mô lớn như thương mại điện tử lớn, cổng nội dung và chuyên gia SEO, hiểu ngân sách thu thập dữ liệu khi Google dành thời gian đọc các trang trên trang web của bạn vào một ngày nhất định.

Chỉ số nội dung

Đó là thời gian mà trình thu thập thông tin của Google dành để đọc các trang của trang web. Nhưng lần này trình thu thập thông tin chi tiêu trên trang web của bạn phụ thuộc vào một số yếu tố; chẳng hạn như quyền hạn trang web, tỷ lệ phần trăm nội dung trùng lặp, lỗi trang và nhiều hơn nữa.

Tuy nhiên, theo blog quản trị trang web chính thức của Google, có tuyên bố rằng không phải ai cũng nên quan tâm đến vấn đề thu thập ngân sách này. Đó là, nếu họ có một trang web với vài chục trang, không cần phải lo lắng về vấn đề thu thập dữ liệu trang này, vì Google sẽ làm điều đó mà không gặp trở ngại nào.

Nhưng nếu bạn có một cửa hàng trực tuyến hoặc bất kỳ dự án web nào khác có vài nghìn trang, bạn sẽ phải hết sức chú ý và tối ưu hóa ngân sách thu thập dữ liệu liên quan đến trang web của bạn.

Thu thập dữ liệu ngân sách và định vị web

Từ Google, họ khẳng định rằng ngân sách thu thập dữ liệu không ảnh hưởng đến định vị, tuy nhiên điều đó có thể ảnh hưởng và đôi khi kiểm soát, tiêu cực khác trong số hơn 200 yếu tố để xếp hạng trong công cụ tìm kiếm.

Nhưng tại sao chúng tôi muốn Google thu thập dữ liệu các trang của trang web của chúng tôi nhiều lần hơn? Mặt khác, chúng tôi tìm thấy một số chuyên gia SEO đảm bảo rằng có ngân sách thu thập dữ liệu tốt sẽ cải thiện vị trí tổng thể của các trang web trong bảng xếp hạng và do đó tăng lưu lượng truy cập không phải trả tiền.

Về cơ bản, Google có một khoảng thời gian nhất định trong trang web của bạn, vì nó phải quyết định sẽ dành bao nhiêu thời gian cho mỗi trang web trên khắp thế giới, do đó, nó sẽ phải tính toán có bao nhiêu kết nối đồng thời có thể thực hiện để có thể đọc các trang của trang web của bạn.

Chất lượng của trang web

Google dành thời gian để có thể kết nối trên trang web, đọc các trang này và dừng việc đọc này. Lặp lại điều này trong suốt cả ngày, nhưng luôn có một phần nhỏ thời gian. Khoảng thời gian đó, thường tỷ lệ thuận với thẩm quyền của trang web của bạn, số lượng trang mới và mức độ liên quan của nó với Google.

Điều này được đưa ra bởi chất lượng nội dung của bạn và các liên kết trỏ đến trang web, nghĩa là, nếu bạn có nhiều liên kết chất lượng trỏ, có thể Google hiểu bạn với chất lượng cao hơn và dành nhiều thời gian hơn cho trang web của bạn, miễn là có khối lượng trang cao hơn.

Nói chung, ngân sách thu thập dữ liệu không thay đổi nhiều đối với trang web 10, 50 hoặc 100 trang, vì vậy trong một vài trang không có nhiều khác biệt. Nhưng đối với các trang web lớn, nếu Google có một giây để đi qua trang web của bạn và bạn cho nó biết những gì cần đọc, điều đó sẽ rất hữu ích cho trình thu thập thông tin, hoàn thành nhiệm vụ thu thập dữ liệu của họ nhanh hơn.

Đặt những trang quan trọng

Trước tiên, bạn phải vạch ra một kiến trúc thông tin trang web có tổ chức hơn, thiết lập trang nào là không cần thiết và không để các trang nhất định được lập chỉ mục bằng cách kiểm tra tệp robot.txt.

Google không nên dành thời gian trong phần tìm kiếm của trang web hoặc thậm chí trong phần có điều hướng bộ lọc, ví dụ như trong cửa hàng trực tuyến, nơi bạn có thể chọn cỡ giày, kích thước của căn hộ hoặc màu áo. Các bộ lọc này là những gì mọi người thường gọi là bộ điều hướng đối mặt với các bộ lọc điều hướng trực tiếp hoặc khác.

Một số quản trị web có xu hướng chặn các bộ lọc này và các tìm kiếm đó trong tệp robot.txt, để Google không dành thời gian đọc các trang này, vì thực tế, chúng tập trung vào người dùng đang tìm kiếm trải nghiệm đó và chúng là nội dung đã có sẵn có sẵn trên các trang nội bộ khác của trang web.

Chúng tôi khuyên bạn nên đọc: Lỗi cần tránh khi tạo một trang web

Một dòng khác là bằng cách thiết lập các trang quan trọng trên trang web của bạn, bạn tiết kiệm thời gian đọc của Google trên các trang có nội dung trùng lặp, chẳng hạn như trường hợp điều hướng phải đối mặt, trang chính sách bảo mật, điều khoản và điều kiện và không bạn muốn chúng được đọc Những trang này sẽ chỉ có sẵn cho người dùng muốn xem những trang này.

Không nên lãng phí thời gian trên các trang giá trị thấp này, vì bạn không muốn xếp hạng cho chúng và chúng không tạo ra sự khác biệt nhỏ nhất trong cuộc sống của bạn, nhưng chúng phải ở đó vì một số người dùng muốn tham khảo thông tin này.

Làm thế nào ngân sách thu thập dữ liệu hoạt động trong nội bộ

Nói chung, ngân sách thu thập dữ liệu dựa trên kiến trúc. Bạn xác định các liên kết đến các trang mà Google sẽ có thể đọc và ưu tiên chúng theo mức độ quan trọng của chúng.

Rốt cuộc, các liên kết đến từ các trang này là những liên kết có khả năng được Google ưu tiên. Vì vậy, đáng để logic khi nghĩ rất tốt về liên kết nội bộ và cách cấu trúc trang của bạn.

Ngân sách thu thập dữ liệu là thời gian Google dành để có thể đọc, hiểu thông tin trên trang web và đánh giá các yếu tố như tổ chức kiến trúc và chặn trong tệp robots.txt. Sử dụng thẻ nofollow trên một liên kết sẽ ngăn Google theo dõi thông qua liên kết đó. Ví dụ: nếu một liên kết có thuộc tính nofollow, nhưng một liên kết nội bộ khác không có để truy cập trang, thì Google sẽ đi theo đường dẫn thứ hai, khiến bạn mất ít thời gian hơn.

Lợi ích của một trang web được tối ưu hóa

Có những thứ sẽ giúp bạn có nhiều trang đọc hơn hàng ngày, có thể hữu ích cho bất kỳ trang web nào. Ví dụ: nếu máy chủ của bạn nhanh hơn, trong thời gian đó, Google sẽ yêu cầu nhiều trang hơn.

Nếu trang của bạn được nén, Google sẽ, trong các yêu cầu này, sẽ yêu cầu nhiều trang hơn. Và nếu bạn có một mã sạch và đầy đủ, Google cũng sẽ nhận được một trang được nén nhiều hơn vào cuối ngày, với các bit tốt hơn. Đó là, việc tối ưu hóa trang web, tốc độ của trang web và máy chủ, ảnh hưởng rất lớn đến vấn đề thu thập ngân sách.

Cách tính ngân sách thu thập dữ liệu của trang web của bạn

Số lần nhện công cụ tìm kiếm Google thu thập dữ liệu trang web của bạn trong một thời gian nhất định là số tiền chúng tôi gọi là "thu thập ngân sách". Do đó, nếu Googlebot truy cập trang web của bạn 32 lần một ngày, chúng tôi có thể nói rằng ngân sách theo dõi của Google là khoảng 960 mỗi tháng.

Bạn có thể sử dụng các công cụ như Google Search Console và Bing Webmaster Tools để tính toán ngân sách thu thập dữ liệu gần đúng của trang web của bạn. Chỉ cần đăng nhập và đi đến Theo dõi> Thống kê theo dõi để xem số trang trung bình được theo dõi mỗi ngày.

Thu thập ngân sách và SEO: chúng có giống nhau không?

Có và không Mặc dù cả hai loại tối ưu hóa đều nhằm mục đích làm cho trang của bạn hiển thị rõ hơn và tác động đến SERPs của bạn, SEO tập trung nhiều hơn vào trải nghiệm người dùng, trong khi tối ưu hóa nhện hoàn toàn là thu hút các bot.

Tối ưu hóa công cụ tìm kiếm (SEO) tập trung nhiều hơn vào quá trình tối ưu hóa cho các truy vấn của người dùng. Thay vào đó, tối ưu hóa Googlebot tập trung vào cách trình thu thập thông tin của Google truy cập trang web của bạn.

Cách tối ưu hóa ngân sách thu thập dữ liệu

Có một số cách để tối ưu hóa ngân sách thu thập dữ liệu của bất kỳ trang web nào, tùy thuộc vào từng dự án web, số lượng trang và các vấn đề khác, đây là một số điểm cần xem xét:

Đảm bảo các trang của bạn có thể được theo dõi

Trang của bạn có thể theo dõi nếu các công cụ tìm kiếm có thể tìm và theo các liên kết trong trang web của bạn, vì vậy bạn sẽ phải định cấu hình các tệp.htaccess và robot.txt để chúng không chặn các trang quan trọng trên trang web của bạn. Bạn cũng có thể muốn cung cấp các phiên bản văn bản của các trang phụ thuộc nhiều vào các tệp đa phương tiện, chẳng hạn như Flash và Silverlight.

Tất nhiên, điều ngược lại là đúng nếu bạn muốn ngăn một trang xuất hiện trong kết quả tìm kiếm. Tuy nhiên, việc đặt tệp robot.txt thành không được phép là không đủ nếu bạn muốn ngăn không cho trang bị lập chỉ mục. Theo Google, quy tắc "không cho phép" không đảm bảo rằng một trang không xuất hiện trong kết quả.

Nếu thông tin bên ngoài (ví dụ: liên kết trong) tiếp tục hướng lưu lượng truy cập đến trang bạn đã từ chối, Google có thể quyết định rằng trang vẫn có liên quan. Trong trường hợp này, bạn phải chặn lập chỉ mục của trang theo cách thủ công bằng cách sử dụng thẻ meta noindex hoặc tiêu đề HTTP X-Robots-Tag.

- Thẻ meta Noindex: đặt thẻ meta này trong phần của trang của bạn để ngăn hầu hết các trình thu thập dữ liệu web lập chỉ mục trang của bạn:

noindex "/>

- Thẻ X-Robots - Đặt các mục sau trong phản hồi tiêu đề HTTP để hướng dẫn trình thu thập thông tin không lập chỉ mục một trang:

X-Robots-Tag: noindex

Xin lưu ý rằng nếu bạn sử dụng thẻ meta noindex hoặc Thẻ X-Robots, bạn không nên không cho phép trang trong tệp robots.txt. Trang phải được thu thập trước khi thẻ được nhìn thấy và tuân theo.

Sử dụng thận trọng các tập tin đa phương tiện

Đã có lúc Googlebot không thể thu thập dữ liệu nội dung như JavaScript, Flash và HTML. Thời gian đó đã qua lâu rồi (mặc dù Googlebot vẫn có vấn đề với Silverlight và một số tệp khác).

Tuy nhiên, ngay cả khi Google có thể đọc hầu hết các tệp đa phương tiện, các công cụ tìm kiếm khác có thể không thể, điều đó có nghĩa là bạn nên sử dụng các tệp này một cách thận trọng và bạn có thể muốn tránh chúng hoàn toàn trên các trang bạn muốn. vị trí.

Tránh chuyển hướng chuỗi

Mỗi URL bạn chuyển hướng khiến bạn lãng phí một chút ngân sách thu thập dữ liệu của mình. Khi trang web của bạn có chuỗi chuyển hướng dài, tức là một số lượng lớn các chuyển hướng 301 và 302 liên tiếp, các nhện như Googlebot có thể gặp sự cố trước khi đến trang đích, có nghĩa là trang đó sẽ không được lập chỉ mục. Cách thực hành tốt nhất với các chuyển hướng là có càng ít chuyển hướng càng tốt trên trang web và không quá hai liên tiếp.

Sửa các liên kết bị hỏng

Khi John Mueller được hỏi về việc liệu các liên kết bị hỏng có ảnh hưởng đến định vị hay không, ông trả lời rằng nó tập trung nhiều hơn vào trải nghiệm người dùng hơn là cho mục đích định vị.

Đây là một trong những khác biệt cơ bản giữa tối ưu hóa SEO và Googlebot, bởi vì điều đó có nghĩa là các liên kết bị hỏng không đóng vai trò đáng kể trong bảng xếp hạng, mặc dù chúng cản trở rất nhiều khả năng lập chỉ mục và xếp hạng trang web của Googlebot.

Như đã nói, bạn nên làm theo lời khuyên của Mueller vì thuật toán của Google đã được cải thiện đáng kể qua nhiều năm và bất kỳ điều gì ảnh hưởng đến trải nghiệm người dùng đều có thể ảnh hưởng đến SERPs.

Đặt tham số trong URL động

Nhện coi các URL động dẫn đến cùng một trang là các trang riêng biệt, điều đó có nghĩa là bạn có thể lãng phí không cần thiết ngân sách thu thập dữ liệu của mình. Bạn có thể quản lý các tham số URL bằng cách truy cập Search Console và nhấp Theo dõi> Thông số URL. Từ đây, bạn có thể thông báo cho Googlebot nếu CMS của bạn thêm tham số vào các URL không thay đổi nội dung của trang.

Làm sạch sơ đồ trang web

Sơ đồ trang web XML giúp cả khách truy cập và robot nhện, giúp nội dung được tổ chức tốt hơn và dễ tìm hơn. Do đó, hãy cố gắng cập nhật sơ đồ trang web và loại bỏ bất kỳ sự lộn xộn nào có thể gây hại cho khả năng sử dụng trang web của bạn, bao gồm 400 trang cấp, chuyển hướng không cần thiết, trang không chính tắc và trang bị chặn.

Cách dễ nhất để làm sạch sơ đồ trang web là sử dụng một công cụ như Trình kiểm tra trang web. Bạn có thể sử dụng trình tạo sơ đồ trang web XML của Trình kiểm tra trang web để tạo một sơ đồ trang web sạch, loại trừ tất cả các trang bị chặn khỏi lập chỉ mục. Hơn nữa, bằng cách đi tới tùy chọn Kiểm tra trang web của YouTube, bạn có thể xác định vị trí và sửa chữa tất cả các lỗi 4xx, chuyển hướng 301 và 302 và các trang không chính tắc.

Tận dụng thức ăn

Cả nguồn cấp dữ liệu, RSS, XML và Atom đều cho phép nội dung được gửi tới người theo dõi khi họ không duyệt trang web. Điều này cho phép người dùng đăng ký các trang web yêu thích của họ và nhận được cập nhật thường xuyên mỗi khi nội dung mới được xuất bản.

Ngoài thực tế là các nguồn cấp dữ liệu RSS từ lâu đã là một cách tốt để tăng lượng độc giả và sự tham gia, chúng cũng là một trong những trang web được truy cập nhiều nhất bởi Googlebot. Khi trang web của bạn nhận được bản cập nhật (ví dụ: sản phẩm mới, bài đăng trên blog, cập nhật trang, v.v.), hãy gửi nó đến Google Feed burner để đảm bảo rằng nó được lập chỉ mục chính xác.

Tạo liên kết ngoài

Xây dựng liên kết vẫn là một chủ đề nóng, và không có gì thoáng qua rằng nó sẽ biến mất bất cứ lúc nào sớm.

Tu luyện các mối quan hệ trực tuyến, khám phá các cộng đồng mới, xây dựng giá trị thương hiệu; Những chiến thắng nhỏ này đã được in trong quy trình lập kế hoạch liên kết của bạn. Trong khi có những yếu tố đặc biệt của việc xây dựng liên kết mà bây giờ là năm 1990, nhu cầu kết nối với người khác sẽ không bao giờ thay đổi.

Hiện tại, chúng tôi đã có bằng chứng cho thấy các liên kết bên ngoài có mối tương quan chặt chẽ với số lượt truy cập nhện mà trang web của bạn nhận được.

Duy trì tính toàn vẹn của liên kết nội bộ

Mặc dù việc tạo các liên kết nội bộ không đóng vai trò đáng kể trong việc thu thập dữ liệu, điều đó không có nghĩa là nó có thể bị bỏ qua hoàn toàn. Cấu trúc trang web được duy trì tốt giúp nội dung của bạn dễ dàng được tìm thấy bởi các robot tìm kiếm mà không lãng phí ngân sách thu thập dữ liệu của bạn.

Cấu trúc liên kết nội bộ được tổ chức tốt cũng có thể cải thiện trải nghiệm người dùng, đặc biệt nếu người dùng có thể tiếp cận bất kỳ khu vực nào trên trang web của bạn trong ba lần nhấp. Làm cho mọi thứ thường dễ truy cập hơn có nghĩa là khách truy cập sẽ ở lại lâu hơn, điều này có thể cải thiện SERPs.

Chúng ta rút ra kết luận gì?

Một lần nữa, củng cố những gì đã được đề cập ở trên, vấn đề về ngân sách thu thập dữ liệu này sẽ rất quan trọng đối với các trang web lớn với hàng trăm và hàng ngàn trang web, nếu không, điều đó không đáng lo ngại, vì Google sẽ theo dõi bạn trang web trơn tru.

Chúng tôi không được phức tạp hóa việc thu thập dữ liệu các trang trên trang web của chúng tôi sang Google. Có nhiều trang web có đủ lỗi và thậm chí có các rào cản được tạo bởi các tệp robot.txt và sitemap.xml ngăn Google truy cập nội dung. Nếu chúng tôi muốn cải thiện vị trí trong bảng xếp hạng của Google, thì chúng tôi phải ủy quyền và đơn giản hóa các trang của trang web để Google có thể nhanh chóng truy cập, lập chỉ mục và vị trí. Rất đơn giản.

Đến bây giờ, có lẽ bạn đã nhận thấy một xu hướng trong bài viết này: Thực tiễn tốt nhất để truy xuất nguồn gốc cũng có xu hướng cải thiện khả năng tìm kiếm. Vì vậy, nếu bạn đang tự hỏi liệu thu thập thông tin tối ưu hóa ngân sách có quan trọng đối với trang web của bạn hay không, câu trả lời là có.

Nói một cách đơn giản, nếu bạn giúp Google dễ dàng khám phá và lập chỉ mục trang web của bạn hơn, bạn sẽ thích thu thập thông tin hơn, có nghĩa là cập nhật nhanh hơn khi bạn đăng nội dung mới. Bạn cũng sẽ cải thiện trải nghiệm người dùng tổng thể, cải thiện khả năng hiển thị và cuối cùng là xếp hạng SERPs.

Đây chỉ là một số điểm, trong số nhiều điểm khác, để cải thiện và tối ưu hóa ngân sách thu thập dữ liệu của một trang web.