Robots.txt – Hướng dẫn tạo file robots.txt chuẩn SEO

Bạn đã từng nghe về file robots.txt chưa? Đây là một phần quan trọng của việc quản trị website và chuẩn bị cho việc SEO. Trong bài viết này, chúng ta sẽ tìm hiểu về robots.txt, cách tạo và sử dụng nó để cải thiện thứ hạng trang web trên công cụ tìm kiếm.

Robots.txt là gì?

Robots.txt là một file văn bản đặc biệt được sử dụng để quản lý việc thu thập thông tin từ các trang web bởi các công cụ tìm kiếm, như rô bốt của Google. Nó cho phép người quản trị website chỉ định các phần mà các công cụ tìm kiếm có thể hoặc không thể thu thập thông tin.

Trên thực tế, tệp robots.txt chỉ định liệu một “user-agent” (công cụ thu thập thông tin web) có thể hoặc không thể thu thập dữ liệu từ các phần của trang web. Các chỉ thị này được đặt bằng cách “không cho phép” (Disallow) các user-agents thu thập dữ liệu.

file robots.txt

Tại sao bạn cần robots.txt?

Tệp robots.txt giúp kiểm soát việc truy cập vào các khu vực cụ thể của trang web. Dù có thể gây nguy hiểm nếu bạn không cho phép Googlebot thu thập thông tin từ toàn bộ trang web của bạn, nhưng có những tình huống mà tệp robots.txt có thể rất hữu ích.

Một số trường hợp sử dụng phổ biến bao gồm:

Ngăn chặn nội dung trùng lặp xuất hiện trong kết quả tìm kiếm (lưu ý rằng robot meta thường là lựa chọn tốt hơn cho việc này).
Bảo vệ các phần của trang web để giữ riêng tư.
Định vị sơ đồ trang web (sitemap).
Ngăn chặn các công cụ tìm kiếm lập chỉ mục các tệp nhất định trên trang web của bạn (hình ảnh, PDF, v.v.).
Chỉ định độ trễ thu thập dữ liệu để đảm bảo máy chủ không bị quá tải khi truy cập nhiều phần nội dung cùng một lúc.

Nếu không có khu vực nào trên trang web của bạn mà bạn muốn kiểm soát quyền truy cập của tác nhân người dùng (User-agent), bạn hoàn toàn không cần một tệp robots.txt.

Định dạng cơ bản

User-agent: [user-agent name]
Disallow: [URL string not to be crawled]

Đây là một ví dụ tệp robots.txt minh họa:

ví dụ tệp robots.txt

Msnbot, Discobot và Slurp chỉ định rõ rằng các user-agent này sẽ chỉ quan tâm đến các chỉ thị trong các phần của tệp robots.txt. Tất cả các user-agent khác sẽ tuân thủ các chỉ thị trong nhóm User-agent: *.

Các user-agent phổ biến của công cụ tìm kiếm

Dưới đây là một danh sách các user-agent bạn có thể sử dụng trong tệp robots.txt của mình để khớp với các công cụ tìm kiếm được sử dụng phổ biến nhất:

user-agent phổ biến

Ví dụ robots.txt

Dưới đây là một số ví dụ về tệp robots.txt cho trang web www.example.com:

URL tệp robots.txt: www.example.com/robots.txt

Chặn tất cả các trình thu thập dữ liệu web từ tất cả nội dung

User-agent: *
Disallow: /

Sử dụng cú pháp này (Disallow: /) trong tệp robots.txt sẽ ngăn tất cả các trình thu thập dữ liệu web thu thập dữ liệu từ trang nào trên www.example.com, bao gồm cả trang chủ.

Cho phép tất cả các trình thu thập dữ liệu web truy cập vào tất cả nội dung

User-agent: *
Disallow:

Sử dụng cú pháp này trong tệp robots.txt sẽ cho phép trình thu thập dữ liệu web thu thập dữ liệu từ tất cả các trang trên www.example.com, bao gồm cả trang chủ.

Chặn một trình thu thập dữ liệu web cụ thể từ một thư mục cụ thể

User-agent: Googlebot
Disallow: /example-subfolder/

Cú pháp này chỉ yêu cầu trình thu thập thông tin của Google (User-agent: Googlebot) không thu thập dữ liệu từ bất kỳ trang nào chứa URL www.example.com/example-subfolder/.

User-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html

Cú pháp này chỉ yêu cầu trình thu thập thông tin của Bing (User-agent: Bingbot) không thu thập dữ liệu từ trang cụ thể tại www.example.com/example-subfolder/blocked-page.html.

Một số lưu ý khác về robots.txt

Để được tìm thấy, tệp robots.txt phải được đặt trong thư mục gốc (root) của trang web.
robots.txt phân biệt chữ hoa chữ thường: tềp phải được đặt tên là robots.txt (không phải Robots.txt, hay robots.TXT).
Một số user-agent(robot) có thể chọn bỏ qua tệp robots.txt của bạn. Điều này đặc biệt phổ biến với các trình thu thập dữ liệu bất chính hơn như robots phần mềm độc hại hoặc người dọn dẹp địa chỉ email.
Mỗi tên miền phụ trên một tên miền gốc sử dụng các tệp robots.txt riêng biệt. Điều này có nghĩa là cả blog.example.com và example.com nên có các tệp robots.txt riêng (tại blog.example.com/robots.txt và example.com/robots.txt).
Việc chỉ ra vị trí của bất kỳ sơ đồ trang web nào được liên kết với tên miền này ở cuối tệp robots.txt là thực hành tốt.

Thực hành tốt nhất về SEO

Đảm bảo bạn không chặn bất kỳ nội dung hoặc phần nào trên trang web của bạn mà bạn muốn thu thập thông tin.
Liên kết trên các trang bị chặn bởi robots.txt sẽ không được theo dõi. Điều này có nghĩa là trừ khi chúng cũng được liên kết từ các trang không bị chặn thông qua robots.txt, meta robot hoặc cách khác, các tài nguyên được liên kết sẽ không được thu thập thông tin và có thể không được lập chỉ mục. Không có link equity có thể được chuyển từ trang bị chặn đến đích liên kết. Nếu bạn có các trang mà bạn muốn vốn chủ sở hữu được thông qua, hãy sử dụng một cơ chế chặn khác ngoài robots.txt.
Không sử dụng robots.txt để ngăn dữ liệu nhạy cảm xuất hiện trong kết quả tìm kiếm. Nếu bạn muốn chặn trang của mình khỏi kết quả tìm kiếm, hãy sử dụng một phương pháp khác như bảo vệ mật khẩu hoặc chỉ thị meta noindex.
Một số công cụ tìm kiếm có nhiều tác nhân người dùng. Chẳng hạn, Google sử dụng Googlebot cho tìm kiếm không phải trả tiền và Googlebot-Image cho tìm kiếm hình ảnh.
Công cụ tìm kiếm sẽ lưu trữ nội dung robots.txt, nhưng thường cập nhật nội dung được lưu trong bộ nhớ cache ít nhất một lần một ngày. Nếu bạn thay đổi tệp và muốn cập nhật tệp nhanh hơn, bạn có thể gửi robots.txt của mình cho Google.

Robots.txt vs Meta robot vs X-robot

Sự khác biệt giữa ba loại chỉ thị robot này là gì?

Trước hết, robots.txt là một tệp văn bản thực tế, trong khi meta và x-robot là các chỉ thị meta. Chúng phục vụ các chức năng khác nhau.

robots.txt ra lệnh cho hành vi thu thập dữ liệu trên toàn bộ trang web hoặc thư mục, trong khi đó meta và x-robot có thể ra lệnh cho hành vi lập chỉ mục từng trang riêng lẻ.

Hạn chế của Meta robots

Mặc dù meta robots thường được sử dụng để kiểm soát hành vi thu thập dữ liệu trên một trang cụ thể, nhưng nó cũng có một số hạn chế. Lệnh robots.txt có thể không được tất cả các công cụ tìm kiếm hỗ trợ, và trình thu thập khác nhau có thể phân tích cú pháp khác nhau. Ngoài ra, Google vẫn có thể lập chỉ mục một trang bị chặn bởi robots.txt nếu trang được liên kết từ những trang web khác.

Kết luận

Tệp robots.txt là một phần cần thiết trong quá trình quản trị website và thực hiện SEO. Nắm vững cách tạo và sử dụng robots.txt sẽ giúp bạn kiểm soát quyền truy cập và cải thiện thứ hạng trang web trên các công cụ tìm kiếm.

Nguồn: GPSC Team