Robots.txt là dạng tập tin đặc biệt không phải là HTML hay một loại nào khác. Mục đích của việc có file robots.txt là khai báo cho công cụ tìm kiếm biết rằng những nội dung nào trên website của bạn được cho phép các bot tìm kiếm và lập chỉ mục.

Mục đích của file Robots.txt là gì?

Khi có một công cụ tìm kiếm thông tin trang web của bạn, điều đầu tiên mà nó tìm kiếm hầu hết là file Robots.txt . File này sẽ nói với công cụ tìm kiếm những gì nên và không nên lập chỉ mục. Nó cũng có thể chỉ ra vị trí trang web của bạn trên XML Sitemap. Sau đó các công cụ tìm kiếm sẽ gửi “bot”, “robot” hoặc “spider” để thu thập thông tin trang web của bạn theo như hướng dẫn của file Robots.txt (các công cụ tìm kiếm sẽ không gửi nếu file Robot.txt nói với họ là không thể chỉ mục).

robots.txt

File Robots.txt nằm ở đâu?

File Robots.txt thường nằm ở thư mục gốc của bạn, bạn có thể dễ dàng tạo một file trống và đặt tên là Robots.txt, điều này giúp bạn tránh được các lỗi cho trang web đồng thời cho phép tất cả các công cụ tìm kiếm thu thập thông tin về trang web của bạn.

Ví dụ website bạn là sieutocviet.com thì file robots sẽ là sieutocviet.com/robots.txt

File Robots mặc định của wordpress:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Hoặc Bạn có thể tham khảo code này

User-agent: *
Disallow: /wp-admin/
User-agent: *
Allow: /
Disallow: /*?*
Disallow: /*/?*
Sitemap: https://web.sieutocviet.com/sitemap.xml

Một số ví dụ khác về robots.txt


Chặn bot không cho chỉ mục toàn bộ website
Bạn có câu lệnh như sau:

User-agent:*
Disallow: /

Lệnh này có ý nghĩa: “Không cho phép các bot của công cụ tìm kiếm truy cập và đánh chỉ mục trên toàn bộ tài nguyên có trên website của bạn.”
Chặn bot chỉ mục vào một thư mục nhất định


User-agent:*
Disallow: /wp-admin/
Disallow: /wp-includes/

Lệnh này có nghĩa: “Cho phép bot lập chỉ mục tất cả dữ liệu trừ 2 thư mục /wp-admin/ và /wp-includes/ là không cho phép.”
Chặn một trang hay đường dẫn đến bài viết nào đó


User-agent:*
Disallow: /gioi-thieu.html

Lệnh này có nghĩa: “Cho phép bot đánh chỉ mục tất cả các dữ liệu trừ đường dẫn /gioi-thieu.html”
Chặn một hình ảnh nào đó


User-agent:*
Disallow: /images/tenhinhanhcanchan.jpg

Lệnh này có nghĩa: “Chặn một hình ảnh nào đó từ website của bạn, ngăn không cho các bot tìm kiếm và lập chỉ mục cho hình ảnh đó.”

Chặn một loại bot nào đó
User-agent:Spambot
Disallow: /

Lệnh này có nghĩa: “Chặn botspam truy cập tất cả dữ liệu trên website của bạn”. Trong khi đó các bot khác thì được quyền truy cập”
Chặn tất cả các dữ liệu trong một thư mục trừ một file nào đó

User-agent:*
Disallow: /thumucbichan/
Allow: /thumucbichan/filekhongbichan.html

Lệnh này có nghĩa: “Chặn bot tìm kiếm tất cả dữ liệu trong thư mục /thumucbichan/ nhưng cho phép lập chỉ mục file /filekhongbichan.html”


Rated: 5.0/5 - (1 phiếu)
2019-08-28
2019-08-28