File robots.txt đóng vai trò quan trọng trong việc tối ưu SEO website. Tinh Tế sẽ hướng dẫn chi tiết cách tạo và cấu hình file robots.txt đúng chuẩn để tăng hiệu quả crawl của Google.

Hình ảnh: Minh họa cấu trúc file robots.txt với các thành phần User-Agent, Disallow, Allow, Sitemap trên màn hình máy tính

File robots.txt là gì?

File robots.txt là tệp văn bản đơn giản có phần mở rộng .txt, được đặt tại thư mục gốc của website. File này thuộc Robots Exclusion Protocol (REP) – bộ tiêu chuẩn web quy định cách các web crawler (robot của công cụ tìm kiếm) thu thập, truy cập và lập chỉ mục nội dung website.

Khi Googlebot hoặc bot của công cụ tìm kiếm khác truy cập website, điều đầu tiên chúng thực hiện là kiểm tra file robots.txt. Dựa vào các quy tắc trong file này, bot sẽ quyết định những trang nào có thể crawl và index.

File robots.txt hoạt động như “bản hướng dẫn” cho các công cụ tìm kiếm. Nó giúp website chủ động kiểm soát việc truy cập của bot vào các khu vực khác nhau trên trang.

File robots.txt dùng để làm gì (Chức năng & Tầm quan trọng)?

Kiểm soát crawl budget

File robots.txt giúp tối ưu crawl budget bằng cách ngăn bot truy cập các trang không quan trọng. Điều này đặc biệt hữu ích với website có hàng nghìn trang hoặc nội dung động.

Bảo vệ nội dung riêng tư

File này cho phép che giấu các thư mục hoặc trang chứa thông tin nhạy cảm khỏi công cụ tìm kiếm. Tuy nhiên, đây không phải phương pháp bảo mật tuyệt đối.

Ngăn nội dung trùng lặp

Robots.txt có thể chặn bot truy cập các trang có nội dung duplicate hoặc near-duplicate, giúp cải thiện chất lượng index.

Tối ưu hiệu suất server

Bằng cách hạn chế số lượng trang bot có thể crawl, file robots.txt giảm tải cho server, đặc biệt quan trọng với hosting có băng thông hạn chế.

Hướng dẫn sitemap

File robots.txt thường chứa đường dẫn đến sitemap XML, giúp công cụ tìm kiếm phát hiện và crawl nội dung mới nhanh hơn.

File robots.txt hoạt động như thế nào?

Quy trình hoạt động của file robots.txt diễn ra theo các bước sau:

Bot truy cập website: Khi crawler của Google, Bing hay công cụ tìm kiếm khác ghé thăm website, bước đầu tiên là kiểm tra file robots.txt tại đường dẫn domain.com/robots.txt.
Phân tích quy tắc: Bot đọc và phân tích các quy tắc trong file để xác định những trang nào được phép crawl và những trang nào bị cấm.
Thực thi crawl: Dựa vào hướng dẫn, bot sẽ crawl các trang được phép và bỏ qua những trang bị chặn.
Cập nhật định kỳ: Bot sẽ kiểm tra lại file robots.txt theo chu kỳ để cập nhật các thay đổi mới.

Tuy nhiên, cần lưu ý rằng robots.txt chỉ là “khuyến nghị” chứ không phải “lệnh bắt buộc”. Các công cụ tìm kiếm uy tín như Google, Bing thường tuân thủ, nhưng một số bot độc hại có thể bỏ qua.

Cấu trúc và Cú pháp cơ bản của file robots.txt

File robots.txt có cấu trúc đơn giản với các chỉ thị cơ bản. Mỗi chỉ thị chiếm một dòng và phân biệt chữ hoa/thường.

User-Agent

Chỉ thị User-Agent xác định bot nào sẽ áp dụng các quy tắc tiếp theo. Đây là chỉ thị bắt buộc và phải xuất hiện đầu tiên trong mỗi nhóm quy tắc.

Cú pháp:

User-agent: * – Áp dụng cho tất cả bot
User-agent: Googlebot – Chỉ áp dụng cho Googlebot
User-agent: Bingbot – Chỉ áp dụng cho Bingbot

Disallow

Chỉ thị Disallow ngăn bot truy cập các URL hoặc thư mục cụ thể. Mỗi URL chỉ được sử dụng một dòng Disallow.

Ví dụ:

Disallow: /admin/ – Chặn toàn bộ thư mục admin
Disallow: /search? – Chặn trang kết quả tìm kiếm
Disallow: *.pdf$ – Chặn tất cả file PDF

Allow

Chỉ thị Allow (chỉ Googlebot hỗ trợ) cho phép bot truy cập trang hoặc thư mục con cụ thể, dù thư mục cha bị cấm.

Ví dụ:

User-agent: *
Disallow: /private/
Allow: /private/public-files/

Sitemap

Chỉ thị Sitemap cung cấp đường dẫn đến sitemap XML của website. Đây không phải chỉ thị bắt buộc nhưng rất khuyến khích sử dụng.

Cú pháp: Sitemap: https://domain.com/sitemap.xml

Hướng dẫn tạo file robots.txt chi tiết cho website

Bước 1: Kiểm tra file hiện tại

Trước khi tạo mới, hãy kiểm tra website đã có file robots.txt chưa bằng cách truy cập domain.com/robots.txt.

Bước 2: Tạo file mới

Sử dụng trình soạn thảo văn bản (Notepad, TextEdit) tạo file mới với tên chính xác robots.txt.

Bước 3: Viết nội dung cơ bản

Đối với website WordPress tiêu chuẩn:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /search
Disallow: /?s=
Disallow: /author/

Sitemap: https://domain.com/sitemap.xml

Bước 4: Upload file

Qua FTP: Kết nối FTP và upload file vào thư mục gốc (public_html hoặc www)
Qua hosting panel: Sử dụng File Manager trong cPanel để upload
Qua plugin WordPress: Sử dụng Yoast SEO hoặc RankMath

Bước 5: Kiểm tra hoạt động

Truy cập domain.com/robots.txt để xác nhận file hiển thị đúng nội dung.

Cách kiểm tra file robots.txt trên website

Kiểm tra trực tiếp qua trình duyệt

Cách đơn giản nhất là nhập domain.com/robots.txt vào thanh địa chỉ trình duyệt. Nếu file tồn tại, nội dung sẽ hiển thị dạng văn bản thuần.

Sử dụng Google Search Console

Google Search Console cung cấp công cụ Robots.txt Tester để kiểm tra và test file:

Đăng nhập Google Search Console
Chọn website cần kiểm tra
Vào phần Crawl > robots.txt Tester
Nhập URL muốn test và nhấn TEST
Nếu kết quả hiển thị ALLOWED, tức là URL được phép crawl

Kiểm tra bằng công cụ SEO

Các công cụ như Screaming Frog, SEMrush, Ahrefs cũng cung cấp tính năng kiểm tra file robots.txt và phân tích tác động đến crawling.

Cách Submit (Gửi) file robots.txt lên Google

Thông qua Google Search Console

Truy cập Google Search Console
Chọn property của website
Vào Crawl > robots.txt Tester
Sau khi chỉnh sửa file, nhấn nút SUBMIT
Xác nhận lại bằng cách nhấn SUBMIT trong popup

Tự động cập nhật

Google sẽ tự động kiểm tra và cập nhật file robots.txt khi crawler ghé thăm website. Thời gian cập nhật thường từ vài giờ đến vài ngày.

Sử dụng sitemap

Nếu có cập nhật quan trọng, bạn có thể ping Google qua sitemap để crawler kiểm tra sớm hơn.

Những hạn chế của file robots.txt bạn cần biết

Không phải phương pháp bảo mật

File robots.txt là công khai và bất kỳ ai cũng có thể truy cập. Đây không phải cách hiệu quả để ẩn nội dung nhạy cảm.

Bot độc hại có thể bỏ qua

Không phải tất cả bot đều tuân thủ robots.txt. Một số bot spam hoặc scraper có thể cố tình bỏ qua các quy tắc.

Có thể vô tình chặn nội dung quan trọng

Cấu hình sai có thể chặn các trang quan trọng khỏi index, ảnh hưởng nghiêm trọng đến SEO.

Khác biệt giữa các công cụ tìm kiếm

Mỗi công cụ tìm kiếm có cách diễn giải riêng về robots.txt. Ví dụ, chỉ thị Allow chỉ có hiệu lực với Googlebot.

Chậm trễ trong cập nhật

Thay đổi trong robots.txt có thể mất thời gian để có hiệu lực, tùy thuộc vào tần suất crawler ghé thăm.

Một số quy tắc và lưu ý khi sử dụng file robots.txt từ Tinh Tế Marketing

Nguyên tắc tối thiểu cần thiết

Chỉ chặn những gì thực sự cần thiết. Việc chặn quá nhiều có thể làm giảm khả năng discovery của Google.

Test trước khi triển khai

Luôn test file robots.txt bằng Google Search Console trước khi áp dụng chính thức. Một lỗi nhỏ có thể gây hậu quả lớn.

Backup file cũ

Trước khi chỉnh sửa, hãy backup file robots.txt hiện tại để có thể khôi phục nếu cần.

Theo dõi thường xuyên

Monitor traffic và indexing sau khi thay đổi robots.txt để phát hiện sớm các vấn đề.

Sử dụng kết hợp với meta robots

Đối với nội dung thực sự cần ẩn, kết hợp robots.txt với meta tag noindex để đảm bảo hiệu quả.

Cập nhật sitemap

Khi có thay đổi lớn trong robots.txt, hãy cập nhật và submit lại sitemap để Google crawl nhanh hơn.

Tránh sử dụng wildcards phức tạp

Mặc dù wildcards (*) hữu ích, nhưng cấu trúc quá phức tạp có thể gây nhầm lẫn và lỗi.

Câu hỏi thường gặp về robots.txt (FAQ)

File robots.txt nằm ở đâu trên website?

File robots.txt phải được đặt tại thư mục gốc của domain, có thể truy cập qua https://domain.com/robots.txt. File này phải nằm ở cấp độ cao nhất của website, không thể đặt trong thư mục con. Ví dụ, https://domain.com/folder/robots.txt sẽ không hoạt động. Vị trí này là bắt buộc vì các crawler luôn tìm kiếm file robots.txt tại đường dẫn chuẩn này đầu tiên khi truy cập website.

Điều gì xảy ra nếu không có file robots.txt?

Nếu website không có file robots.txt, các crawler sẽ coi như được phép truy cập toàn bộ nội dung công khai của website. Đây không nhất thiết là vấn đề nghiêm trọng, nhưng bạn sẽ mất khả năng kiểm soát crawling. Đối với website nhỏ với cấu trúc đơn giản và tất cả nội dung đều muốn được index, việc không có robots.txt là chấp nhận được. Tuy nhiên, đối với website lớn hoặc có các trang không muốn index, file robots.txt trở thành công cụ quan trọng.

Robots.txt có ảnh hưởng đến SEO không?

Robots.txt có tác động trực tiếp đến SEO thông qua việc kiểm soát crawling và indexing. File được cấu hình đúng giúp tối ưu crawl budget, tăng hiệu quả indexing cho những trang quan trọng. Ngược lại, cấu hình sai có thể chặn các trang quan trọng khỏi index, gây tổn hại nghiêm trọng đến thứ hạng. Robots.txt cũng giúp ngăn nội dung duplicate xuất hiện trong SERP, cải thiện chất lượng tổng thể của website trong mắt Google.

Khi nào nên và không nên chặn bằng robots.txt?

Nên chặn: Thư mục admin, trang kết quả tìm kiếm nội bộ, file nhạy cảm, trang cảm ơn sau conversion, nội dung duplicate, phiên bản mobile nếu có responsive design. Không nên chặn: Trang sản phẩm/dịch vụ chính, blog posts, landing pages quan trọng, file CSS/JS cần thiết cho rendering, hình ảnh quan trọng cho SEO, sitemap XML. Nguyên tắc chung là chỉ chặn những gì thực sự không mang lại giá trị SEO hoặc có thể gây tổn hại.

Làm sao để chặn tất cả Web Crawler?

Để chặn toàn bộ crawler truy cập website, sử dụng cấu hình sau trong robots.txt:

User-agent: *
Disallow: /

Tuy nhiên, cách này sẽ khiến website hoàn toàn biến mất khỏi kết quả tìm kiếm. Chỉ nên sử dụng trong trường hợp website đang phát triển, bảo trì, hoặc bạn không muốn website xuất hiện trên công cụ tìm kiếm. Đối với nội dung riêng tư, hãy sử dụng password protection hoặc meta tag noindex thay vì robots.txt.