Nội dung bài viết
Ký tự đại diện cũng thường được sử dụng để chặn một tham số nào đó. Một cách để làm điều này là cấu hình cho hệ thống của bạn tự động thêm vào địa chỉ URL có nhiều hơn 4 thành phần đoạn mã sau đây: ?crawl=no
Nếu địa chỉ URL có 3 thành phần, nó sẽ là /facet1/facet2/facet3/, khi thành phần thứ 4 được thêm vào, nó sẽ trở thành /facet1/facet2/facet3/facet4/?crawl=no.
Nếu bọ tìm kiếm tìm thấy địa chỉ URL có chứa *crawl=no, nó sẽ không truy cập vào trang web đó nữa.
Bài tập:
Thêm luật Disallow vào file robots.txt để chặn truy cập vào bất kỳ trang nào chứa crawl=no
User-agent: *
Disallow: /secret/
Trả lời:
User-agent: *
Disallow: *crawl=no