Chặn định dạng của file robots.txt

Như chúng ta đã học về chặn thư mục trong bài trước (Disallow: /private/ sẽ chặn toàn bộ thư mục private, bao gồm tất cả các file nằm trong thư mục này). Tương tự vậy, nếu chúng ta dùng lệnh Disallow: /private/file.htm, thì trang web file.html cũng bị chặn, bất kể chúng ta có sử dụng ký tự đại diện hay không.

Nhưng nếu chúng ta chỉ muốn chặn file.htm mà không muốn làm ảnh hưởng tới file.html thì phải làm sao. Ví dụ với nhóm lệnh dưới đây:

User-agent: googlebot

Disallow: .jpg

Thoạt tiên, bạn có thể tưởng rằng chỉ có những file .jpg mới bị chặn. Nhưng trên thực tế nó sẽ chặn cả những file kiểu như explanation-of-.jpg.html

Nếu bạn chỉ muốn chặn những file jpg, thì phải làm sao? Hãy sử dụng ký tự $, đây là ký tự có ý nghĩa “hết dòng”.

Bài tập: Chỉnh sửa nhóm lệnh dưới đây để chỉ chặn các file .jpg

User-agent: *

Disallow: .jpg

Trả lời:

User-agent: *

Diallow: .jpg$

Trả lời