Web index và cách lấy thông tin của google

1. Cơ sở dữ liệu web (Web index) là gì?

Về cơ bản, web index là cơ sở dữ liệu lưu trữ các trang web. Các máy tìm kiếm sử dụng hàng ngìn máy chủ đặt khắp nơi trên thế giới để lưu trữ nhiều tỉ trang web trong CSDL của mình. Việc này đảm bảo người tìm kiếm nhận được kết quả gần như ngay lập tức sau khi họ nhấn nút Enter.

2. Lấy thông tin

Khi một người dùng tìm kiếm với một từ khóa, thực tế họ không tìm kiếm trên thế giới web. Họ đang tìm kiếm trên cơ sở dữ liệu của các máy tìm kiếm. Các máy tìm kiếm sẽ vào cơ sở dữ liệu của mình và lấy ra các trang web cùng chủ đề. Cụ thể đó là những trang web có chứa từ tìm kiếm hoặc chứa những từ liên quan. Từ đây rút ra được, để tăng độ liên quan của trang web đến từ khóa bạn muốn hướng tới, bạn cần biết chèn từ khóa một cách hợp lý ở những vị trí quan trọng. Bên cạnh đó, cũng không được quên những từ liên quan. Làm thế nào máy tìm kiếm biết được nội dung trang web có liên quan đến từ khóa đang được tìm kiếm

a. Sử dụng từ khóa:

Máy tìm kiếm tìm xem trong nội dung của trang web có chứa từ khóa đang được tìm kiếm hay không? Nếu người lên Google tìm kiếm với từ bóng đá:

Nội dung A: Bóng đá là môn thể thao tập thể, gồm 2 đội thi đấu đối kháng với nhau. Mỗi đội có 11 vận động viên. Trong đó có 1 thủ môn, có quyền chơi bóng bằng tay và được bảo vệ trong vòng cấm địa. Trận đấu được điều khiển bởi 3 trọng tài trong đó có 1 trọng tài chính, 2 trợ lý trọng tài…

Nội dung B: Với kỹ thuật điêu luyện và khả năng đọc trận đấu cực tốt, Messi đã góp công lớn trong kỳ tích 3 chức vô địch La Liga liên tiếp của Barca. Cũng nhờ điều này mà anh đã 4 năm liền được bầu chọn là cầu thủ hay nhất thế giới.

Tóm lại: vì nội dung A chứa từ bóng đá trong khi nội dung B không có mặc dù cũng nói về chủ đề bóng đá, máy tìm kiếm dễ dàng xác định nội dung A liên quan hơn, và từ đó trả về cho người tìm kiếm Rõ ràng là sẽ không còn dễ dàng nếu cả 2 nội dung này cùng chứa từ “bóng đá”.

b. Tần suất xuất hiện * tần số nghịch của từ trong văn bản

(Term Frequency*Inverse Document Frequency)

Tần số xuất hiện là số lần xuất hiện của từ khóa trong văn bản.

Tần số nghịch là tỷ lệ giữa mức độ phổ biến của một từ trên trang web đó với mức độ phổ trung bình trên mọi trang web. Về căn bản, những từ được sử dụng phổ biến hơn sẽ có trọng số thấp hơn.

Ví dụ khi bạn tìm kiếm với cụm từ “bóng đá Messi”

Nội dung A: Bóng đá là môn thể thao vua, với hàng tỉ người hâm mộ trên toàn thế giới. Các giải bóng đá hàng đầu thế giới có thể kể đến như Ngoại Hạng Anh, Bundesliga Đức hay La Liga Tây Ban Nha.

Nội dung B: Trên thị trường chuyển nhượng, hiện Messi là cầu thủ được định giá cao nhất và được rất nhiều câu lạc bộ lớn săn đón. Dù vậy, đội bóng chủ quản của Messi, CLB Barca chưa bao giờ và khả năng sẽ không bao giờ bán ngôi sao lớn này của họ

Với phương pháp TF*IDF: vì từ “Messi” ít phổ biến hơn “bóng đá” nên IDF của “Messi” cao hơn.

Với cùng một tỷ lệ TF, thì rõ ràng nội dung B liên quan đến cụm từ truy vấn hơn nội dung A. Và do đó, máy tìm kiếm sẽ trả về nội dung B cho người dùng.

Máy tìm kiếm sử dụng IDF. Ví dụ, khi người dùng gửi một truy vấn đến máy tìm kiếm, hệ thống cần biết từ nào là từ người dùng quan tâm nhất. Chẳng hạn: truy vấn của người dùng là “làm thế nào để sửa máy ủi”. Sau khi tách từ, chúng ta sẽ có 5 từ đơn như sau: làm, thế nào, để, sửa, máy ủi. Trong các từ này, “máy ủi” sẽ có IDF cao nhất. Hệ thống sẽ lấy ra tất cả các nội dung có chứa từ máy ủi và sau đósẽ thực hiện việc đánh giá và so sánh dựa trên các từ còn lại trong câu truy vấn.

Kết quả sẽ xác định tỷ lệ giữa mức độ phổ biến của một từ trên trang web đó với mức độ phổ trung bình trên mọi trang web. Về căn bản, những từ được sử dụng phổ biến hơn sẽ có trọng số thấp hơn. Những từ có giá trị TF-IDF cao là những từ xuất hiện nhiều trong văn bản này, và xuất hiện ít trong các văn bản khác. Với máy tìm kiếm đây là những từ có giá trị cao hơn. Việc này giúp lọc ra những từ phổ biến và giữ lại những từ có giá trị cao (từ khoá của văn bản đó).

c. Những từ liên quan (Co-occurrence)

Ví dụ, cụm từ tìm kiếm: “tôn ngộ không”

Nội dung A: Tôn Ngộ Không còn gọi là Tề Thiên Đại Thánh hay Tề Thiên, là nhân vật chính trong tiểu thuyết Tây du ký, nhân vật giả tưởng có thể được xem là nổi tiếng nhất trong văn học Trung Hoa.

Nội dung B: Theo truyền thuyết, Tôn Ngộ Không sinh ra từ một hòn đá và đã học được 72 phép biến hóa (gấp hai lần số phép của Trư Bát Giới).

Vì cụm từ “tôn ngộ không” thường được sử dụng với “tây du ký” nên nội dung A liên quan đến cụm từ cần tìm kiếm hơn nội dung B. Do vậy, nó có thứ hạng cao hơn.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *