TÚT dò quét và dữ liệu

Những điều cơ bản để SEO nhanh sau khi lập website và để google tút dò quét và ghi nhận dữ liệu. Đây là những điều cơ bản nhưng quan trọng cần thiết cho website của bạn.

1.Dò quét

Các máy tìm kiếm tìm thấy nội dung nhờ những chú robots (còn được gọi là con bọ tìm kiếm, tên tiếng anh là “bots,” “spiders,” hoặc “crawlers”) liên tục ghé thăm các website. Chúng đồng thời lần theo đường link trên các website đó để tìm ra các website mới. Những đường link này có thể là link nội bộ, hoặc link trỏ ra ngoài. Nhờ đó bọ tìm kiếm có thể khám phá tất cả các nội dung trên trang web đó, cũng như nội dung của các website khác.

Vì vậy, hệ thống link nội bộ của bạn cần phải được thiết kế tối ưu sao cho máy tìm kiếm có thể tìm ra mọi nội dung quan trọng trên website của bạn. Hành động đi theo những đường link để khám phá ra nội dung mới được gọi là “Dò quét”.

Bạn hãy xem thêm 10 bước đơn giản SEO Onpage

2.Sơ đồ website XML

Một cách khác giúp máy tìm kiếm khám phá nội dung mới là thông qua sơ đồ website XML, là danh sách các địa chỉ URL của các trang web. Mỗi website có một hoặc nhiều sitemap XML. Các máy tìm kiếm sẽ lấy ra sitemap này và sử dụng nó để khám phá ra nội dung mới.

Trong khi, sơ đồ website XML giúp máy tìm kiếm dễ dàng khám phá website của bạn, nó không giúp tăng thứ hạng cho website của bạn. Nó đơn giản chỉ giúp bọ tìm kiếm tìm ra nội dung của bạn dễ dàng hơn mà thôi.

3. Lưu dữ liệu

Khi bọ tìm kiếm tìm ra một trang web, nó đọc đồng thời lưu các nội dung đó cùng với địa chỉ URL của trang web vào hệ thống máy chủ của mình. Quá trình lưu trữ dữ liệu này còn được gọi là indexing.

Việc Google index một trang, cũng giống như việc chúng ta mở một quyển sách hay một tạp chí photocopy một bài báo nào đó, rồi đặt bản sao đó vào một file có cùng chủ đề với bài báo, nơi bạn có thể tìm lại nó bất cứ khi nào cần đến.

4. Các công nghệ gây khó khăn cho máy tìm kiếm

Như các bạn đã biết, công nghệ mới giúp tăng chất lượng website, giúp website thân thiện hơn, hấp dẫn hơn với người dùng. Tuy nhiên, chúng cũng gây ra những khó khăn nhất định với máy tìm kiếm. cụ thể là các công nghệ dưới đây:

a) JavaScript

JavaScript là ngôn ngữ kịch bản của Web. Tất cả các trang web hiện đại đều sử dụng JavaScript nhằm tăng thêm chức năng cho trang Web, ví dụ: kiểm tra dữ liệu đầu vào, giao tiếp với máy chủ web… Máy tìm kiếm không thể đọc được file JavaScript. Điều này có nghĩa nếu nội dung nằm trong JavaScript, nó sẽ vô hình trước máy tìm kiếm. Tương tự như vậy, Google cũng không thể đọc được các liên kết nằm nếu chúng nằm trong JavaScript. Điều này có nghĩa nếu bạn sử dụng JavaScript cho thanh điều hướng chính, toàn bộ cấu trúc site sẽ trở nên vô hình trước máy tìm kiếm. Khả năng của Google đã được cải thiện nhiều trong việc dò quét file JavaScript, nhưng vẫn chưa đạt đến mức hoàn hảo. Trong khi Google đang cố gắng ngày đêm hoàn thiện mình để tăng khả năng đọc hiểu JavaScript, bạn không nên phụ thuộc vào điều này. Bạn cần đảm bảo những nội dung quan trọng nhất của mình đều nằm trong code HTML.

b) Flash

Google đã thông báo rằng: Nó đã có thể hiểu file Flash định dạng .swf tốt hơn trước đây, trong khi vẫn chưa đủ khả năng để đọc hiểu file Flash Video. Tuy Google có thể đọc được nội dung Flash, nó vẫn gặp khó khăn trong việc rút ra ý chính của một file Flash từ những hình ảnh riêng lẻ. Đó là do: Flash là phim.

Vì những lý do này, bạn nên tránh sử dụng Flash bất cứ khi nào có thể. Flash có thể làm cho website của bạn hấp dẫn hơn, sinh động hơn nhưng bạn chỉ nên sử dụng hạn chế. Thêm Flash vào website cũng giống như cho thêm hạt tiêu vào bát cháo. Nó có thể làm bát cháo của bạn ngon hơn, và thơm hơn nếu bạn sử dụng vừa phải. Nhưng chắc chắn bạn không muốn ăn một bát cháo quá cay, quá nồng. Tương tự vậy, Flash khiến cho website của bạn thú vị hơn, nhưng bạn chắc chắn không nên làm một website hoàn toàn bằng Flash, hoặc có quá nhiều nội dung Flash.

Với sự ra đời và phát triển mạnh mẽ của HTML5, bạn càng có ít lý do để sử dụng Flash, vì HTML5 có đầy đủ chức năng của Flash.

c) Frames

Nếu trang web của bạn có chứa thẻ <frame> hoặc <iframe>, các máy tìm kiếm cũng sẽ không thể đọc được nội dung trong các thẻ này.

Ví dụ nếu trang web: webcuaban.com/du-lich.html sử dụng một iframe để hiển thị nội dung lấy từ trang web: webkhac.com/du-lich.html, tất cả những nội dung trong frame này sẽ không được sử dụng trong công thức tính toán thứ hạng của Google. Do đó, những nội dung này chỉ có giá trị với người dùng, không có giá trị gì với máy tìm kiếm.

d) Cookies

Cookies là một file để lưu dữ liệu về lịch sử sử dụng Internet của người dùng. Ví dụ, một cookie có thể được một website sử dụng để ghi nhớ thông tin về bạn, do vậy website đó có thể biết bạn là một người truy cập hoàn toàn mới hay là một người đã từng truy cập trước kia.

Nhờ có cookies, giao diện website có thể thay đổi tự động theo người truy cập. Ví dụ, nếu bạn đã từng mua hàng trên một trang thương mại điện tử, và bạn đã lựa chọn thay thế đồng tiền thanh toán mặc định từ USD sang VNĐ, thông tin này sẽ được lưu trữ trong file cookies. Lần sau khi bạn lại ghé thăm website đó, nó sẽ tự động lựa chọn đồng tiền mặc định là VNĐ thay vì USD như những người khác. Việc này sẽ tránh cho bạn mất công phải lựa chọn lại.

Thực tế là cookie có thể ảnh hưởng đến công việc dò quét website của bọ tìm kiếm. Website không thể tạo cookies cho bọ tìm kiếm giống như đã làm cho người dùng. Ví dụ với trường hợp trên, bọ tìm kiếm sẽ chỉ thấy duy nhất đồng tiền mặc định trong khi không thấy tất cả những đồng tiền còn lại.

Vì lý do này, bạn không nên phụ thuộc vào cookies. Website của bạn nên được thiết kế để đảm bảo tất cả các nội dung đều sẵn sàng mà không cần đến cookies. Điều này sẽ cho phép máy tìm kiếm có thể dò quét và lưu trữ tất cả dữ liệu của bạn.

5. Xem website dưới con mắt bọ tìm kiếm

Nếu bạn muốn biết trang web của mình trông như thế nào dưới mắt máy tìm kiếm, bạn có thể thực hiện bằng 1 trong 2 cách dưới đây

I. Sử dụng Google Webmaster Tools Trước khi sử dụng công cụ này, bạn cần khai báo và chứng minh mình là chủ của website này với Google Webmaster Tools.

1. Trên trang chủ Webmaster Tools, đăng nhập vào tài khoản Google của bạn, click vào website bạn muốn kiểm tra

2. Trên Dashboard (là thanh menu nằm bên trái màn hình), Click vào Crawl (Dò quét), chọn Fetch as Google trong menu sổ xuống

3. Trong hộp thoại ở phía trên cùng, gõ vào đường dẫn đến trang web mà bạn muốn kiểm tra

4. Trong danh sách sổ xuống, lựa chọn loại fetch mà bạn muốn. Để xem website trông thế nào dưới mắt của Googlebot, chọn Web.

5. Click Fetch.

Một khi googlebot đã hoàn thành việc fetch trang web của bạn, bạn sẽ nhận được một đường link “success” mà bạn có thể truy cập để xem website dưới con mắt của Google. Bên cạnh đó, Google còn cung cấp cho bạn mã trạng thái cũng như code HTML mà Googlebot nhận được

II. Truy cập vào trang web: http://www.seo-browser.com/ Và gõ vào địa chỉ trang web bạn cần kiểm tra

6. Những loại nội dung khác

Ngoài file HTML, trên website bạn còn tìm thấy nhiều định dạng file khác. Dưới đây là những định dạng phổ biến nhất và cách tối ưu chúng:

Hình ảnh: Các máy tìm kiếm có thể nhận ra hình ảnh nhưng không thể hiểu hay xem hình ảnh đó như con người. Để hiểu hình ảnh, nó sẽ dựa vào:

1. Thẻ mô tả ảnh và tên ảnh

2. Chú thích ảnh và nội dung xung quanh ảnh

3. Các liên kết trỏ đến ảnh

Do đó, bạn cần đảm bảo tất cả những thông tin này chuẩn và chứa từ khóa chính cùng các từ khóa liên quan.

File PDF

Máy tìm kiếm có thể dò quét và lưu trữ file PDF. Tuy nhiên, vì file PDF có chức năng khá nghèo nàn và không đẹp như một trang web nên có thể bạn không muốn người dùng tìm đến các file này. Bạn muốn sử dụng các phiên bản HTML thay thế cho các phiên bản PDF.

Bạn có 2 giải pháp. Bạn có thể ngăn chặn máy tìm kiếm, không cho nó truy nhập, và từ đó ngăn chặn file pdf này xuất hiện trên bảng kết quả tìm kiếm. Việc này có thể thực hiện bằng cách đặt các file PDF vào trong một thư mục (như: /assets/) và không cho bọ tìm kiếm truy cập vào thư mục này thông qua file robots.txt (bạn sẽ tìm hiểu kỹ hơn trong bài tiếp theo).

Nhược điểm của cách làm này là: Bạn không thể tận dụng được giá trị các link trỏ đến các file pdf này.

Giải pháp thứ 2 cũng là giải pháp tốt hơn là chèn tag canonical trỏ tới phiên bản HTML của file PDF này. Việc này đảm bảo file pdf này cũng không xuất hiện trong bảng kết quả tìm kiếm trong khi giá trị của các link trỏ đến file PDF này sẽ không bị mất đi mà sẽ được chuyển sang phiên bản HTML.

Chú ý: Cách này chỉ áp dụng với Google.

Tài liệu Microsoft Office Máy tìm kiếm có thể đọc và lưu trữ những file dạng này. Như bạn đã biết, những file này không cung cấp đầy đủ chức năng cho một trang web nên chắc chắn người dùng không thích chúng. Bạn có thể khắc phục bằng cách chặn nội dung dùng file robots.txt hoặc chèn thẻ canonical trỏ đến phiên bản HTTP.

Trả lời