Wednesday, September 4, 2013

// // Leave a Comment

Giải mã thuật toán Google Panda

I. Tổng quan về Google Panda

Google Panda là một thuật toán của Google được phát hành vào 24/2/2011. Google Panda được xây dựng với mục đích giảm thứ hạng của website chất lượng kém có nội dung nghèo nàn và ưu tiên các trang web chất lượng cao trên kết quả tìm kiếm. 

Google Panda được sử dụng trí tuệ nhân tạo một cách tinh vi hơn và khả năng siêu việt hơn các thuật toán trước đây rất nhiều. Sử dụng các thuật toán để tính chất lượng theo các yếu tố: thiết kế, độ tin cậy, tốc độ và tỷ lệ người dùng quay trở lại website…

Google Panda được xây dựng với hy vọng là thấy được chất lượng nội dung và so sánh nội dung giữa trang web giống như con người.

Google Panda được cập nhập thường xuyên và kết hợp cùng với các các thuật toán khác như Google Penguin để trừng phạt các website "xấu". Ngày 24 /4/2012, Google Penguin được ra mắt, đã ảnh hưởng tới 3,1% của tất cả các truy vấn tìm kiếm tiếng Anh (bây giờ có cả Việt Nam), hai thuật toán này đã làm tăng sự biến động mạnh trên kết quả xếp hạng tìm kiếm.

Ngay sau khi triển khai Panda, nhiều trang web đã khiếu nại về tình trạng các website sao chép nội dung (vi phạm bản quyền ) lại có thứ hạng tốt hơn so với các trang web có nội dung gốc. Cho đến bây giờ Google vẫn chưa giải quyết triệt để vấn đề này. Điển hình là các bài viết của http://www.thegioiseo.com bị các website , diễn dàn khác sao chép và gỡ ảnh, xóa đóng dấu và không ghi rõ nguồn mà vẫn có thứ hạng cao hơn nội dung gốc.

Với Google Panda thì nhiều yếu tố xếp hạng mới đã được đưa ra nhưng riêng PageRank  domain keyword đã được giảm giá trị. 

Google panda cập nhập thứ hạng theo chu kỳ (khoảng 30 ngày), nghĩa là nội dung cũng được google thu thập nhưng chưa xử lý ngay mà một thời gian sau google mới phạt. Kinh nghiệm của mình cho thấy các thứ hạng từ khóa từ biến động từ ngày 20 - 30 hàng tháng. Điều này xảy ra tình trạng nhầm lẫn giữa việc “thuật toán cập nhập thứ hạng” và “thuật toán cập nhập”.

Đợt cập nhập Google Panda đáng chú ý gần đây là ngày 22 /1/2013, ảnh hưởng đến khoảng 1,2% các truy vấn tìm kiếm bằng tiếng anh. 

Sự khác biệt đáng kể giữa Google Panda với các thuật toán trước là “ nội dung chất lượng thấp trên một phần của một site có thể ảnh hưởng tới toàn bộ xếp hạng của site đó”.


II. Google Panda phạt những lỗi như thế nào?

Có rất nhiều lỗi cơ bản mà các SEOer rất dễ mắc phải, điển hình như việc trộn nội dung hay thậm trí biên tập lại mà google không biết ! bằng cách tính tỷ lệ số từ trùng lặp trên một câu hoặc một đoạn là google có thể biết được bài viết có được trộn hay không ? Đó là cách tính đơn giản chứ thực sự google sử dụng các thuật toán còn siêu hơn nhiều. Thực tế là google đã biết nội dung trộn nhưng cho rằng nội dung đó chấp nhập được và vẫn có phần giá trị đối với người dùng nên không phạt các website đó.Ngoài ra chất lượng nội dung còn phản ánh qua các thông số của người dùng. Google thích điều này, và sử dụng các yếu tố người dùng như “hiến pháp” để đánh giá nội dung. 

1. Website bị trùng lặp nội dung 
Google rất “ghét” điều này, có lẽ các kỹ sư google đã quá ức chế nhiều khi thấy nội dung “rác” trên website mà vẫn được xếp thứ hạng cao. Cho nên website nào mà dính lỗi này chỉ “nằm yên bất động”, phạt ở mức độ nhẹ, trừ khi website vi phạm "có hệ thống" thì google sẽ mời bạn ra "đảo". Mặt khác google cũng nhận thấy rằng việc trùng lặp nội dung có thể do là “vô tình” từ khi website sinh ra nên google tạo ra một mục thông báo trùng lặp nội dung trong google webmaster.
Giao diện tìm kiếm > Cải tiến HTML
* Nội dung trùng có nhiều dạng.
- URL khác nhau nhưng cùng 1 nội dung: hiện tượng này xảy khi website sử dụng 2 domain trỏ về một nội dung hay nhân bản các bài viết ra thành nhiều bài.
- Trùng lặp title và description : Toàn website sử dụng một thẻ title và meta description, lỗi này khá nghiêm trọng, đã phần các website bị lỗi này thường ít được xuất hiện trên google
- Nội dung sao chép từ các website khác: Cái này thì cũng ok thôi, nhưng google sẽ đánh giá các yếu tố người dùng và tính lượng chỉ số chất lượng của nội dung website. Với lỗi này bạn sẽ rất khó khăn để lên top với từ khóa có độ cạnh tranh trung bình. Chú ý Google sẽ tính cả tỷ lệ giữa nội dung gốc (độc) của bạn so với nội dung copy trong website và đánh giá chất lượng của website.

2. Nội dung ít văn bản
Hiện google vẫn chưa xác định được nhiều trong nội dung trong hình ảnh, chủ yếu xác định nội dung qua hai thẻ atl và title hình ảnh. Google dựa vào phần lớn nội dung trên website của bạn để xác định thông tin. Nên trong một URL phải có nội dung có độ dài từ 600 đến 1000 từ là rất tốt cho google thu thập thông tin.
Mặc khác với nội dung dài và sâu sắc, khách hàng cũng sẽ có thời gian lâu trên website và có được sự ấn tượng của khác hàng đối với website. Ngược lại nếu website ít thông tin sẽ sinh ra tỷ lệ thoát cao và và Google Bot sẽ bị "bỏ đói".

Nội dung dài là một yếu tố quan trọng để xác định chất lượng của website nên đây là điều kiện bắt buộc cho các SEOer phải có kỹ năng viết bài tốt. Tương lai thì google cũng sẽ hiểu được hình ảnh hơn nhưng sẽ không bao giờ có thể hiểu như con người.

3. Nội dung ẩn
Google vẫn chưa xác định được triệt để nội dung (gồm cả link ) có thực sự ẩn hay không, khi mà các SEOer thường dùng CSS.Ví dụ một dạng text ẩn:

PHP Code:
<div style="margin-top:-100px">nội dung ẩn </div>  
Với dạng này , nội dung ẩn xem trên thiết bị có thích thước màn hình khác nhau sẽ hiện thị khác nhau. Nên google đã bỏ qua tình uống này. Nhưng ngược lại, một khi google đã phạt hiện thì bạn sẽ bị phạt rất nặng - toàn bộ website sẽ bị mất truy vấn.


4. Mật độ từ khóa quá cao
Kỹ thuật nhồi nhét quá nhiều từ khóa trong nội dung như title, description bây giờ ít sử dụng nhưng spam từ khóa trong nội dung thì vẫn phổ biến khi các SEOer mới vào nghề.

Trong các google tố để xác định chất lượng nội dung thì google quan trọng là có chứa từ khóa nhưng không quan trọng mật độ từ khóa, google sẽ dựa vào các yếu tố người dùng hơn. Lời khuyên của mình là từ khóa sẽ có ở 3 vị trí : tiêu đề, đoạn đầu, nội dung.

Với kỹ thuật "spam từ khóa " bạn cũng có thể đạt được những thứ hạng cao, nhưng sẽ không bao giờ ổn định được lâu. Google Pande và Penguin sẽ như cảnh sát tuần tra và sớm muộn gì cũng phát hiện ra bạn spam. Ngoài ra chưa kể có những “kẻ xấu” sẽ nói “xấu” bạn cho google biết.

3. Nhiều nội dung kém chất lượng so với nội dung gốc
Như mình đã trình bày ở trên, chỉ cần website có chứa nội dung xấu là có thể ảnh hưởng đến toàn bộ website. Điều này đã làm nhiều SEOer lo ngại vì website các hàng nghàn bài viết thì không thể tránh được nội dung xấu. Riêng mình thấy google xử phạt cũng rất công minh, trường hợp “vơ đũa cả nắm” như thế là rất ít, ở mức độ nhẹ sẽ phạt riêng lẻ các URL khác nhau.

5. Nội dung tiêu đề và thẻ meta descrip khác với nội dung website
Google có sự so sánh từ khóa giữa title và description so với nội dung xem có hợp lý không ? Lỗi này thường ít mắc phải vì các SEOer thường tối ưu từ khóa ở khắp nơi: title, description, nội dung...

III. Google dựa vào yếu tố nào để xách định nội dung chất lượng ?

Tính tương tác trên website là vô cùng quan trọng, google lúc nào cũng đứng về phía người dùng, cứ động chạm một chút tới lợi ích của họ thì google cũng sẽ xử phạt không thương tiếc. Google sẽ dựa vào các yếu tố sau:

1. Tỷ lệ thoát cao (Bounce rate)
Là thuật ngữ chỉ người dùng chỉ vào một page duy nhất rồi thoát ra trong một thời gian ngắn và không có thao thác trên website. Tỷ lệ thoát được tính như sau : tổng số người thoát / tổng số trang. Đây là yếu quan trọng để Google Panda đánh giá chất lượng nội dung của bạn. 

6. Tỷ lệ % người dùng quay lại thấp
Không bao giờ google đánh giá cao website mà người dùng chỉ vào một lần rồi lãng quên. Bạn hãy xây dựng nội dung chất lượng và thường xuyên cập nhập nội dung mới để thu hút người dùng quay trở lại website.

7. Tỷ lệ % người dùng click trên thứ hạng tìm kiếm thấp
Bạn hãy tối ưu thẻ title và description thất tốt để thu hút click trên trên thứ hạng kết quả tìm kiếm. Bạn có thể tham khảo 2 bài viết sau đây để xem cách tối ưu title và description như thế nào cho hợp lý?


8. Thời gian khách truy cập trên website
Bằng việc tạo ra nhiều nội dung dài, liên quan và tính năng hữu ích cho người dùng thì bạn sẽ giữ được chân người dùng khá lâu trong trong website.

9. Mạng xã hội đánh giá
Hãy tạo tính năng comment cho website, bạn sẽ có những phản hồi của độc giả để nâng cao chất lượng của nội dung và mặc khác thì google sẽ nhận thấy các thao tác trên website từ đó đánh giá khá cao website của bạn. 

IV. Lời khuyên của Google
Để giúp các SEOer có wesbite bị ảnh hưởng bởi thuật toán, Google đã đưa ra một số câu hỏi để các bạn tự đánh giá và nâng cao chất lượng website. Bản gốc có 23 yếu tố nhưng mình đã biên tập lại một chút cho phù hợp với dân Việt.

1. Nội dung bài viết của bạn có thực sự tin tưởng được không ?
2. Bài viết có được viết bởi một người am hiểu sâu hay không ?
3. Bài viết có trùng lặp với cá bài viết đã có rồi hay không ?
4. Khách hàng có thể an tâm mua bán trên website của bạn hay không?
5. Bạn đã viết đúng chính tả chưa? (trong bài viết này đâu đó cũng có lỗi )
6. Bạn viết nội dung cho người dùng hay google đọc?
7. Bài viết của bạn có phải là vấn đề mới hay không?
8. Chất lượng nội dung của bạn có tốt hơn các website khác hay không?
12. Bạn có thực sự đầu tư vào bài viết hay chỉ viết cho có ?
15. Bài viết có cung cấp đủ thông tin cho khách hàng hay không?
17. Bài viết của bạn có xứng đáng để người dùng đánh dấu (bookmark), chia sẻ hoặc giới thiệu với người khác hay không?
18. Nội dung bài viết có bị chèn quá nhiều quảng cáo hay không?
19. Người dùng có phản hồi như thế nào về bài viết của bạn?

V. Các thủ thuật để phòng chống Google Panda
“Conten is king” vẫn là câu quen thuộc mình muốn khuyên các bạn. Nội dung vẫn là gốc rễ mọi vấn đề trong SEO, website muốn vươn cao và xa thì phải có cái gốc thật tốt.

1. Tự tạo ra nội dung “độc”
Đây là cách tốt nhất để bạn có thứ hạng bền vững trên top của kết quả tìm kiếm. Google luôn ưu tiên nhưng website có nội dung “độc”. 
Check nội dụng sao chép

2. Thường xuyên cập nhập nội dung website
Nội dung liên quan luôn luôn được cập nhập sẽ làm cho website của bạn được google index nhanh hơn và sớm có thứ hạng trên kết quả tìm kiếm.

3. Tránh nội dung bị trùng lặp
a. Sử dụng sử dụng thẻ rel="canonical" 
<link rel="canonical" href="URL-goc" />
Bạn đặt code này trong thẻ <head></head trên URL có nội trùng lặp với URL đã có từ trước.
URL-goc là URL chứa nội dung gốc.
Rất nhiều SEOer sử dụng sai thẻ này dẫn đến link bị mất index. 

b.Redirect 301 cho nội dung trùng lặp
Nhưng URL nào bị trùng và không cần thiết bạn nên xóa bỏ và sử dụng câu lênh redirect 301 trên file .htaccess.
Redirect 301 /url-ko-can-thiet http://domain.com/url-muon-chuyen-den
Ngoài ra còn nhiều các câu lệnh khác , bạn có thể tìm kiếm tại diễn đàn http://thegioiseo.com

4. Nội dung tự nhiên
Đừng nghĩ rằng bạn viết nội dung cho google mà bạn viết cho người dùng. Thực tế google không thể hiểu nổi ngôn ngữ của bạn nhưng google sẽ dựa vào các phản ứng của người dùng để đánh giá những gì bạn viết . Chỉ cần 1 số thông số như tỷ lệ CTR, tỷ lệ thoát, thời gian trên website… là có thể đánh giá được chất lượng website của bạn.

5. Đa dạng từ khóa trong nội dung
Để tăng tính tự nhiên cho nội dung bạn cần phối hợp tự nhiên giữa từ khóa chính và từ khóa phụ trong bài viết . Ngoài ra bạn cần kết hợp sử dụng các anchortext (internal link) để điều hướng người dùng sang những nội dung liên quan.


6. Tận dụng mạng xã hội
Hãy biến mạng xã hội trở thành nguồn cung cấp lượng truy cập thật. Cái thật ở đây là người dùng thực sự chứ không phải mấy bác “chém +1”. Khách hàng thực sự vào website sẽ tạo ra cho bạn các chỉ số vô cùng “bổ” cho website, từ đó nâng cao độ trust của website. Thực tế nhiều SEOer đã lạm dụng mạng xã hội khiến các group trở thành “bãi rác” của link SEO. 

Để xây dựng nội dung tổng thể , các bạn có thể tham khảo bài viết sau:

VI. Giải pháp xử lý khi website bị Google Panda
1. Hình phạt
Hình phạt google panda có nhiều mức độ sau.
- Link SEO đứng yên top 20x trở xuống.
- Link SEO mất index.
- Website mất index.

Ngoài ra còn có 1 số triệu trứng khác liên quan đến google penguin, mời các bạn tham khảo bài viết “Khám và điều trị bệnh cho website bị Google Panda và Google Penguin” 

2. Giải pháp
Tùy theo hình phạt của google mà sử lý ở mức độ link SEO, danh mục hay toàn bộ website. ở mức độ nhẹ thì bạn nên viết lại nội dung cho link SEO và nội dung liên quan. Còn ở mức độ website bị mất index. Bạn nên làm các bước SEO
Bước 1: Xóa toàn bộ nội dung "xấu" trên website và xóa luôn index trong google webmaster tools.
Chỉ mục của Google > Xóa URL
Bước 2: Viết mới toàn bộ nội dung tránh nội dung trùng lặp hoặc sao chép, tạo nội dung tự nhiên nhất.
Bước 3: Tăng lượng truy cập thật.

Hãy viết nội dung thật hữu ích để tạo được các chỉ số về người dùng tốt - "khoe Google". Ngoài ra tăng lượng backlink chất lượng từ những website cũng lĩnh vực hoặc có lượng truy cập tốt.
Giải pháp cụ thể mời các bạn xem link sau:

VII. Lịch sử cập nhập google panda
- Cập nhật lần 1: ngày 24/2/2011 - ảnh hưởng 11.8% truy vấn, chỉ trên ngôn ngữ tiếng anh trong phạm vi nước mỹ
- Cập nhật lần 2 : ngày 11/4/ 2011 ảnh hưởng 2% truy vấn; trên ngôn ngữ tiếng anh và trên phạm vi toàn cầu
- Cập nhật lần 3: ngày 10/5/ 2011 (no change given; confirmed, not announced)
- Cập nhật lần 4: ngày 16/6/ 2011 (no change given; confirmed, not announced)
- Cập nhật lần 5: ngày 23,/7/ 2011 (no change given; confirmed, not announced)
- Cập nhật lần 6: ngày 12/8/ 2011 (ảnh 6-9% truy vấn, trên một số ngôn ngữ khác trừ tiếng anh)
- Cập nhật lần 7, ngày 28 /9/ 2011 (no change given; confirmed, not announced)
- Cập nhật lần 8: ngày19/10/ 2011 (about 2% of queries; belatedly confirmed)
- Cập nhật lần 9, ngày 18/11/ 2011: (less than 1% of queries; announced)
- Cập nhật lần 10: ngày 18/1/ 2012 (no change given; confirmed, not announced)
- Cập nhật lần 11, ngày 27/2/ 2012 (no change given; announced)
- Cập nhật lần 12, ngày 23/3/ 2012 (about 1.6% of queries impacted; announced)
- Cập nhật lần 13, ngày 19/4/ 2012 (no change given; belatedly revealed)
- Cập nhật lần 14, ngày 27/ 4/2012: (no change given; confirmed; first update within days of another)
- Cập nhật lần 15, ngày 9/6/ 2012: (1% of queries; belatedly announced)
- Cập nhật lần 16, ngày 25/6/ 2012: (about 1% of queries; announced)
- Cập nhật lần 17, July 24/7/ 2012 (about 1% of queries; announced)
- Cập nhật lần 18, ngày 20/8/ 2012: (about 1% of queries; belatedly announced)
- Cập nhật lần 19, ngày 18/9/ 2012: (less than 0.7% of queries; announced)
- Cập nhật lần 20 , ngày . 27/9/2012 (ảnh hưởng 2.4% truy vấn trên ngôn ngữ tiếng anh, impacted, belatedly announced)
- Cập nhật lần 21, ngày 5/11/ 2012 (ảnh hưởng 1.1% trên ngôn ngữ tiếng anh tại Mỹ; 0.4% worldwide; confirmed, not announced)
- Cập nhật lần 22, ngày 21/11/ 2012 (0.8% trên ngôn ngữ tiếng anh; confirmed, not announced)
- Cập nhật lần 23, ngày . 21/12/ 2012 (1.3% trên ngôn ngữ tiếng anh; confirmed, announced)
- Cập nhật lần 24,ngày 22/1/2013 (1.2% trên ngôn ngữ tiếng anh; confirmed, announced)
- Cập nhật lần 25, ngày 15/3/ 2013 (confirmed as coming; not confirmed as having happened)
- Cập nhật lần 26, ngày 18/7/ 2013 (confirmed)

VIII. Video thú vị về sự tức giận của Google Panda
 

Lời nhắn : Thuật toán Google là bản chất của SEO, nên các bạn hãy dành nhiều thời gian nghiêng cứu về vấn đề này. Bài viết này của mình cũng chỉ là sơ sơ về các yếu tố cơ bản thôi, các bạn hãy đi sâu vào nghiêng cứu thực hành và tìm hiểu tác dụng và mức độ ảnh hưởng của các yếu tố, các bạn sẽ đúc rút được những kinh nghiệm vô cùng quý giá. Chúc các bạn thành công.

Cảm ơn các bạn đã đọc bài viết này, hy vọng bài viết sẽ mang lại nhiều thông tin bổ ích cho các bạn và mình mong sẽ nhận được nhiều phản hồi từ các bạn.

Tác giả: Phạm Thi

0 comments:

Post a Comment