微信客服
Telegram:guangsuan
电话联系:18928809533
发送邮件:xiuyuan2000@gmail.com

เนื้อหาต้นฉบับไม่ติดอันดับ แต่ว็บขโมยข้อมูลกลับติด TOP10 丨 อัลกอริทึมฟาร์มเนื้อหาของGoogleล้มเหลวแล้วหรือ

本文作者:Don jiang

ในช่วงสามปีที่ผ่านมา ความถี่ของการอัปเดตอัลกอริธึมหลักของ Google เพิ่มขึ้น 47% แต่ก็ไม่สามารถยับยั้งการขยายตัวอย่างบ้าคลั่งของฟาร์มเนื้อหา (Content Farm) ได้—เว็บไซต์เหล่านี้ใช้ AI ในการเขียนบทความใหม่ การควบคุมกลุ่มเว็บไซต์ และเทคโนโลยีจำลองพฤติกรรมผู้ใช้ เพื่อปล้นเนื้อหาดั้งเดิมวันละมากกว่า 2 ล้านบทความ สร้างห่วงโซ่การค้าที่มืดใหญ่โตขึ้น

เมื่อมูลค่าของเนื้อหาดั้งเดิมลดลงเรื่อยๆ ในการให้คะแนนของอัลกอริธึม เราจำเป็นต้องตั้งคำถาม: ระบบการประเมิน “EEAT (ความเชี่ยวชาญ, ความน่าเชื่อถือ, ความไว้วางใจ)” ที่ Google ประกาศนั้น กลายเป็นเครื่องมือสำหรับการหารายได้จำนวนมากของฟาร์มเนื้อหาหรือไม่?

Table of Contens

ระบบนิเวศของเนื้อหาที่ “เงินไม่ดีขับไล่เงินดี”

ในเดือนสิงหาคม 2023 บล็อกเทคโนโลยี “CodeDepth” ได้เผยแพร่บทความยาว 6000 คำเกี่ยวกับการวิเคราะห์เชิงลึกของสถาปัตยกรรมโมเดล Transformer ซึ่งผู้เขียนใช้เวลา 3 สัปดาห์ในการคำนวณและทดสอบอัลกอริธึม
หลังจากที่บทความถูกเผยแพร่ การทำดัชนีของ Google ใช้เวลานานถึง 11 วัน และอันดับสูงสุดอยู่ที่หน้า 9 ขณะที่เว็บไซต์รวม “DevHacks” ใช้ครอว์เลอร์กระจายไปดึงบทความนี้ จากนั้นใช้ AI ในการจัดเรียงย่อหน้าใหม่และใส่คำค้นที่ร้อนแรง 30 คำ ภายในเวลา 2 ชั่วโมงก็ถูกรวบรวมโดย Google และภายใน 48 ชั่วโมงได้ติดอันดับที่ 3 ของผลการค้นหาคำหลักเป้าหมาย

ที่น่าขันยิ่งกว่านั้นคือ เมื่อบทความดั้งเดิมถูกลดอันดับโดยอัตโนมัติจาก Google เพราะ “เนื้อหาซ้ำ” แต่เว็บไซต์รวบรวมกลับได้รับการจัดอันดับว่าเป็น “ประสบการณ์ผู้ใช้ที่ดีกว่า” จากอัลกอริธึม เนื่องจากอัตราการคลิก (CTR 8.7% vs. เว็บไซต์ดั้งเดิม 2.1%) และความเร็วในการโหลดหน้าเว็บที่เร็วกว่า (1.2 วินาที vs. 3.5 วินาที)

ทั้ง “CodeDepth” และ “DevHacks” ที่กล่าวถึงข้างต้นเป็นกรณีสมมติที่ใช้เพื่อแสดงภาพปัญหาของการต่อสู้ในอัลกอริธึมระหว่างฟาร์มเนื้อหากับผู้เขียนดั้งเดิม แต่ ปรากฏการณ์นี้มีอยู่จริง

เนื่องจากเกี่ยวข้องกับอุตสาหกรรมมืดและข้อพิพาทลิขสิทธิ์ เว็บไซต์ที่เป็นเหยื่อจริงหลายแห่งจึงเลือกที่จะไม่เปิดเผยชื่อเพื่อลดความเสี่ยงในการถูกโจมตี

จากการวิเคราะห์ด้วยเครื่องมือ Ahrefs
สิ่งที่น่าสะพรึงกลัวมากกว่านั้นคือ ตามการติดตามของ
SEMrush ฟาร์มเนื้อหาหลอกลวงอัลกอริธึม “น้ำหนักความทันท่วงที” ของ Google ด้วยการปลอมแปลง “วันเผยแพร่” (ทำเครื่องหมายเนื้อหาที่ขโมยมาว่าเผยแพร่ก่อนเนื้อหาดั้งเดิม 1-2 สัปดาห์) ทำให้บทความดั้งเดิมกว่า 70% ถูกแสดงในผลการค้นหาว่าเป็น “เนื้อหาซ้ำที่น่าสงสัย”

Google กำหนด “เนื้อหาคุณภาพ” อย่างไร?

Google ได้รวม “EEAT” (ความเชี่ยวชาญ, ความน่าเชื่อถือ, ความไว้วางใจ, ประสบการณ์) ลงใน คู่มือการประเมินคุณภาพการค้นหา อย่างเป็นทางการในปี 2022 และประกาศว่านี่คือมาตรฐานทองคำในการประเมินคุณภาพของเนื้อหา
แต่ในทางปฏิบัติ อัลกอริธึมกลับเผชิญกับปัญหาดังต่อไปนี้:

  1. กับดักการบูชาหลักสูตร: ฟาร์มเนื้อหาด้านการแพทย์ “HealthMaster” จ้างนักเขียนที่ไม่มีใบอนุญาตแพทย์ แต่เพิ่มตราสัญลักษณ์ “การรับรองจากสมาคมการแพทย์อเมริกัน” ปลอมที่ด้านล่างของหน้า (ใช้ Schema Markup ในการปลอมแปลง) เพื่อหลอกลวงระบบการประเมิน E-A-T ของ Google ทำให้ปริมาณการเข้าชมเพิ่มขึ้น 320% (ข้อมูลจาก SimilarWeb)
  2. อำนาจที่เป็นปริศนา: เอกสารสิทธิบัตรของ Google (US2023016258A1) ระบุว่า อัลกอริธึมพิจารณา “จำนวนลิงก์ภายนอก” เป็นตัวชี้วัดอำนาจหลัก ส่งผลให้เว็บไซต์รวบรวมสามารถซื้อลิงก์จากเว็บไซต์ที่ไม่มีชีวิตแล้ว (เช่น โดเมนสถาบันการศึกษาที่หมดอายุ) เพื่อเพิ่มคะแนนได้อย่างรวดเร็ว
  3. ความเชื่อมั่นที่เป็นเครื่องจักร: ฟาร์มเนื้อหามีการใช้เครื่องมือ (เช่น ClearScope) ในการสร้างเนื้อหาที่符合“มาตรฐานความสามารถในการอ่าน” (ความยาวย่อหน้า ความหนาแน่นของหัวข้อ) ปรับเนื้อหาให้ตรงตามเครื่องมือประเมินอย่างเต็มที่ ทำให้คะแนนของเครื่องยนต์เกินกว่าบทความที่มีลึกซึ้งของเนื้อหาดั้งเดิม

การใช้ประโยชน์จากกฎอัลกอริธึมในเชิงระบบ

1. การผลิตเนื้อหาที่เลียนแบบอย่างเป็นอุตสาหกรรม

  • การล้างเนื้อหาโดย AI: ใช้ GPT-4 + Undetectable.ai ในการปรับโครงสร้างความหมายของเนื้อหาดั้งเดิม เพื่อหลีกเลี่ยงการตรวจจับความซ้ำ ตัวอย่าง: เว็บไซต์รวม “TechPulse” ใช้วิธีนี้ในการเขียนใหม่บทความจาก “The New York Times” โดยเครื่องมือทดสอบเนื้อหาดั้งเดิม Originality.ai ให้คะแนนถึง 98% แม้เนื้อหาจะเป็นการประสานงานจากเครื่องจักร
  • การปล้นข้ามภาษา: แปลเนื้อหาดั้งเดิมจากภาษาอังกฤษ → เยอรมัน → รัสเซีย → จีน → แปลกลับเป็นภาษาอังกฤษ เพื่อสร้างข้อความ “เลียนแบบดั้งเดิม” ข้อมูล: ตามการสำรวจของ W3Techs พบว่าในปี 2023 จากเว็บไซต์ TOP1000 23% เป็นเว็บไซต์หลายภาษาแต่แท้จริงแล้วเป็นฟาร์มเนื้อหาที่ซ่อนตัวอยู่

2. ผลกระทบจากการควบคุมกลุ่มเว็บไซต์

  • เครือข่ายลิงก์ภายนอกแบบแพร่พันธุ์: ลงทะเบียนโดเมนหมดอายุจำนวนหลายร้อยโดเมน (เช่น เว็บไซต์ข่าวท้องถิ่นที่ปิดตัวแล้ว) แล้วโพสต์เนื้อหาจากเว็บไซต์รวบรวมไปยังโดเมนเหล่านั้น ก่อนที่จะใช้ Private Blog Network (PBN) เพื่อสร้างลิงก์ภายนอกให้กับเว็บไซต์หลัก เครื่องมือ: Ahrefs พบว่าเว็บไซต์รวบรวมบางแห่ง “AI Content Alliance” มีโดเมนมากถึง 217 แห่ง และสร้างลิงก์ภายนอกได้ 127,000 ลิงก์ในหนึ่งเดือน

3. โครงการหลอกลวงพฤติกรรมผู้ใช้

  • การควบคุมอัตราคลิก: ใช้พร็อกซี่ IP pool (BrightData platform) เพื่อจำลองการคลิกของผู้ใช้ และเพิ่ม CTR ของคำค้นเป้าหมายจาก 3% เป็น 15%
  • การปลอมแปลงเวลาอยู่บนหน้า: ใช้เครื่องมือ Puppeteer Extra เพื่อเลื่อนหน้าจออัตโนมัติ และคลิกปุ่มที่ต้องการ เพื่อทำให้ Google เข้าใจผิดว่าคอนเทนต์นั้นน่าสนใจ

อ่านได้โดยเครื่องจักร ≠ มีประโยชน์สำหรับมนุษย์

การออกแบบการทดลอง

สร้างบทความ 2 บทความในหัวข้อเดียวกัน:

  • บทความ A: การวิเคราะห์เทคนิคเชิงลึกโดยผู้เชี่ยวชาญ (รวมตัวอย่างโค้ดและการตรวจสอบข้อมูล)
  • บทความ B: เนื้อหาที่ได้รับการปรับแต่งโดย SurferSEO จากฟาร์มเนื้อหา (ใส่คำหลัก LSI 20 คำและเพิ่มโมดูล FAQ)

เผยแพร่ในโดเมนใหม่ที่มีอำนาจเดียวกัน โดยไม่สร้างลิงก์ภายนอก

ผลลัพธ์

  • หลังจาก 3 วัน บทความ B ได้อันดับเฉลี่ยสูงกว่าบทความ A โดย 8.2 อันดับใน 10 คำหลักที่กำหนด
  • Google Search Console แสดงว่า บทความ B มีคะแนน “Core Web Vitals” สูงกว่าบทความ A ถึง 34% (เนื่องจากการใช้การโหลดช้าและการแสดงผลด้วย CDN)

ปัญหาของอัลกอริธึมของ Google

แม้ว่า Google จะอัปเดตระบบป้องกันสแปม “SpamBrain” ในปี 2023 แต่ทีมงานที่ใช้วิธีการที่ไม่ถูกต้องยังคงหาทางเจาะระบบได้ด้วยวิธีการดังต่อไปนี้:

  • การฝึกอบรม AI แบบต่อต้าน: ใช้กฎป้องกันสแปมของ Google เป็นข้อมูลในการฝึกอบรม เพื่อให้ GPT-4 สร้างเนื้อหาที่หลีกเลี่ยงการตรวจจับ
  • กลยุทธ์การหลีกเลี่ยงที่ปรับตัวได้: เมื่อเว็บไซต์ใดเว็บไซต์หนึ่งถูกลดอันดับ เว็บไซต์ในเครือจะปรับความถี่การเก็บข้อมูลและการเลือกคำหลักโดยอัตโนมัติ
  • พื้นที่สีเทาทางกฎหมาย: การตั้งเซิร์ฟเวอร์ในเขตอำนาจศาลเช่น กัมพูชาและเซนต์คิตส์ เพื่อหลีกเลี่ยงการร้องเรียน DMCA

เหตุการณ์จริง:

ในเดือนกันยายน 2023 Google ได้แบนฟาร์มเนื้อหาชื่อดัง “InfoAggregate” แต่ผู้ดำเนินการย้ายเนื้อหาทั้งหมดไปยังโดเมนใหม่ “InfoHub” ภายใน 72 ชั่วโมง และใช้ Cloudflare Workers เปลี่ยนลายนิ้วมือของโดเมนแบบไดนามิก ทำให้การแบนมีประสิทธิภาพลดลงถึง 90%。

กลยุทธ์ 7 ข้อในการหลีกเลี่ยงของฟาร์มเนื้อหา

จากการสำรวจของ The Wall Street Journal ในปี 2023 ขนาดตลาดฟาร์มเนื้อหาทั่วโลกได้ถึง 7.4 พันล้านดอลลาร์ ระบบการโกงเชิงอุตสาหกรรมของฟาร์มเนื้อหาจะส่งเนื้อหาลอกเลียนแบบ 4.7 ล้านชิ้นต่อวันไปยังดัชนีของ Google ซึ่งเท่ากับว่ามีการ “ลอกเลียนแบบที่ได้รับการรับรอง” เกิดขึ้นทุก 1 มิลลิวินาที

1. เซิร์ฟเวอร์กระจาย + การเร่งความเร็ว CDN

หลักการ: เช่าบริการเซิร์ฟเวอร์หลายร้อยเครื่องทั่วโลก และใช้เครือข่ายการกระจายเนื้อหาหรือ CDN เพื่อทำให้ Google Crawler เข้าใจว่าเป็น “เว็บไซต์ที่มีความนิยมสูง”

เปรียบเทียบ: ขโมยใช้ทางด่วน 100 เส้นในการขนส่งของโจร และตำรวจ (Google) เข้าใจผิดว่าเป็นบริษัทขนส่งที่ถูกกฎหมาย

2. การใช้ข้อมูลที่มีโครงสร้างอย่างผิดๆ

หลักการ: ปลอมแปลงวันที่เผยแพร่หรือชื่อยศของผู้เขียน (เช่น “วิศวกรอาวุโสของ Google”) ในรหัสเว็บเพื่อหลอกลวงอัลกอริธึมให้ให้ค่าน้ำหนักตามความทันสมัย

ตัวอย่าง: บทความที่ถูกลอกเลียนในปี 2023 ถูกระบุว่า “เผยแพร่ในปี 2020” ทำให้เนื้อหาของต้นฉบับถูกตีความว่าเป็น “ผู้ลอกเลียน”

3. การยึดคำหลักที่เป็นที่นิยม

หลักการ: ใช้บอทเก็บข้อมูลจาก Reddit หรือ Zhihu เพื่อติดตามคำหลักที่กำลังเป็นที่นิยมและสร้างเนื้อหาปลอมที่กำลังได้รับความนิยมจำนวนมากอย่างรวดเร็ว

ข้อมูล: ฟาร์มเนื้อหาหนึ่งได้ใช้คำหลัก “Sora Insider Analysis” เพื่อครองอันดับในผลการค้นหาก่อนการประกาศของ OpenAI ถึง 24 ชั่วโมง

4. การจำลองพฤติกรรมผู้ใช้

หลักการ: ใช้บอทจำลองพฤติกรรมของผู้ใช้จริง (เลื่อนหน้าจอ คลิกปุ่ม) เพื่อเพิ่มอัตราการคลิกและเวลาที่อยู่ในหน้า

เครื่องมือ: ใช้ IP Proxy จาก BrightData + สคริปต์อัตโนมัติใน Chrome สร้าง “การโต้ตอบของผู้ใช้” จำนวน 10,000 ครั้งภายใน 1 ชั่วโมง

5. โรงงานลิงก์ย้อนกลับ

หลักการ: ซื้อโดเมนจากเว็บไซต์ของรัฐบาลหรือสถาบันการศึกษาที่เลิกใช้งานแล้ว (เช่น เว็บไซต์ของห้องทดลองในมหาวิทยาลัยที่ปิดตัว) และใช้ลิงก์ย้อนกลับสำหรับฟาร์มเนื้อหา

ผลลัพธ์: ใช้น้ำหนักทางประวัติศาสตร์จากโดเมน .edu ของมหาวิทยาลัยฮาร์วาร์ด สร้างความเชื่อถือให้กับเว็บไซต์ใหม่ในฟาร์มเนื้อหาในเวลาเพียง 3 วัน

6. การปลอมแปลงหลายภาษา

หลักการ: แปลเนื้อหาภาษาอังกฤษเป็นภาษาเยอรมัน → อารบิก → ญี่ปุ่น → กลับมาเป็นภาษาอังกฤษ เพื่อสร้าง “เนื้อหาที่ไม่สามารถตรวจจับได้” จากระบบตรวจจับการลอกเลียน

ผลการทดสอบ: ใช้ Google Translate เพื่อแปล 3 ครั้ง ผลลัพธ์ที่ตรวจสอบโดย Originality.ai ระบุว่าเนื้อหามีความเป็นต้นฉบับ 89%

7. เทคนิคการเย็บผ้า AI

หลักการ: การเขียนใหม่โดย GPT-4 + การแก้ไขไวยากรณ์โดย Grammarly + การสร้างภาพ เพื่อผลิต “บทความเย็บผ้าที่ดูเหมือนมืออาชีพ” ภายใน 1 ชั่วโมง

โครงสร้างที่พบบ่อย: 30% สรุปเนื้อหาต้นฉบับ + 40% คำศัพท์จาก Wikipedia + 30% ลิงก์ผลิตภัณฑ์จาก Amazon

ทำไมกลยุทธ์เหล่านี้จึงสามารถบดขยี้เนื้อหาต้นฉบับได้?

เนื่องจากการใช้ 7 วิธีเหล่านี้ร่วมกันจะสร้าง “การดึงข้อมูล → การรีไรท์ → การเพิ่มน้ำหนัก → การทำเงิน” เป็นสายการผลิตในรูปแบบอุตสาหกรรม

5 สาเหตุหลักที่ทำให้การตัดสินใจของอัลกอริธึมผิดพลาด

สาเหตุที่ 1: “สงครามข้อมูลเปลือย” ของเว็บไซต์ขนาดกลางและเล็ก

ความขัดแย้งหลัก: Google ต้องการให้ติดตั้งข้อมูลที่มีโครงสร้าง (Schema Markup, กราฟความรู้) แต่แพลตฟอร์ม CMS (เช่น WordPress) มีความเข้ากันได้ของปลั๊กอินที่ต่ำ ทำให้บล็อกเกอร์อิสระไม่สามารถส่งข้อมูลที่สำคัญได้อย่างถูกต้อง

ข้อมูลยืนยัน

  • ผู้สร้างเนื้อหาต้นฉบับ: เพียง 12% ของบล็อกส่วนตัวที่ใช้โครงสร้าง Article หรือ HowTo ได้ถูกต้อง (Search Engine Journal วิจัย)
  • ฟาร์มเนื้อหา: 100% ใช้โครงสร้าง NewsArticle และ Speakable อย่างผิดๆ เพื่อปลอมแปลงความน่าเชื่อถือ (ผลการสแกนจาก SEMrush)

ผลลัพธ์:อัลกอริธึมไม่สามารถตรวจจับประเภทของเนื้อหาของผู้สร้างต้นฉบับและเข้าใจผิดว่าเป็น “ข้อมูลที่มีความหนาแน่นต่ำ”

สาเหตุที่ 2: การบังคับความถี่ในการอัปเดต

การ偏好ของอัลกอริธึม: Google ให้การเพิ่มน้ำหนักในการจัดอันดับ 2.3 เท่าสำหรับเว็บไซต์ที่อัปเดตเนื้อหาทุกวัน (“เนื้อหาที่สดใหม่” ที่มีการอัปเดตบ่อย)

การเปรียบเทียบจริง

  • ผู้สร้างเนื้อหาต้นฉบับ: การเขียนบทความวิเคราะห์เทคนิคต้องใช้เวลา 2-3 สัปดาห์ (รวมการตรวจสอบโค้ดและสร้างกราฟ)
  • ฟาร์มเนื้อหา: ใช้ Jasper.ai + Canva เพื่อผลิตบทความ “เรียนรู้ XX ใน 10 นาที” 20 บทความใน 1 วัน

กรณีศึกษา: งานวิจัยจาก Lynn เกี่ยวกับ “หลักการทางคณิตศาสตร์ของโมเดลการแพร่กระจาย” ถูกลงโทษจากการอัปเดตทุกเดือน ขณะที่ฟาร์มเนื้อหา “AIGuide” อัปเดตบทความ 50 บทความทุกวันและการเข้าถึงได้สูงถึง 4 เท่า

ตัวกระตุ้นที่ 3: การละเมิดกลไกการลงคะแนนของลิงก์ภายนอก

ข้อบกพร่องของกลไก: Google มองว่าลิงก์ภายนอกเป็น “สิทธิ์ในการลงคะแนน” แต่ไม่สามารถแยกแยะระหว่างคำแนะนำตามธรรมชาติและลิงก์ภายนอกจากการทำ SEO แบบไม่ถูกต้องได้

ความจริงของข้อมูล:

  • ลิงก์ภายนอกตามธรรมชาติ: เนื้อหาต้นฉบับต้องใช้เวลาเฉลี่ย 6.7 เดือนในการสะสมลิงก์ภายนอกคุณภาพสูง 30 ลิงก์ (ข้อมูลจาก Ahrefs)
  • ลิงก์ภายนอกที่โกง: เว็บไซต์เก็บข้อมูลใช้ PBN (เครือข่ายบล็อกส่วนตัว) ป้อนลิงก์ภายนอกกว่า 500 ลิงก์ในหนึ่งวัน ซึ่ง 87% มาจากเว็บไซต์รัฐบาล/การศึกษาที่ปิดไปแล้ว (ข้อมูลจาก Spamzilla)

ความเป็นจริงที่ขบขัน: เว็บไซต์ทางการของห้องทดลองมหาวิทยาลัยแห่งหนึ่งถูกแฮกเกอร์ซื้อกิจการและกลายเป็น “คลังการลงคะแนนที่มีอำนาจ” ของเว็บไซต์เก็บข้อมูล 50 เว็บไซต์

ตัวกระตุ้นที่ 4: ข้อผิดพลาดในการรับรองอำนาจ

อคติของอัลกอริธึม: Google ให้ความสำคัญกับผู้เขียนที่มีอีเมลจากองค์กร (.edu/.gov) โดยอัตโนมัติ ในขณะที่ผู้สร้างเนื้อหาส่วนตัวจะถูกมองว่าเป็น “แหล่งข้อมูลที่เชื่อถือได้น้อย”

การทดสอบการทดลอง:

การตีความบทความ AI เดียวกัน:

  1. เผยแพร่บนบล็อกส่วนตัว (ผู้เขียน: นักศึกษาปริญญาเอกจากสแตนฟอร์ด): ติดอันดับหน้าที่ 2
  2. เผยแพร่บนเว็บไซต์เก็บข้อมูล (ผู้เขียนปลอม “นักวิจัยจาก MIT AI Lab”): ติดอันดับที่ 3

ผลลัพธ์: เนื้อหาของนักพัฒนาที่ไม่เปิดเผยตัวและนักวิจัยอิสระจะถูกประเมินค่าต่ำกว่าความเป็นจริง

ตัวกระตุ้นที่ 5: “การคิดลึก” กลายเป็นศัตรูกับอัลกอริธึม

กลไกที่ขัดกับสามัญสำนึก:

  • Google มองว่า “อัตราการออกจากหน้าเว็บสูง” และ “ระยะเวลาเข้าชมสั้น” เป็นสัญญาณลบ
  • แต่บทความเทคนิคที่ลึกซึ้งต้องใช้เวลาอ่านมากกว่า 15 นาที ซึ่งทำให้มีการปิดหน้าต่างกลางทางมากขึ้น

เปรียบเทียบข้อมูล:

  • เว็บไซต์เก็บข้อมูล: เวลาเฉลี่ยที่ผู้ใช้อยู่ในหน้า 1 นาที 23 วินาที (ผู้ใช้สแกนคำสำคัญอย่างรวดเร็วแล้วออกจากเว็บไซต์) → ถูกตัดสินว่า “ตอบสนองความต้องการได้อย่างมีประสิทธิภาพ”
  • เว็บไซต์ต้นฉบับ: เวลาเฉลี่ยที่ผู้ใช้อยู่ในหน้า 8 นาที 17 วินาที (ผู้ใช้อ่านอย่างละเอียดและจดบันทึก) → อัลกอริธึมตัดสินว่า “เนื้อหาดึงดูดไม่เพียงพอ”

กรณีศึกษา: คำถามเชิงเทคนิคจาก Stack Overflow ที่มี “อัตราการออกจากหน้าเว็บสูง” มักจะถูกบดบังโดย “บทความแบบรายการ” ของฟาร์มเนื้อหา

การตอบโต้ของ Google และข้อจำกัด

ในปี 2023, Google อ้างว่าได้ลบหน้าสแปมไป 2.5 พันล้านหน้า แต่การติดตามของ SEMrush แสดงให้เห็นว่า การจราจรโดยรวมจากฟาร์มเนื้อหากลับเพิ่มขึ้น 18% ซึ่งแสดงให้เห็นถึงความล้มเหลวของ Google

การอัปเกรดระบบป้องกันสแปม SpamBrain

หลักการทางเทคนิค:

  • ใช้กราฟเน็ตเวิร์กประสาท (GNN) ในการระบุความสัมพันธ์ของกลุ่มเว็บไซต์ และในเวอร์ชัน 2023 เพิ่มโมดูล “การตรวจจับรูปแบบการจราจรผิดปกติ”
  • อ้างว่าสามารถระบุเนื้อหาสแปมที่สร้างโดย AI ได้ 90% (บล็อกอย่างเป็นทางการของ Google)

ผลลัพธ์จริง:

การหลบหลีก: ทีมงานด้าน SEO ที่ผิดกฎหมายใช้กฎการตรวจจับของ SpamBrain เพื่อฝึก GPT-4 ให้สร้าง “สแปมที่ถูกกฎหมาย” ที่สามารถหลบหลีกการตรวจจับได้

กรณีศึกษา: เว็บไซต์เก็บข้อมูลแห่งหนึ่งใช้ “เครื่องมือสร้างตัวอย่างศัตรู” เพื่อสร้างเนื้อหาทำให้ SpamBrain ผิดพลาดถึง 74% (การทดสอบจาก SERPstat)

ต้นทุนจากการตัดสินใจผิด: ในการอัปเดตอัลกอริธึมเดือนสิงหาคม 2023, 12% ของบล็อกวิชาการถูกตัดสินว่าเป็นเว็บไซต์สแปม (มีการร้องเรียนเพิ่มขึ้นในฟอรัม WebmasterWorld)

ผู้ประเมินคุณภาพด้วยมือ (QRaters)

กลไกการทำงาน:

  • พนักงานสัญญาจ้างมากกว่า 10,000 คนทั่วโลกตรวจสอบเนื้อหาที่น่าสงสัยตาม “คู่มือการประเมินคุณภาพ”
  • เกณฑ์การประเมิน: ความสอดคล้องกับ EEAT, ความถูกต้องของข้อเท็จจริง, ประสบการณ์ผู้ใช้

ข้อจำกัด:

  • ช่องว่างทางวัฒนธรรม: QRaters ส่วนใหญ่เป็นคนที่อาศัยอยู่ในประเทศที่ใช้ภาษาอังกฤษ ทำให้ไม่สามารถประเมินเนื้อหาที่ไม่ใช่ภาษาลาตินได้อย่างมีประสิทธิภาพ (เช่น อัตราการมองข้าม SEO แบล็กแฮทของจีนสูงถึง 60%)
  • ข้อจำกัดทางประสิทธิภาพ: ผู้ประเมินแต่ละคนตรวจสอบได้เฉลี่ย 200 รายการต่อวัน ทำให้สามารถตรวจสอบเนื้อหาที่เพิ่มเข้ามาใหม่ได้เพียง 0.003% (ข้อมูลจากเอกสารภายในของ Google)
  • การพึ่งพารูปแบบ: ฟาร์มเนื้อหาสามารถได้คะแนน 82 จาก 100 (เต็มคะแนน) ในการประเมินของ QRater โดยการใส่โมดูล “คำชี้แจงการปฏิเสธความรับผิด” หรือ “ข้อมูลเกี่ยวกับผู้เขียน”

เครื่องมือทางกฎหมายและการร้องเรียน DMCA

สถานการณ์การบังคับใช้:

  • Google รับปากที่จะ “ดำเนินการร้องเรียน DMCA ภายใน 6 ชั่วโมง” แต่ในปี 2023 เวลาตอบกลับเฉลี่ยยืดไปถึง 9.3 วัน (ข้อมูลจาก Copysentry)
  • ฟาร์มเนื้อหามีการใช้ “ช่องโหว่ทางกฎหมาย”: การแทนที่ข้อความเพียง 10% ก็สามารถหลีกเลี่ยงการเรียกร้องลิขสิทธิ์ได้

อารมณ์ขันดำ:

เว็บไซต์เก็บข้อมูลแห่งหนึ่งได้เขียนใหม่บทความจาก The New York Times และส่งการร้องเรียน DMCA กลับไปโดยกล่าวหาว่าบทความต้นฉบับเป็นการลอกเลียนแบบ ส่งผลให้หน้าเว็บของ The New York Times ถูกลดระดับชั่วคราว (บันทึกการเปลี่ยนแปลงการจราจรจาก SimilarWeb)

การบล็อกตามภูมิภาค

กลยุทธ์ภูมิภาค:

  • ในยุโรปและอเมริกา จะบังคับให้ตรวจสอบที่ตั้งของเซิร์ฟเวอร์เว็บไซต์และบล็อกการเข้าถึงจาก VPN
  • ทำงานร่วมกับบริการ CDN อย่าง Cloudflare เพื่อบล็อกการเข้าชมที่น่าสงสัย

การฝ่าวงล้อมในโลกแห่งความจริง:

  • ทีมงานด้าน SEO ที่ผิดกฎหมายเช่าใช้ทรัพยากรคอมพิวเตอร์จากรัฐบาลในกัมพูชาและซิมบับเว (.gov.kh อ้างว่าได้รับการยกเว้นการตรวจสอบ)
  • ใช้การเชื่อมต่อดาวเทียม (เช่น Starlink) เปลี่ยนแปลง IP แบบไดนามิก ทำให้รายการ IP ที่ถูกบล็อกตามไม่ทันความเร็วในการสร้าง IP ใหม่

ขอขอบคุณที่อ่านมาถึงตอนนี้ จำไว้ว่าหลักการสำคัญคือ ถ้าคุณสามารถให้คุณค่าแก่ผู้ใช้ได้อย่างต่อเนื่อง เครื่องมือค้นหาจะไม่ทิ้งคุณไป ที่นี่หมายถึง “เครื่องมือค้นหา” ไม่ใช่แค่ Google เท่านั้น

ครั้งนี้, คุณเห็นภาพทั้งหมดหรือยัง?

Picture of Don Jiang
Don Jiang

SEO本质是资源竞争,为搜索引擎用户提供实用性价值,关注我,带您上顶楼看透谷歌排名的底层算法。

最新解读
滚动至顶部