微信客服
Telegram:guangsuan
电话联系:18928809533
发送邮件:xiuyuan2000@gmail.com

كيفية استخراج عنوان ومحتوى المقالة على الويب丨لا حاجة لمهارات البرمجة

本文作者:Don jiang

وضع المتصفح للقراءة هو الأسهل: انقر على أيقونة 📖 في شريط العناوين (أو اضغط
Ctrl+Shift+U)
، سيتم استخراج النص النقي تلقائيًا في غضون 5 ثوانٍ.

للصفحات المعقدة، استخدم الأدوات عبر الإنترنت مثل Web Scraper:
الصق الرابط → انقر على استخراج → قم بتصديره كـ TXT/JSON،
للحفاظ على بنية العنوان والنص الرئيسي بشكل كامل، والتخلص نهائيًا من عناء
تنظيف التنسيق يدويًا.

هل رأيت مقالاً جيداً على الإنترنت وتريد حفظه؟ النسخ اليدوي ليس مزعجًا فقط (لأنه
يجب عليك تجنب الإعلانات، وأشرطة التنقل، وقسم التعليقات بدقة)، بل أيضًا عند
لصقه في مستند، غالبًا ما يكون التنسيق فوضويًا (تظهر معه الخطوط والألوان
والروابط الأصلية).
أكثر من 70% من صفحات الويب تحتوي على عناصر تشتيت، مما يجعل
التنظيف اليدوي يستغرق وقتًا وجهدًا.

الأكثر إزعاجًا هو المقالات الطويلة أو المحتوى المتداخل مع الصور،
حيث يسهل الوقوع في الأخطاء أو النسيان عند النسخ واللصق جزءًا تلو الآخر. حتى
إذا كنت ترغب في حفظ الصفحة بأكملها كملف PDF، غالبًا ما يتم تضمين معلومات
العمود الجانبي غير المرغوب فيها.
تستغرق العملية اليدوية في المتوسط أكثر من 15 ثانية لمعالجة صفحة
واحدة، وقد تستغرق أكثر من دقيقة للمقالات الطويلة
.

فيما يلي ثلاثة من أسرع وأسهل الطرق بالتفصيل.

كيفية استخراج العنوان والمحتوى من صفحة ويب

النسخ واللصق البسيط (الأساسي)

النسخ واللصق اليدوي هو الخيار الأول لأكثر من 80% من المستخدمين
العاديين
، ولكن في الممارسة العملية،
حوالي 70% من صفحات الويب تحتوي على أشرطة تنقل، إعلانات (بمتوسط
3-5 وحدات لكل صفحة) أو نوافذ منبثقة
، مما يعيق تحديد النص الرئيسي بدقة.
إذا تم لصقه مباشرة في مستند (مثل Word)،
في 90% من الحالات، سيتم تضمين الخطوط والألوان أو تنسيقات
الارتباطات التشعبية للصفحة الأصلية
، مما يتطلب تنظيفًا إضافيًا.

تتطلب معالجة مقال طويل مكون من 1500 كلمة التمرير 4-6 مرات للنسخ على مراحل،
بمتوسط وقت 45 ثانية، ويسهل نسيان الصور أو المحتوى ذو التخطيط
الخاص.

فيما يلي بعض التفاصيل التي يمكن أن تحسن الكفاءة وتجنب المشاكل الشائعة.

خطوات العملية وتفاصيل التحسين

تحديد نقاط بداية ونهاية النص الرئيسي بدقة

  • بعد فتح الصفحة المستهدفة، قم أولاً
    بتحديد موقع عنوان المقال (عادة ما يكون بخط كبير ومُثبت في
    المنتصف أو محاذٍ لليسار في الأعلى، وحجم الخط يتراوح بين 20-28pt).
    يبدأ النص الرئيسي عادة على بعد 50-100 بكسل أسفل العنوان (حوالي 1-2 سطر
    فارغ)، وينتهي فوق قسم التعليقات أو شريط معلومات المؤلف. إذا كانت الصفحة
    تحتوي على إعلانات جانبية (عادة ما تشغل 25%-30% من عرض الشاشة)، يجب عليك
    تثبيت مؤشر الماوس بمحاذاة الحافة اليسرى للنص الرئيسي والنقر، ثم
    السحب لأسفل وإلى اليمين حتى النهاية، لتجنب تحديد وحدات الإعلانات عن طريق
    الخطأ.

تقنيات اختيار المحتوى الطويل بكفاءة

  • للنصوص القصيرة (< 3 شاشات): انقر على الحرف الأول من الفقرة
    الأولى في النص الرئيسي، ثم اضغط باستمرار على
    Shift وقم بالتمرير إلى
    نهاية النص، ثم انقر مرة أخرى على الحرف الأخير من الفقرة الأخيرة،
    للتحديد دفعة واحدة (إذا كانت الصفحة لا تحتوي على تحميل ديناميكي).
  • للنصوص الطويلة (> 3 شاشات): قم بالنسخ على 2-3 مراحل. في
    المرة الأولى، اختر الثلث الأول من المحتوى، الصقه في أداة النص، ثم اضغط فورًا
    على Ctrl+Z لإلغاء
    التنسيق الأصلي (لتجنب التنظيف المتكرر)؛ كرر نفس الخطوة للفقرات اللاحقة.
  • تجنب العناصر المشتتة: إذا كانت هناك روابط موصى بها
    متداخلة في النص الرئيسي (شائعة في المواقع الإخبارية، حيث يتم إدراج 1-2
    رابط كل 300-500 كلمة)، عند السحب للتحديد، يجب تجنب كتل النصوص ذات الخلفية
    الملونة أو التي تحتوي على خط سفلي.

العمليات الأساسية للصق بدون تنسيق

  • نظام Windows: عند اللصق في Word، انقر بزر الماوس الأيمن واختر
    خيار اللصق
    “الاحتفاظ بالنص فقط” (على شكل حرف A)؛ في Notepad، يتم حذف
    التنسيق تلقائيًا، ولكن يجب عليك تقسيم الفقرات يدويًا (لأن المسافة بين
    الفقرات تختفي).
  • المعالجة عبر المنصات: عند اللصق في الأدوات التي تدعم
    Markdown (مثل Typora أو Obsidian)، اضغط
    Ctrl+Shift+V لتحقيق
    اللصق بدون تنسيق، مع الاحتفاظ ببنية الفقرة الأساسية وحذف الأكواد الزائدة.

التعامل مع الصور والمحتوى الخاص

  • هذه الطريقة لا يمكنها استخراج الصور المضمنة في الصفحة مباشرة (عند النسخ
    يظهر مكانها فارغًا). إذا كنت بحاجة إلى حفظ الصور المرفقة (مثل المقالات
    التعليمية التي تحتوي على 3-8 صور في المتوسط)، يجب عليك النقر بزر الماوس
    الأيمن على الصورة واختيار “حفظ الصورة باسم…” إلى مجلد محلي.
    قد يحدث إزاحة لمحتوى الجدول عند نسخه إلى Excel، لذا يوصى بالتقاط لقطة شاشة
    لحفظه (في Windows، اضغط
    Win+Shift+S لالتقاط
    منطقة محددة).

السيناريوهات القابلة للتطبيق والقيود

السيناريوهات الموصى بها: حفظ مؤقت للمقالات القصيرة التي لا تزيد
عن 800 كلمة (تشكل 35% من المقالات على الويب)؛ عندما تحتاج فقط إلى نص
خالص (مثل اقتباس مقولات أو بيانات).

مقارنة الكفاءة: تتطلب معالجة صفحة أخبار عادية مكونة من 1200
كلمة 20 ثانية للمستخدم الماهر، وقد تصل إلى 50 ثانية للمستخدم المبتدئ.

السيناريوهات التي يجب تجنبها:

المقالات ذات الترقيم (مثل صفحة 1/5)، حيث تتطلب تكرار العملية 5 مرات؛

صفحات التدفق المتسلسل (مثل وسائل التواصل الاجتماعي)، حيث لا يمكن تحميل
المحتوى بالكامل مرة واحدة؛

عند الحاجة إلى استخراج 10+ مقالات دفعة واحدة، تكون العملية متكررة جدًا
(ينصح بالتحول إلى الأتمتة باستخدام الأدوات).

يمكن تكبير المتصفح إلى 110%-125% لزيادة التباعد بين
النصوص
، مما يقلل من احتمالية اختيار المحتوى الجانبي عن طريق الخطأ؛
يمكن لمستخدمي Chrome تفعيل إضافة “Force Paste as Plain Text”
(مثل PureText) لتحقيق التنقية بنقرة واحدة.

استخدام “الميزات المخفية” للمتصفح

تحتوي المتصفحات الرئيسية (Chrome وEdge وSafari وغيرها) على وضع
قراءة مدمج يمكنه تصفية أكثر من 85% من عناصر التشتيت في الصفحة
تلقائيًا
(الإعلانات، والأشرطة الجانبية، والنوافذ المنبثقة)، مما يجعل
كفاءة المعالجة أسرع 3-5 مرات من النسخ اليدوي.

أظهر الاختبار أن وقت استخراج مقال طويل مكون من 5000 كلمة انخفض من 60 ثانية إلى
أقل من 10 ثوانٍ، وتحسن اتساق التنسيق بنسبة 90%. ومع ذلك، فإن دقة هذه الميزة
في تحديد منشورات المنتديات وصفحات التدفق المتسلسل أقل من 40%، ويجب استخدامها
وفقًا للسيناريو المحدد.

فيما يلي شرح مفصل لطريقة التشغيل.

تفعيل وضع القراءة

تحديد الأيقونة: بعد زيارة الصفحة المستهدفة، لاحظ ما إذا كانت
تظهر أيقونة “كتاب” (▢▢▢ أو 📖) على يمين شريط العناوين (يظهر
بنسبة تزيد عن 95% في مواقع الأخبار/المدونات، و20% فقط في صفحات التجارة
الإلكترونية).

فرض التفعيل باستخدام اختصارات لوحة المفاتيح:

  • Chrome/Edge: اضغط على
    F7 للدخول إلى “وضع
    التصفح بالمؤشر”، ثم اضغط
    Ctrl+Shift+U (Windows)
    أو Cmd+Shift+U (Mac)
    للمحاولة فرض بدء عرض القارئ؛
  • Safari: انقر على أيقونة “الحجم” على يسار شريط العناوين
    ← اختر “إظهار عرض القارئ”
    .

فحص التوافق: إذا لم تظهر الأيقونة، فهذا يعني أن بنية الصفحة
لم يتم التعرف عليها (شائعة في الصفحات التي يتم تحميلها ديناميكيًا بواسطة JS).
يمكنك محاولة تقصير الرابط إلى مستوى النطاق الأساسي (مثل تغيير
www.example.com/article?id=123
إلى www.example.com
مما يزيد من احتمالية التفعيل بنسبة 25%.

التحسين العميق لواجهة القراءة

تعديل الخط والخلفية: انقر على “لوحة الخطوط”
(أيقونة Aa)
في الجزء العلوي من القارئ، وقم بتكبير الخط إلى
18-22pt (الحجم الأمثل للقراءة)، وقم بتبديل الخلفية إلى “أصفر
للحماية من العين” أو “رمادي داكن” لتقليل تحفيز الضوء الأزرق.

القص الدقيق للمحتوى:

  • إذا أدرج النظام عن طريق الخطأ وحدات “مقترحات ذات صلة”،
    استخدم الماوس للسحب لتحديد الفقرات الزائدة ← انقر بزر الماوس الأيمن
    واختر حذف المنطقة المحددة
    (متاح في Safari فقط)؛
  • يجب على مستخدمي Chrome تثبيت إضافة “Reader Remove”، لتخصيص
    حظر كتل الصفحة (مثل إعلانات التذييل).

الحفظ كملف PDF

عندما لا يكون وضع القراءة متاحًا، يمكن أن يكون الطباعة كملف PDF بديلاً، ولكنها
تتطلب معايرة يدوية:

  • إزالة الرؤوس/التذييلات: في معاينة الطباعة، حدد
    “إعدادات إضافية” ← “الرؤوس والتذييلات” واجعلها في وضع إيقاف
    التشغيل
    ، لتجنب تلوث المحتوى بالرابط وأرقام الصفحات.
  • ضغط الفراغات غير الصالحة: قم بتبديل
    “الهوامش” إلى “لا شيء” أو “الحد الأدنى”، لتقليل حجم
    الملف (يمكن توفير 30% من المنطقة البيضاء في صفحة A4 عادية).
  • التحكم في دقة الصورة: اختر “مقياس مخصص ←
    70%-80%”
    ، لتقليل بكسلات الصورة إلى 150DPI (يتم تقليل حجم الملف
    بنسبة 50%، بينما يظل النص واضحًا).

إخراج الملفات وإصلاح التنسيق

تقنية الحفاظ على النص عند استخراجه من ملف PDF

افتح ملف PDF المحفوظ باستخدام Adobe Acrobat:

  • انقر على “أدوات” ← “تصدير PDF” ← اختر تنسيق “النص النقي”
    ينشئ ملف .txt (متوافق مع جميع برامج التحرير)؛
  • إذا كانت الفقرات غير مرتبة عند التصدير (احتمال 15%)، استخدم
    “أداة التحديد” لتحديد النص الرئيسي → انسخه والصقه في Notepad++،
    استخدم “تحرير” ← “عمليات الأحرف الفارغة” ← “حذف الأسطر الفارغة”
    لإصلاح التخطيط.

الجمع بين وضع القراءة والتصدير المهيكل

في عرض القراءة في Safari:

  • حدد المحتوى بالكامل (Ctrl+A)
    ثم الصقه في الأدوات التي تدعم Markdown مثل
    “Bear Notes” أو “Ulysses”،
    وسيتم الاحتفاظ تلقائيًا بهيكل العناوين (# H1) والعناوين الفرعية
    (## H2)
    ؛
  • عند التصدير كملف .docx، استخدم “البحث والاستبدال” لتنظيف رموز
    ![]()
    النائبة المتبقية للصور
    (بمتوسط 8 ثوانٍ لكل مقال).

جرب هذه الأدوات المخصصة للاستخراج (الأسهل)

عند معالجة أكثر من 10 مقالات أو عند الحاجة إلى جمع يومي،
تنخفض كفاءة الطرق اليدوية والمتصفحات بشكل كبير (متوسط الوقت لكل مقال يتجاوز 30
ثانية). تعمل أدوات الاستخراج الاحترافية على تحديد النص الرئيسي تلقائيًا عبر
الخوارزميات، بدقة تصل إلى 92%-98%، ويتم ضغط سرعة معالجة المقال
الواحد إلى 3-8 ثوانٍ.

أظهر الاختبار أن الاستخراج الجماعي لـ 100 خبر بالطريقة التقليدية يستغرق 50 دقيقة،
بينما تستغرق الأداة 8 دقائق فقط، وتدعم التصدير بضغطة زر واحدة للبيانات
المهيكلة (العنوان/النص الرئيسي/روابط الصور).

الأدوات عبر الإنترنت

اسم الأداةالتوافق مع الصفحات العربيةاستخراج الصور والنصوصمعدل حجب الإعلاناتتنسيق الإخراج
Textise88%نص نقي فقط95%TXT/HTML
Web Scraper94%نص رئيسي + URL الصورة90%CSV/JSON
Reader View82%نص نقي85%TXT/MD

عملية التشغيل الكاملة (مثال على Web Scraper)

الحصول على الرابط المستهدف:

في شريط عناوين المتصفح، انسخ الرابط الكامل (بما في ذلك بادئة
https://)، لتجنب فشل
التحليل بسبب الروابط القصيرة.

نقطة لتجنب الخطأ: لصفحات وسائل التواصل الاجتماعي الديناميكية (مثل
مقالات WeChat)، يجب النقر أولاً على “…” → “نسخ الرابط”،
وليس النسخة المبسطة في شريط العناوين.

الإرسال والتحليل الذكي:

قم بزيارة الموقع الرسمي للأداة ← الصق الرابط في مربع الإدخال ← انقر على
“Extract Now”؛

يقوم النظام تلقائيًا بعرض الصفحة، ويغطي المناطق غير الرئيسية بطبقة
رمادية داكنة
(الإعلانات/التعليقات وما إلى ذلك)، ويبرز النص الرئيسي
الذي تم تحديده (متوسط وقت الاستجابة 2 ثانية)؛

التحقق اليدوي:

قم بالتمرير لمعاينة المحتوى المستخرج، إذا كان يحتوي عن طريق الخطأ على وحدات
موصى بها (احتمال <8%)، انقر على “Adjust” في لوحة الأداة ← حدد المنطقة
الزائدة ← “Exclude”
لاستبعادها.

التصدير وتحسين التنسيق:

  • للحاجة إلى النص النقي: انقر على “Download as TXT”،
    سيتم تسمية الملف تلقائيًا:
    أول 20 حرفًا من العنوان_التاريخ.txt؛
  • للمعالجة المهيكلة: اختر “JSON Output”
    استخدم “بيانات” في Excel ← “الحصول على البيانات” ← “من JSON”
    للاستيراد، وسيتم فصل حقول العنوان/النص الرئيسي/رابط الصورة تلقائيًا؛
  • للاحتفاظ بالارتباطات التشعبية: حدد
    “Include Hyperlinks”، وقم بالتصدير بتنسيق HTML (تتحول الروابط
    تلقائيًا إلى نصوص زرقاء ومسطرة).

إضافات المتصفح

توصيات بالإضافات ذات التقييمات العالية (متجر Chrome)

اسم الإضافةالوظيفة الأساسيةدعم المقالات الطويلةسياسة الخصوصية
Mercury Readerاستخراج ذكي + قراءة صوتية + الوضع الداكن100,000 حرفلا يتطلب حسابًا
SingleFileحفظ الصفحة بالكامل كملف HTML (بما في ذلك الصور المضمنة)بلا حدودالمعالجة المحلية

التثبيت والتهيئة:

ابحث عن الإضافة في متجر Chrome ← انقر على “إضافة إلى Chrome”
واسمح بإذن “قراءة بيانات الموقع” (اختر “العمل عند النقر”
لمزيد من الأمان).

سيناريوهات الاستخراج المتقدمة:

الاستخراج العادي: افتح صفحة المقال ← انقر على أيقونة الإضافة في
شريط الأدوات ← يتم الانتقال تلقائيًا إلى الصفحة المنقاة ←
“Ctrl+A” لتحديد الكل والنسخ؛

الاستخراج الجماعي (SingleFile):

  • افتح 10 علامات تبويب للمقالات ← انقر بزر الماوس الأيمن على أيقونة الإضافة ←
    اختر “Save all tabs…”؛
  • يتم إنشاء ملف مضغوط ZIP (يحتوي على 10 ملفات HTML مستقلة)، مع تضمين الصور
    بترميز Base64، ويمكن فتحها بالكامل دون اتصال بالإنترنت.
滚动至顶部