Semalt: كيفية منع ملف Darodar Robots.txt

ملف Robots.txt هو ملف نصي نموذجي يحتوي على تعليمات حول كيفية زحف الويب أو برامج التتبع إلى موقع. تطبيقهم واضح في روبوتات محرك البحث الشائعة في العديد من المواقع المحسنة. كجزء من بروتوكول استبعاد برامج الروبوت (REP) ، يشكل ملف robots.txt جانبًا أساسيًا لفهرسة محتوى موقع الويب بالإضافة إلى تمكين الخادم من مصادقة طلبات المستخدم وفقًا لذلك.

تشرح جوليا فاشنيفا ، مديرة نجاح العملاء في Semalt ، أن الربط هو أحد جوانب تحسين محركات البحث (SEO) ، والذي يتضمن الحصول على حركة المرور من المجالات الأخرى داخل مجال تخصصك. بالنسبة إلى الروابط "متابعة" لنقل عصير الارتباط ، من الضروري تضمين ملف robots.txt على مساحة استضافة موقع الويب الخاص بك للعمل كمعلم لكيفية تفاعل الخادم مع موقعك. من هذا الأرشيف ، توجد التعليمات عن طريق السماح أو عدم السماح لكيفية تصرف بعض وكلاء المستخدم.

التنسيق الأساسي لملف robots.txt

يحتوي ملف robots.txt على سطرين أساسيين:

وكيل المستخدم: [اسم وكيل المستخدم]

Disallow: [لن يتم الزحف إلى سلسلة عناوين URL]

يجب أن يحتوي ملف robots.txt الكامل على هذين السطرين. ومع ذلك ، يمكن أن يحتوي بعضها على خطوط متعددة من وكلاء المستخدم والتوجيهات. قد تحتوي هذه الأوامر على جوانب مثل السماح أو عدم السماح أو تأخير الزحف. عادة ما يكون هناك فاصل أسطر يفصل بين كل مجموعة من التعليمات. يتم فصل كل من التعليمات المسموح بها أو غير المسموح بها بفاصل السطر هذا ، خاصة لملف robots.txt بخطوط متعددة.

أمثلة

على سبيل المثال ، قد يحتوي ملف robots.txt على رموز مثل:

وكيل المستخدم: darodar

Disallow: / البرنامج المساعد

Disallow: / API

عدم السماح: / التعليقات

في هذه الحالة ، هذا هو ملف robots.txt منع الزاحف على الويب من Darodar من الوصول إلى موقع الويب الخاص بك. في الصيغة أعلاه ، يحظر الرمز جوانب موقع الويب مثل المكونات الإضافية و API وقسم التعليقات. من هذه المعرفة ، من الممكن تحقيق العديد من الفوائد من تنفيذ ملف نصي الروبوت بشكل فعال. يمكن أن تكون ملفات Robots.txt قادرة على أداء العديد من الوظائف. على سبيل المثال ، يمكن أن يكونوا مستعدين لما يلي:

1. السماح لجميع برامج زحف الويب بالدخول إلى صفحة موقع الويب. على سبيل المثال؛

وكيل المستخدم: *

عدم السماح:

في هذه الحالة ، يمكن الوصول إلى كل محتوى المستخدم من خلال أي زاحف ويب يطلب الوصول إلى موقع ويب.

2. حظر محتوى ويب معين من مجلد محدد. فمثلا؛

وكيل المستخدم: Googlebot

Disallow: / example-subfolder /

هذه البنية التي تحتوي على اسم وكيل المستخدم Googlebot تنتمي إلى Google. يمنع البوت من الوصول إلى أي صفحة ويب في السلسلة www.ourexample.com/example-subfolder/.

3. منع زاحف ويب معين من صفحة ويب معينة. فمثلا؛

وكيل المستخدم: Bingbot

Disallow: /example-subfolder/blocked-page.html

ينتمي روبوت وكيل المستخدم Bing إلى برامج زحف الويب Bing. يمنع هذا النوع من ملف robots.txt زاحف الويب Bing من الوصول إلى صفحة معينة باستخدام السلسلة www.ourexample.com/example-subfolder/blocked-page.

معلومات مهمة

  • لا يستخدم كل مستخدم ملف robts.txt الخاص بك. قد يقرر بعض المستخدمين تجاهلها. تتضمن معظم برامج زحف الويب هذه أحصنة طروادة والبرامج الضارة.
  • لكي يكون ملف Robots.txt مرئيًا ، يجب أن يكون متاحًا في دليل موقع الويب ذي المستوى الأعلى.
  • الأحرف "robots.txt" حساسة لحالة الأحرف. ونتيجة لذلك ، لا يجب تغييرها بأي شكل من الأشكال بما في ذلك الكتابة بالأحرف الكبيرة لبعض الجوانب.
  • "/robots.txt" هو ملكية عامة. يمكن لأي شخص العثور على هذه المعلومات عند إضافتها إلى محتويات أي عنوان URL. يجب ألا تقوم بفهرسة التفاصيل أو الصفحات الأساسية التي تريدها أن تظل خاصة.