6 مشاكل ملف robots.txt الشائعة وكيفية إصلاحها

يعد ملف robots.txt أداة مفيدة وقوية نسبيًا لإخبار روبوتات محركات البحث بالطريقة التي تريدها أن تزحف إلى موقع الويب الخاص بك.

هو ليس قديرًا (في كلمات جوجل الخاصة“إنها ليست آلية لإبقاء صفحة الويب خارج Google”) ، ولكنها يمكن أن تساعد في منع تحميل موقعك أو الخادم الخاص بك بشكل زائد من طلبات الزاحف.

إذا كانت كتلة الزحف هذه في مكانها على موقعك ، فستحتاج إلى التأكد من استخدامها بشكل صحيح.

هذا مهم بشكل خاص إذا كنت تستخدم عناوين URL ديناميكية أو طرق أخرى تنشئ عددًا لا نهائيًا من الصفحات نظريًا.

في هذا الدليل ، سنلقي نظرة على بعض المشاكل الأكثر شيوعًا في ملف robots.txt ، والتأثير الذي يمكن أن تحدثه على موقع الويب الخاص بك ووجودك في البحث ، وكيفية إصلاح هذه المشكلات إذا كنت تعتقد أنها تحدث. يتم إنتاجها. .

لكن أولاً ، دعنا نلقي نظرة سريعة على ملف robots.txt وبدائله.

ما هو ملف robots.txt؟

يستخدم ملف robots.txt تنسيق ملف نصي عادي ويتم وضعه في الدليل الجذر لموقع الويب الخاص بك.

يجب أن يكون في أعلى دليل بموقعك ؛ إذا قمت بوضعه في دليل فرعي ، فسوف تتجاهله محركات البحث.

على الرغم من قوته الكبيرة ، غالبًا ما يكون ملف robots.txt مستندًا بسيطًا نسبيًا ، ويمكن إنشاء ملف robots.txt أساسي في ثوانٍ باستخدام محرر مثل المفكرة.

هناك طرق أخرى لتحقيق بعض الأغراض التي يتم استخدام ملف robots.txt من أجلها عادةً.

يمكن أن تتضمن الصفحات الفردية علامة وصفية لبرامج الروبوت في شفرة الصفحة نفسها.

يمكنك أيضًا استخدام ملف رأس HTTP X-Robots-Tag للتأثير في كيفية (وما إذا) يتم عرض المحتوى في نتائج البحث.

ما الذي يمكن أن يفعله ملف robots.txt؟

يمكن أن يحصل ملف robots.txt على مجموعة متنوعة من النتائج عبر مجموعة من أنواع المحتوى المختلفة:

يمكن منع الزحف إلى صفحات الويب.

قد تظل تظهر في نتائج البحث ، ولكن لن يكون لها وصف نصي. كما لن يتم الزحف إلى المحتوى الذي ليس بتنسيق HTML على الصفحة.

يمكن حظر ملفات الوسائط من الظهور في نتائج بحث Google.

يتضمن ذلك ملفات الصور والفيديو والصوت.

إذا كان الملف عامًا ، فسيظل “موجودًا” عبر الإنترنت ويمكن عرضه وربطه به ، ولكن هذا المحتوى الخاص لن يظهر في عمليات بحث Google.

يمكن حظر ملفات الموارد مثل البرامج النصية الخارجية غير المهمة.

ولكن هذا يعني أنه في حالة قيام Google بالزحف إلى صفحة تتطلب تحميل هذا المورد ، فإن Googlebot “سيرى” نسخة من الصفحة كما لو أن هذا المورد غير موجود ، مما قد يؤثر على الفهرسة.

لا يمكنك استخدام ملف robots.txt لمنع صفحة ويب تمامًا من الظهور في نتائج بحث Google.

لتحقيق ذلك ، تحتاج إلى استخدام طريقة بديلة مثل إضافة noindex علامة متغيرة إلى أعلى الصفحة.

ما مدى خطورة أخطاء Robots.txt؟

يمكن أن يكون للخطأ في ملف robots.txt عواقب غير مقصودة ، ولكنه غالبًا لا يكون نهاية العالم.

والخبر السار هو أنه من خلال إصلاح ملف robots.txt الخاص بك ، يمكنك استرداد جميع الأخطاء بشكل سريع (عادةً).

نصيحة Google لمطوري الويب يقول هذا عن أخطاء robots.txt:

“برامج زحف الويب مرنة جدًا بشكل عام ولن تتأثر عمومًا بالأخطاء الطفيفة في ملف robots.txt. وعادة ما يكون أسوأ ما يمكن أن يحدث هو حدوث خطأ [or] سيتم تجاهل التوجيهات غير المدعومة.
ضع في اعتبارك أن Google لا يمكنها قراءة الأفكار عند تفسير ملف robots.txt ؛ نحتاج إلى تفسير ملف robots.txt الذي استردناه. ومع ذلك ، إذا كنت على علم بأي مشكلات في ملف robots.txt ، فمن السهل عادةً إصلاحها. »

6 أخطاء Robots.txt الشائعة

ملف robots.txt ليس في الدليل الجذر.
إساءة استخدام أحرف البدل.
لا يوجد فهرس في ملف robots.txt.
البرامج النصية وأوراق الأنماط المحظورة.
لا توجد عناوين URL لخريطة الموقع.
الوصول إلى مواقع التطوير.

إذا كان موقع الويب الخاص بك يتصرف بشكل غريب في نتائج البحث ، فإن ملف robots.txt يعد مكانًا جيدًا للتحقق من وجود أخطاء وأخطاء في بناء الجملة وقواعد زائدة.

دعنا نلقي نظرة فاحصة على كل خطأ من الأخطاء المذكورة أعلاه ونرى كيفية التأكد من أن لديك ملف robots.txt صالح.

1. ملف robots.txt ليس في الدليل الجذر

يمكن لروبوتات البحث اكتشاف الملف فقط إذا كان في المجلد الجذر.

لهذا السبب يجب أن يكون هناك فقط شرطة مائلة بين .com لموقع الويب الخاص بك (أو مجال مكافئ) واسم ملف “robots.txt” في عنوان URL الخاص بملف robots.txt.

إذا كان يحتوي على مجلد فرعي ، فمن المحتمل ألا يكون ملف robots.txt الخاص بك مرئيًا للبحث في برامج الروبوت ومن المحتمل أن يتصرف موقع الويب الخاص بك كما لو أنه لا يوجد ملف robots.txt.

لحل هذه المشكلة ، انقل ملف robots.txt إلى الدليل الجذر.

تجدر الإشارة إلى أن هذا سيتطلب منك الوصول إلى الجذر إلى الخادم الخاص بك.

تقوم بعض أنظمة إدارة المحتوى بتحميل الملفات إلى دليل فرعي “وسائط” (أو شيء مشابه) افتراضيًا ، لذلك قد تحتاج إلى حل هذه المشكلة لوضع ملف robots.txt في المكان المناسب.

2. إساءة استخدام أحرف البدل

يدعم ملف robots.txt حرفين بدل:

النجمة * التي تمثل جميع حالات الشخصية الصالحة ، مثل الجوكر في لعبة الورق.
علامة الدولار $ الذي يشير إلى نهاية عنوان URL ، مما يسمح لك بتطبيق القواعد فقط على الجزء الأخير من عنوان URL ، مثل امتداد نوع الملف.

من الذكاء اتباع نهج مبسط لاستخدام أحرف البدل ، حيث يمكنها تطبيق قيود على جزء أكبر بكثير من موقع الويب الخاص بك.

من السهل نسبيًا أيضًا أن ينتهي بك الأمر بمنع وصول الروبوت من موقعك بالكامل بعلامة النجمة في غير محله.

لإصلاح مشكلة حرف البدل ، تحتاج إلى تحديد موقع حرف البدل غير الصحيح ونقله أو حذفه حتى يعمل ملف robots.txt كما هو متوقع.

3. لا يوجد فهرس في ملف robots.txt

هذا أكثر شيوعًا في مواقع الويب التي يزيد عمرها عن بضع سنوات.

توقفت Google عن الامتثال لقواعد noindex في ملفات robots.txt اعتبارًا من 1 سبتمبر 2019.

إذا تم إنشاء ملف robots.txt الخاص بك قبل هذا التاريخ أو لا يحتوي على إرشادات الفهرسة ، فمن المحتمل أن ترى هذه الصفحات مفهرسة في نتائج بحث Google.

يتمثل حل هذه المشكلة في تطبيق طريقة “noindex” بديلة.

أحد الخيارات هو العلامة الوصفية لبرامج الروبوت ، والتي يمكنك إضافتها إلى رأس أي صفحة ويب تريد منع Google من فهرستها.

4. البرامج النصية وأوراق الأنماط المحظورة

قد يبدو من المنطقي منع وصول برامج الزحف إلى JavaScripts الخارجية وأوراق الأنماط المتتالية (CSS).

ومع ذلك ، تذكر أن Googlebot يحتاج إلى الوصول إلى ملفات CSS و JS من أجل “مشاهدة” صفحات HTML و PHP الخاصة بك بشكل صحيح.

إذا كانت صفحاتك تتصرف بشكل غريب في نتائج Google ، أو إذا كان يبدو أن Google لا يراها بشكل صحيح ، فتحقق مما إذا كنت تحظر وصول الزاحف إلى الملفات الخارجية المطلوبة.

الحل البسيط هو إزالة السطر من ملف robots.txt الذي يحظر الوصول.

أو ، إذا كانت لديك ملفات تريد حظرها ، فقم بإدراج استثناء يعيد الوصول إلى CSS و JavaScript الضروريين.

5. لا توجد عناوين URL لخريطة الموقع

يتعلق الأمر بتحسين محركات البحث أكثر من أي شيء آخر.

يمكنك تضمين عنوان URL لخريطة الموقع في ملف robots.txt الخاص بك.

نظرًا لأنه أول مكان يبحث فيه Googlebot عند الزحف إلى موقع الويب الخاص بك ، فإنه يمنح الروبوت السبق في معرفة بنية موقعك وصفحاته الرئيسية.

على الرغم من أنه ليس خطأً صارمًا ، نظرًا لأن حذف ملف Sitemap لا يجب أن يؤثر سلبًا على الوظائف الأساسية وظهور موقع الويب الخاص بك في نتائج البحث ، إلا أنه لا يزال يستحق الجهد. يستحق إضافة عنوان URL لخريطة الموقع إلى ملف robots.txt إذا كنت تريد ذلك. تعزيز جهود تحسين محركات البحث الخاصة بك.

6. الوصول إلى مواقع التطوير

يعد حظر برامج الزحف من موقع الويب المباشر الخاص بك أمرًا محظورًا ، ولكنه يسمح لهم أيضًا بالزحف إلى صفحاتك التي لا تزال قيد التطوير وفهرستها.

يوصى بإضافة بيان عدم السماح إلى ملف robots.txt لموقع ويب قيد الإنشاء حتى لا يراه عامة الناس حتى يتم الانتهاء منه.

وبالمثل ، من الضروري إزالة تعليمات عدم السماح عند بدء تشغيل موقع ويب منتهي.

يعد نسيان إزالة هذا السطر من ملف robots.txt أحد أكثر الأخطاء شيوعًا التي يرتكبها مطورو الويب ويمكن أن يمنع موقع الويب بالكامل من الزحف والفهرسة بشكل صحيح.

إذا بدا أن موقع التدريج الخاص بك يحصل على زيارات حقيقية ، أو إذا كان موقع الويب الذي تم إطلاقه مؤخرًا لا يعمل بشكل جيد في البحث على الإطلاق ، فابحث عن قاعدة حظر وكيل مستخدم عالمية في ملف robots.txt الخاص بك:
User-Agent: *
Disallow: /
إذا كنت ترى هذا عندما لا يجب عليك (أو لا تراه في الوقت المناسب) ، فقم بإجراء التغييرات اللازمة على ملف robots.txt الخاص بك وتحقق من تحديث مظهر البحث على موقع الويب وفقًا لذلك.

كيفية التعافي من خطأ Robots.txt

إذا كان هناك خطأ في ملف robots.txt له تأثيرات غير مرغوب فيها على مظهر البحث في موقع الويب الخاص بك ، فإن الخطوة الأولى الأكثر أهمية هي إصلاح ملف robots.txt والتحقق من أن القواعد الجديدة لها التأثير المطلوب.

بعض أدوات الزحف SEO يمكن أن تساعدك حتى لا تضطر إلى انتظار محركات البحث للزحف إلى موقعك.

عندما تكون متأكدًا من أن ملف robots.txt يتصرف بالطريقة التي تريدها ، يمكنك محاولة إعادة الزحف إلى موقعك في أسرع وقت ممكن.

منصات مثل جوجل Search Console و أدوات مشرفي المواقع من Bing استطيع المساعدة.

أرسل خريطة موقع محدثة واطلب إعادة الزحف إلى أي صفحات تمت إزالتها بشكل غير لائق.

لسوء الحظ ، أنت تحت رحمة Googlebot – ليس هناك ما يضمن المدة التي ستستغرقها الصفحات المفقودة لتظهر مرة أخرى في فهرس بحث Google.

كل ما يمكنك فعله هو اتخاذ الخطوات المناسبة لتقليل هذا الوقت قدر الإمكان والاستمرار في التحقق حتى يتم تنفيذ ملف robots.txt المصحح بواسطة Googlebot.

افكار اخيرة

عندما يتعلق الأمر بأخطاء robots.txt ، فإن الوقاية خير من العلاج.

على موقع ويب كبير مدر للإيرادات ، يمكن أن يكون لحرف البدل الضال الذي يزيل موقع الويب الخاص بك بالكامل من Google تأثير فوري على الإيرادات.

يجب إجراء التغييرات التي تم إجراؤها على ملف robots.txt بعناية بواسطة مطورين ذوي خبرة ، وإعادة التحقق منها ، وإذا لزم الأمر ، إعطاء رأي ثانٍ.

إذا كان ذلك ممكنًا ، فقم بإجراء اختبار في محرر وضع الحماية قبل البث المباشر على خادمك الحقيقي للتأكد من تجنب التسبب عن غير قصد في مشكلات التوفر.

تذكر أنه عندما يحدث الأسوأ ، من المهم عدم الذعر.

قم بتشخيص المشكلة وإجراء الإصلاحات اللازمة لملف robots.txt وإعادة إرسال ملف Sitemap لإجراء عملية زحف جديدة.

نأمل أن تتم استعادة مكانك في تصنيفات البحث في غضون أيام قليلة.

المزيد من الموارد:

الصورة المميزة: M-SUR / Shutterstock

#مشاكل #ملف #robotstxt #الشائعة #وكيفية #إصلاحها

المصدر

RaiArabic | رأي عربي

القائمة الرئيسية

الصفحات