فایل Robots.txt چیست و چه کاربردی دارد؟

محسن حبیبی7 آگوست 2022

2 خواندن این مطلب 7 دقیقه زمان میبرد

فایل robots. txt مجموعه‌ای از دستورالعمل‌ها برای ربات‌ها است. فایل ربات ، در فایل‌های منبع اکثر وب سایت‌ها موجود است.
فایل ربات بیشتر برای مدیریت فعالیت ربات‌های مفید مانند خزنده‌های وب در نظر گرفته شده است. اما ربات‌های نا کار آمد احتمالاً از این دستورالعمل‌ها پیروی نمی‌کنند.

لیست عناوین پنهان

1 فایل robots.txt چیست؟

2 چرا فایل robots. txt اهمیت دارد؟

2.1 مسدود کردن صفحات غیر عمومی

2.2 به حداقل رساندن بودجه خزنده

2.3 جلوگیری از نمایه‌سازی منابع

3 روش ایجاد

3.1 قوانین قالب و مکان

3.2 قوانینی را به پرونده robots. txt اضافه کنید

3.3 فایل robots. txt را بارگذاری کنید

4 تست علامت‌گذاری robots. txt

4.1 فایل robots. txt را به Google ارسال کنید

5 فایل robots. txt چگونه کار می‌کند ؟

6 فایل robots.txt برای وردپرس

7 جمع‌بندی و نتیجه گیری

فایل robots.txt چیست؟

فایل robots.txt چیست

تصور کنید که یک فایل robots.txt مانند تابلوی «آیین نامه رفتاری» است که در یک سالن ورزشی، بیمارستان، یا مراکز اجتماع روی دیوار نصب شده است.

این تابلو به خودی خود قدرت اجرای قوانین مندرج را ندارد، اما مشتریان خوب «از این قوانین پیروی خواهد کرد، در حالی که» مشتریان غیر هدف” احتمالاً آن‌ها را نقض کرده و از آن استفاده نمی‌کنند.

ربات یک برنامه رایانه‌ای خودکار است که با وب سایت‌ها و برنامه‌ها ارتباط برقرار می‌کند. درکل ربات‌های خوب و ربات‌های بد وجود دارند و یکی از انواع ربات‌های خوب ربات خزنده وب نام دارد.

این ربات‌ها صفحات وب را «می خزند» و محتوا را فهرست می‌کنند تا بتواند در نتایج موتور جستجو آن را نشان دهند. فایل متنی ربات به مدیریت فعالیت‌های این خزندگان وب کمک می‌کند تا از این طریق از سرور وب ، یا صفحات فهرست‌بندی نشده برای بازدید عموم، کار کند.

چرا فایل robots. txt اهمیت دارد؟

فایل متنی ربات

اکثر وب سایت‌ها به فایل متنی ربات نیازی ندارند. این به این دلیل است که Google معمولاً می‌تواند همه صفحات مهم سایت شما را پیدا و فهرست کند. و آن‌ها به طور خودکار صفحاتی را که مهم نیستند یا نسخه‌های تکراری صفحات دیگر هستند ، ایندکس نخواهند کرد.

۳ دلیل اصلی که باید از پرونده فایل متنی ربات استفاده کنید.

مسدود کردن صفحات غیر عمومی

بعضی اوقات صفحاتی در سایت خود دارید که نمی‌خواهید فهرست شوند. به عنوان مثال، شما ممکن است یک نسخه صحنه دار یا یک صفحه ورود به سیستم را از یک صفحه دراختیار داشته باشید.

وجود این صفحات الزامی است. اما شما نمی‌خواهید افراد تصادفی به آن‌ها لینک شوند. این موردی است که شما می‌توانید با استفاده از robots. txt برای مسدود کردن این صفحات در خزنده‌ها و ربات‌های موتور جستجو استفاده کنید.

به حداقل رساندن بودجه خزنده

اگر برای تهیه فهرست تمام صفحات خود وقت کمی دارید، ممکن است با مشکل بودجه برای خزیدن روبرو شوید.
با مسدود کردن صفحات غیر مهم با فایل ربات، Googlebot می‌تواند بودجه خزیدن شما را بیشتر در صفحاتی که واقعاً مهم هستند، هزینه کند.

جلوگیری از نمایه‌سازی منابع

استفاده از دستورالعمل‌های متا می‌تواند به خوبی Robots. txt را برای جلوگیری از فهرست شدن صفحات مؤثر به کار گیرد.
با این حال، دستورالعمل‌های متا برای منابع چندرسانه‌ای مانند PDF و تصاویر به خوبی کار نمی‌کنند. در اینجا برای کارکرد بهتر robots. txt وارد عمل می‌شود.

روش ایجاد

برای ایجاد یک فایل متنی ربات می‌توانید تقریباً از هر ویرایشگر متنی استفاده کنید. به عنوان مثال، Notepad، TextEdit، vi و emacs می‌توانند پرونده‌های معتبر robots. txt ایجاد کنند.

فقط از word برای این کار استفاده نکنید. پردازنده‌های کلمه اغلب فایل‌ها را در قالب اختصاصی ذخیره می‌کنند و می‌توانند نویسه‌های غیر منتظره‌ای را اضافه کنند که این امر می‌تواند خزنده‌ها را با مشکل مواجه کند. در نهایت هم فایل خود را با فرمت UTF-8 ذخیره کنید.

قوانین قالب و مکان

پرونده باید به صورت robots. txt باشد. فایل متنی ربات باید در ریشه‌هایت وب سایتی که برای آن اعمال می‌شود قرار داشته باشد.
به عنوان مثال، برای کنترل خزنده‌ها در تمام URLهای زیر https://www.example.com/، فایل robots. txt باید https://www.example.com/robots.txt در محل مشخص شده باشد.

نمی‌توان این فایل را در زیر شاخه قرار داد. (به عنوان مثال، در https://example.com/pages/robots.txt).

اگر در مورد چگونگی دسترسی به ریشه وب سایت خود مطمئن نیستید یا برای این کار به مجوز نیاز دارید، با ارائه دهنده خدمات هاست وب خود تماس بگیرید و مشکل خود را مطرح کنید.

اگر نمی‌توانید به ریشه وب سایت خود دسترسی پیدا کنید، از یک روش مسدود کردن جایگزین مانند برچسب‌های متا استفاده کنید.
یک فایل robots. txt می‌تواند در زیر دامنه‌ها (به عنوان مثال، https://website.example.com/robots.txt) یا درگاه‌های غیر استاندارد (به عنوان مثال، http://example.com:8181/robots.txt) اعمال شود)

یک فایل robots. txt باید یک فایل متنی رمزگذاری شده UTF-8 (که شامل ASCII باشد) قرار گیرد.
Google ممکن است نویسه‌هایی را که در محدوده UTF-8 نیستند، نادیده بگیرد و به طور بالقوه قوانین robots. txt را نامعتبر کند.

قوانینی را به پرونده robots. txt اضافه کنید

با تعیین قوانین، خزنده‌های سایت شما خواهند دانست که در کدام قسمت از سایت شما باید بخزند. هنگام افزودن قوانین به پرونده robots. txt خود، این دستورالعمل‌ها را دنبال کنید:

یک فایل robots. txt از یک یا چند گروه تشکیل شده است. هر گروه متشکل از چندین قانون یا بخشنامه یا یک دستورالعمل در هر سطر است.هر گروه با یک خط User-agent شروع می‌شود که هدف گروه‌ها را مشخص می‌کند.

هر گروه اطلاعات زیر را می‌دهد محتوای فایل robots.txt :

کسانی که گروه از آن‌ها استفاده می‌کنند (عامل کاربری).
دسترسی عامل کاربری دایرکتوری‌ها یا پرونده‌ها.
عامل نمی‌تواند به دایرکتوری‌ها یا پرونده‌ها دسترسی پیدا کند.

خزنده ها، گروه‌ها را از بالا به پایین پردازش می‌کنند. یک عامل کاربر می‌تواند فقط با یک مجموعه از قوانین مطابقت داشته باشد که اولین و خاص‌ترین گروهی است که با یک عامل کاربر مشخص مطابقت دارد.

تصور پیش فرض این است که یک عامل کاربر می‌تواند هر صفحه یا دایرکتوری را که توسط یک قانون‌عدم اجازه مسدود نشده است، جستجو کند.
قوانین به حروف کوچک و بزرگ حساس هستند. به عنوان مثال:

Disallow: /file. asp برای https://www.example.com/file.asp اعمال می‌شود، اما برای https://www.example.com/FILE.asp اعمال نمی‌شود.

کاراکتر # شروع یک نظر است. خزنده‌های گوگل از دستورالعمل‌های زیر در پرونده‌های robots. txt پشتیبانی می‌کنند:

user-agent: [در هر گروه یک مورد یا بیشتر الزامی است] این دستورالعمل نام مشتری خودکار را که به عنوان خزنده موتور جستجو شناخته می‌شود مشخص می‌کند که قانون در مورد آن اعمال می‌شود یا خیر.

این اولین خط در هر گروه قانونی است. نام نمایندگان Google در لیست نمایندگان کاربر Google ذکر شده است.
استفاده از ستاره (*) با همه خزنده‌ها مطابقت دارد به جز خزنده‌های AdsBot که باید صریحاً نامگذاری شوند. مثلا:

# مثال ۱: Block only Googlebot
User-agent: Googlebot
Disallow: /

# مثال ۲: Block only Googlebot and Adsbot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /

# مثال ۳: Block all but AdsBot crawlers
User-agent: *
Disallow: /

disallow: [حداقل یک یا چند ورودی را برای هر قاعده مجاز یا غیرمجاز کنید]. این مسدودیت مربوط به فهرست یا صفحه‌ای مرتبط به دامنه است که نمی‌خواهید در دید عموم قرار گیرد و خزش شود.

اگر این قانون به یک صفحه اشاره دارد، باید همان نام صفحه که در مرورگر نشان داده شده است لحاظ شود.

باید با حرف و / شروع شود و اگر به دایرکتوری اشاره دارد، باید با علامت / پایان یابد.

allow: [حداقل یک یا چند ورودی را برای هر قاعده مجاز یا ممنوع کنید]. این مربوط به یک دایرکتوری یا صفحه مرتبطت با دامنه می‌شود که ممکن است توسط عامل کاربری که ذکر شد خزیده شود.
دستور allow اجازه خزیدن به زیر شاخه یا صفحه در یک فهرست غیر مجاز را می‌دهد.
برای یک صفحه، باید نام کامل صفحه همانطور که در مرورگر نشان داده شده است مشخص شود.
در صورت داشتن فهرست، این دستور باید با علامت / پایان یابد.
sitemap: [در هر فایل اختیاری ، صفر یا بیشتر] مکان نقشه سایت برای وب سایت را نشان می‌دهد.
URL نقشه سایت باید یک URL کاملاً واجد شرایط باشد. Google جایگزین http / https / www. non-www را فرض نمی‌کند یا بررسی انجام نمی‌دهد.
sitemap روش مناسبی برای مشخص کردن محتوای Google است که می‌تواند فهرست شود.

فایل robots. txt را بارگذاری کنید

پس از ذخیره فایل robots. txt در رایانه، فایل آماده آن است که در دسترس خزنده‌های موتور جستجو قرار گیرد.

هیچ ابزاری وجود ندارد که بتواند در این زمینه به شما کمک کند، زیرا نحوه بارگذاری فایل robots. txt به سایت شما بستگی به معماری سایت و سرور شما دارد.

با شرکت هاست خود در تماس باشید یا اسناد شرکت هاست خود را جستجو کنید. به عنوان مثال، «آپلود پرونده‌های infomaniak» را جستجو کنید. پس از بارگذاری فایل robots. txt، بررسی کنید که آیا در دسترس عموم است یا خیر و آیا Google می‌تواند آن را ایندکس کند یا نه.

تست علامت‌گذاری robots. txt

نوشتن فایل robots.txt

برای بررسی زمان آپلود فایل robots. txt، یک صفحه جدید در مرورگر خود باز کنید و به محل فایل robots. txt بروید. به عنوان مثال، https://example.com/robots.txt. اگر محتویات فایل robots. txt خود را مشاهده کردید، فایل آماده آزمایش نشانه‌گذاری است.

Google دو گزینه برای آزمایش علامت‌گذاری robots. txt ارائه می‌دهد:

تستر robots. txt در کنسول جستجو این ابزار را فقط می‌توانید برای پرونده‌های robots. txt که از قبل در سایت شما قابل دسترسی هستند استفاده کنید.

اگر برنامه‌نویس هستید، کتابخانه منبع آزاد Google robots. txt را که در جستجوی Google نیز استفاده می‌شود، بررسی و ایجاد کنید. می‌توانید از این ابزار برای آزمایش فایلهای robots. txt به صورت محلی در رایانه خود استفاده کنید.

فایل robots. txt را به Google ارسال کنید

هنگامی که پرونده robots. txt خود را بارگذاری و آزمایش کردید، خزنده‌های Google به طور خودکار فایل robots. txt شما را پیدا کرده و از آن استفاده می‌کنند. لازم نیست کار اضافه‌ای نیز انجام دهید.

فایل robots. txt چگونه کار می‌کند ؟

استفاده از فایل robots.txt

موتورهای جستجو برنامه‌های کوچکی به نام «عنکبوت» یا «ربات» را برای جستجوی سایت شما و بازگرداندن اطلاعات به موتورهای جستجو ارسال می‌کنند.

موتورهای جستجو این کار را انجام می‌دهند تا صفحات سایت شما در نتایج جستجو نمایه شده و توسط کاربران وب پیدا شود.
فایل robots. txt شما به این برنامه‌ها دستور می‌دهد تا صفحات موجود در سایت خود را که با استفاده از یک دستور «غیر مجاز» تعیین می‌کنید جستجو نکنند. به عنوان مثال، دستور Robots. txt زیر از این قرار است:

User-agent:

Disallow:/ thankyou

بازدید از ربات‌های موتور جستجو از صفحه زیر در وب سایت شما را مسدود می‌کند:

http://www.yoursite.com/thankyou

توجه داشته باشید که قبل از فرمان‌عدم اجازه، این دستور را دارید:

User-agent: *

قسمت «User-agent:» مشخص می‌کند که کدام ربات را می‌خواهید مسدود کنید و همچنین می‌تواند به شرح زیر باشد:

User-agent: Googlebot
Disallow: /

این دستور فقط ربات‌های Google را مسدود می‌کند، در حالی که سایر ربات‌ها هنوز به صفحه دسترسی دارند:

User-agent: Googlebot
Disallow: /
User-agent: *

با این حال، با استفاده از کاراکتر «*»، مشخص می‌کنید که دستورات زیر آن مربوط به همه ربات‌ها باشد. پرونده robots. txt شما در فهرست اصلی سایت شما قرار دارد. مثلا:

http://www.yoursite.com/robots.txt

فایل robots.txt برای وردپرس

فایل متنی ربات برای همه نوع سیستم مدیریت محتوا از جمله وردپرس یکی است که میتوانید مراحل بالا را طی کنید.

برای مثال سایت مهدی عراقی : لینک آدرس ربات =

https://mahdiaraqi.com/robots.txt

محتوایات داخل فایل ربات :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

جمع‌بندی و نتیجه گیری

فایل متنی ربات مجموعه‌ای از دستورالعمل‌ها است که در اکثر وب سایت‌ها موجود می‌باشد. فایل robots. txt بیشتر برای مدیریت فعالیت ربات‌ها ی کاربردی مانند خزنده‌های وب در نظر گرفته شده است. در این مقاله سعی شد تا شما را با ساختار فایل robots.txt آشنای کنیم و حتی اهمیت و کاربرد فایل robots.txt را بیشتر درک کنید.

برچسب ها