فایل Robots.txt چیست و چه کاربردی دارد؟
فایل robots. txt مجموعهای از دستورالعملها برای رباتها است. فایل ربات ، در فایلهای منبع اکثر وب سایتها موجود است.
فایل ربات بیشتر برای مدیریت فعالیت رباتهای مفید مانند خزندههای وب در نظر گرفته شده است. اما رباتهای نا کار آمد احتمالاً از این دستورالعملها پیروی نمیکنند.
فایل robots.txt چیست؟
تصور کنید که یک فایل robots.txt مانند تابلوی «آیین نامه رفتاری» است که در یک سالن ورزشی، بیمارستان، یا مراکز اجتماع روی دیوار نصب شده است.
این تابلو به خودی خود قدرت اجرای قوانین مندرج را ندارد، اما مشتریان خوب «از این قوانین پیروی خواهد کرد، در حالی که» مشتریان غیر هدف” احتمالاً آنها را نقض کرده و از آن استفاده نمیکنند.
ربات یک برنامه رایانهای خودکار است که با وب سایتها و برنامهها ارتباط برقرار میکند. درکل رباتهای خوب و رباتهای بد وجود دارند و یکی از انواع رباتهای خوب ربات خزنده وب نام دارد.
این رباتها صفحات وب را «می خزند» و محتوا را فهرست میکنند تا بتواند در نتایج موتور جستجو آن را نشان دهند. فایل متنی ربات به مدیریت فعالیتهای این خزندگان وب کمک میکند تا از این طریق از سرور وب ، یا صفحات فهرستبندی نشده برای بازدید عموم، کار کند.
چرا فایل robots. txt اهمیت دارد؟
اکثر وب سایتها به فایل متنی ربات نیازی ندارند. این به این دلیل است که Google معمولاً میتواند همه صفحات مهم سایت شما را پیدا و فهرست کند. و آنها به طور خودکار صفحاتی را که مهم نیستند یا نسخههای تکراری صفحات دیگر هستند ، ایندکس نخواهند کرد.
۳ دلیل اصلی که باید از پرونده فایل متنی ربات استفاده کنید.
مسدود کردن صفحات غیر عمومی
بعضی اوقات صفحاتی در سایت خود دارید که نمیخواهید فهرست شوند. به عنوان مثال، شما ممکن است یک نسخه صحنه دار یا یک صفحه ورود به سیستم را از یک صفحه دراختیار داشته باشید.
وجود این صفحات الزامی است. اما شما نمیخواهید افراد تصادفی به آنها لینک شوند. این موردی است که شما میتوانید با استفاده از robots. txt برای مسدود کردن این صفحات در خزندهها و رباتهای موتور جستجو استفاده کنید.
به حداقل رساندن بودجه خزنده
اگر برای تهیه فهرست تمام صفحات خود وقت کمی دارید، ممکن است با مشکل بودجه برای خزیدن روبرو شوید.
با مسدود کردن صفحات غیر مهم با فایل ربات، Googlebot میتواند بودجه خزیدن شما را بیشتر در صفحاتی که واقعاً مهم هستند، هزینه کند.
جلوگیری از نمایهسازی منابع
استفاده از دستورالعملهای متا میتواند به خوبی Robots. txt را برای جلوگیری از فهرست شدن صفحات مؤثر به کار گیرد.
با این حال، دستورالعملهای متا برای منابع چندرسانهای مانند PDF و تصاویر به خوبی کار نمیکنند. در اینجا برای کارکرد بهتر robots. txt وارد عمل میشود.
روش ایجاد
برای ایجاد یک فایل متنی ربات میتوانید تقریباً از هر ویرایشگر متنی استفاده کنید. به عنوان مثال، Notepad، TextEdit، vi و emacs میتوانند پروندههای معتبر robots. txt ایجاد کنند.
فقط از word برای این کار استفاده نکنید. پردازندههای کلمه اغلب فایلها را در قالب اختصاصی ذخیره میکنند و میتوانند نویسههای غیر منتظرهای را اضافه کنند که این امر میتواند خزندهها را با مشکل مواجه کند. در نهایت هم فایل خود را با فرمت UTF-8 ذخیره کنید.
قوانین قالب و مکان
پرونده باید به صورت robots. txt باشد. فایل متنی ربات باید در ریشههایت وب سایتی که برای آن اعمال میشود قرار داشته باشد.
به عنوان مثال، برای کنترل خزندهها در تمام URLهای زیر https://www.example.com/، فایل robots. txt باید https://www.example.com/robots.txt در محل مشخص شده باشد.
نمیتوان این فایل را در زیر شاخه قرار داد. (به عنوان مثال، در https://example.com/pages/robots.txt).
اگر در مورد چگونگی دسترسی به ریشه وب سایت خود مطمئن نیستید یا برای این کار به مجوز نیاز دارید، با ارائه دهنده خدمات هاست وب خود تماس بگیرید و مشکل خود را مطرح کنید.
اگر نمیتوانید به ریشه وب سایت خود دسترسی پیدا کنید، از یک روش مسدود کردن جایگزین مانند برچسبهای متا استفاده کنید.
یک فایل robots. txt میتواند در زیر دامنهها (به عنوان مثال، https://website.example.com/robots.txt) یا درگاههای غیر استاندارد (به عنوان مثال، http://example.com:8181/robots.txt) اعمال شود)
یک فایل robots. txt باید یک فایل متنی رمزگذاری شده UTF-8 (که شامل ASCII باشد) قرار گیرد.
Google ممکن است نویسههایی را که در محدوده UTF-8 نیستند، نادیده بگیرد و به طور بالقوه قوانین robots. txt را نامعتبر کند.
قوانینی را به پرونده robots. txt اضافه کنید
با تعیین قوانین، خزندههای سایت شما خواهند دانست که در کدام قسمت از سایت شما باید بخزند. هنگام افزودن قوانین به پرونده robots. txt خود، این دستورالعملها را دنبال کنید:
یک فایل robots. txt از یک یا چند گروه تشکیل شده است. هر گروه متشکل از چندین قانون یا بخشنامه یا یک دستورالعمل در هر سطر است.هر گروه با یک خط User-agent شروع میشود که هدف گروهها را مشخص میکند.
هر گروه اطلاعات زیر را میدهد محتوای فایل robots.txt :
- کسانی که گروه از آنها استفاده میکنند (عامل کاربری).
- دسترسی عامل کاربری دایرکتوریها یا پروندهها.
- عامل نمیتواند به دایرکتوریها یا پروندهها دسترسی پیدا کند.
خزنده ها، گروهها را از بالا به پایین پردازش میکنند. یک عامل کاربر میتواند فقط با یک مجموعه از قوانین مطابقت داشته باشد که اولین و خاصترین گروهی است که با یک عامل کاربر مشخص مطابقت دارد.
تصور پیش فرض این است که یک عامل کاربر میتواند هر صفحه یا دایرکتوری را که توسط یک قانونعدم اجازه مسدود نشده است، جستجو کند.
قوانین به حروف کوچک و بزرگ حساس هستند. به عنوان مثال:
Disallow: /file. asp برای https://www.example.com/file.asp اعمال میشود، اما برای https://www.example.com/FILE.asp اعمال نمیشود.
کاراکتر # شروع یک نظر است. خزندههای گوگل از دستورالعملهای زیر در پروندههای robots. txt پشتیبانی میکنند:
user-agent: [در هر گروه یک مورد یا بیشتر الزامی است] این دستورالعمل نام مشتری خودکار را که به عنوان خزنده موتور جستجو شناخته میشود مشخص میکند که قانون در مورد آن اعمال میشود یا خیر.
این اولین خط در هر گروه قانونی است. نام نمایندگان Google در لیست نمایندگان کاربر Google ذکر شده است.
استفاده از ستاره (*) با همه خزندهها مطابقت دارد به جز خزندههای AdsBot که باید صریحاً نامگذاری شوند. مثلا:
# مثال ۱: Block only Googlebot User-agent: Googlebot Disallow: / # مثال ۲: Block only Googlebot and Adsbot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # مثال ۳: Block all but AdsBot crawlers User-agent: * Disallow: /
disallow: [حداقل یک یا چند ورودی را برای هر قاعده مجاز یا غیرمجاز کنید]. این مسدودیت مربوط به فهرست یا صفحهای مرتبط به دامنه است که نمیخواهید در دید عموم قرار گیرد و خزش شود.
اگر این قانون به یک صفحه اشاره دارد، باید همان نام صفحه که در مرورگر نشان داده شده است لحاظ شود.
باید با حرف و / شروع شود و اگر به دایرکتوری اشاره دارد، باید با علامت / پایان یابد.
- allow: [حداقل یک یا چند ورودی را برای هر قاعده مجاز یا ممنوع کنید]. این مربوط به یک دایرکتوری یا صفحه مرتبطت با دامنه میشود که ممکن است توسط عامل کاربری که ذکر شد خزیده شود.
- دستور allow اجازه خزیدن به زیر شاخه یا صفحه در یک فهرست غیر مجاز را میدهد.
- برای یک صفحه، باید نام کامل صفحه همانطور که در مرورگر نشان داده شده است مشخص شود.
- در صورت داشتن فهرست، این دستور باید با علامت / پایان یابد.
- sitemap: [در هر فایل اختیاری ، صفر یا بیشتر] مکان نقشه سایت برای وب سایت را نشان میدهد.
- URL نقشه سایت باید یک URL کاملاً واجد شرایط باشد. Google جایگزین http / https / www. non-www را فرض نمیکند یا بررسی انجام نمیدهد.
- sitemap روش مناسبی برای مشخص کردن محتوای Google است که میتواند فهرست شود.
فایل robots. txt را بارگذاری کنید
پس از ذخیره فایل robots. txt در رایانه، فایل آماده آن است که در دسترس خزندههای موتور جستجو قرار گیرد.
هیچ ابزاری وجود ندارد که بتواند در این زمینه به شما کمک کند، زیرا نحوه بارگذاری فایل robots. txt به سایت شما بستگی به معماری سایت و سرور شما دارد.
با شرکت هاست خود در تماس باشید یا اسناد شرکت هاست خود را جستجو کنید. به عنوان مثال، «آپلود پروندههای infomaniak» را جستجو کنید. پس از بارگذاری فایل robots. txt، بررسی کنید که آیا در دسترس عموم است یا خیر و آیا Google میتواند آن را ایندکس کند یا نه.
تست علامتگذاری robots. txt
برای بررسی زمان آپلود فایل robots. txt، یک صفحه جدید در مرورگر خود باز کنید و به محل فایل robots. txt بروید. به عنوان مثال، https://example.com/robots.txt. اگر محتویات فایل robots. txt خود را مشاهده کردید، فایل آماده آزمایش نشانهگذاری است.
Google دو گزینه برای آزمایش علامتگذاری robots. txt ارائه میدهد:
تستر robots. txt در کنسول جستجو این ابزار را فقط میتوانید برای پروندههای robots. txt که از قبل در سایت شما قابل دسترسی هستند استفاده کنید.
اگر برنامهنویس هستید، کتابخانه منبع آزاد Google robots. txt را که در جستجوی Google نیز استفاده میشود، بررسی و ایجاد کنید. میتوانید از این ابزار برای آزمایش فایلهای robots. txt به صورت محلی در رایانه خود استفاده کنید.
فایل robots. txt را به Google ارسال کنید
هنگامی که پرونده robots. txt خود را بارگذاری و آزمایش کردید، خزندههای Google به طور خودکار فایل robots. txt شما را پیدا کرده و از آن استفاده میکنند. لازم نیست کار اضافهای نیز انجام دهید.
فایل robots. txt چگونه کار میکند ؟
موتورهای جستجو برنامههای کوچکی به نام «عنکبوت» یا «ربات» را برای جستجوی سایت شما و بازگرداندن اطلاعات به موتورهای جستجو ارسال میکنند.
موتورهای جستجو این کار را انجام میدهند تا صفحات سایت شما در نتایج جستجو نمایه شده و توسط کاربران وب پیدا شود.
فایل robots. txt شما به این برنامهها دستور میدهد تا صفحات موجود در سایت خود را که با استفاده از یک دستور «غیر مجاز» تعیین میکنید جستجو نکنند. به عنوان مثال، دستور Robots. txt زیر از این قرار است:
User-agent: Disallow:/ thankyou
بازدید از رباتهای موتور جستجو از صفحه زیر در وب سایت شما را مسدود میکند:
http://www.yoursite.com/thankyou
توجه داشته باشید که قبل از فرمانعدم اجازه، این دستور را دارید:
User-agent: *
قسمت «User-agent:» مشخص میکند که کدام ربات را میخواهید مسدود کنید و همچنین میتواند به شرح زیر باشد:
User-agent: Googlebot Disallow: /
این دستور فقط رباتهای Google را مسدود میکند، در حالی که سایر رباتها هنوز به صفحه دسترسی دارند:
User-agent: Googlebot Disallow: / User-agent: *
با این حال، با استفاده از کاراکتر «*»، مشخص میکنید که دستورات زیر آن مربوط به همه رباتها باشد. پرونده robots. txt شما در فهرست اصلی سایت شما قرار دارد. مثلا:
http://www.yoursite.com/robots.txt
فایل robots.txt برای وردپرس
فایل متنی ربات برای همه نوع سیستم مدیریت محتوا از جمله وردپرس یکی است که میتوانید مراحل بالا را طی کنید.
برای مثال سایت مهدی عراقی : لینک آدرس ربات =
https://mahdiaraqi.com/robots.txt
محتوایات داخل فایل ربات :
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php
جمعبندی و نتیجه گیری
فایل متنی ربات مجموعهای از دستورالعملها است که در اکثر وب سایتها موجود میباشد. فایل robots. txt بیشتر برای مدیریت فعالیت رباتها ی کاربردی مانند خزندههای وب در نظر گرفته شده است. در این مقاله سعی شد تا شما را با ساختار فایل robots.txt آشنای کنیم و حتی اهمیت و کاربرد فایل robots.txt را بیشتر درک کنید.
واقعا عالی بود من برای اینکه خزنده های موتور جستجو بتونن راحت تر مقالات سایت را پیدا کنن حتما باید نقشه سایت را داخل ربات تی ایکس تی اضافه کنم یا خودشون پیدا میکنن و مهم نیست؟
خیلی خوب بود. این فایل خیلی مهم هست و یه سئوکار حرفهای باید از کدهای داخل این فایل کامل اطلاعات و دسترسی داشته باشه.