Robot.txt چیست

ارسال شده در
Robot.txt چیست

اینکه موتورهای جستجو مرتب سایت شما را بررسی کرده و محتوای شما را ایندکس می‌کنند عالی است، اما مواقعی وجود دارد که بخشی از محتوای آنلاین ایندکس شده مدنظر شما نبوده است. برای مثال اگر دو نسخه از یک صفحه داشته باشید (یک نسخه برای مشاهده در مرورگر و دیگری برای چاپ)، بهتر است که نسخه مخصوص چاپ را حذف کنید، در غیراینصورت ممکن است مشمول جریمه محتوای تکراری شوید. همچنین اگر داده‌های حساسی دارید که نمی‌خواهید ایندکس شده و جهان آنها را مشاهده کنند (اگرچه بهترین روش آن است که این داده‌ها را به صورت آفلاین نگهداری کنید). همچنین اگر می‌خواهید پهنای باند را با حذف تصاویر و کدهای جاوا اسکریپت ذخیره کنید، در تمام موارد فوق باید به اسپایدارهای موتورهای جستجو بگویید که این موارد را بررسی نکنند.

بهترین روش برای این کار استفاده از فایل robots.txt است. robots.txt فایل متنی (و نه html) است که در سایت خود قرار می‌دهید و به ربات‌های جستجو می‌گویید که نمی‌خواهید کدام صفحات دیده شوند. قرار دادن این فایل مانند قرار دادن تابلوی «لطفاً وارد نشوید» روی در قفل می‌باشد.

محل قرار گرفتن robots.txt بسیار مهم است. باید در دایرکتوری اصلی باشد چون در غیراین صورت عاملین کاربر (موتورهای جستجو) قادر به پیدا کردن آن نخواهند بود. اگر در دایرکتوری اصلی این فایل پیدا نشود، اسپایدرها هر فایلی که در این مسیر پیدا کنند ایندکس می‌کنند.

ساختار فایل robots.txt

ساختار این فایل بسیار ساده (و غیرمنعطف) است. دستور نگارش این فایل به صورت زیر است:

 :User-agent

:Disallow

«User-agent» کرالرهای موتورهای جستجو هستند و «disallow» فایل‌ها و دایرکتوری هایی که قرار است از ایندکس شدن حذف شوند، فهرست می‌کند. همچنین می‌توانید چندین خط نظر با قرار دادن علامت # در ابتدای خط بگنجانید:

 .All user agents are disallowed to see the /temp directory#

*:User-agent

/Disallow:/temp

دام‌های فایل robots.txt

اشتباهات رایج شامل تایپ اشتباه و دستورات متضاد می‌شود. مشکل جدی تر مربوط به خطاهای منطقی است. برای مثال:

*:User-agent

/Disallow: /temp

User-agent: Googlebot

/Disallow: /images

/Disallow: /temp

/Disallow: /cgi-bin

مثال فوق به تمام عاملین اجازه دسترسی به همه چیز به جز دایرکتوری /temp/ را می‌دهد.

ابزارهایی برای تولید و معتبرسازی فایل robots.txt

دستور نگارش ساده این فایل را به خاطر بیاورید، همیشه می‌توانید آن را بخوانید و از صحیح بودن آن اطمینان حاصل کنید اما ابزاری مانند http://tool.motoricerca.info/robots-checker.phtml می‌تواند این کار را ساده تر سازد.

Robot.txt چیست
  • Robot.txt چیست
۵

خلاصه

Robot.txt چیست ؟؟؟ robots.txt فایل متنی است که در سایت خود قرار می‌دهید و به ربات‌های جستجو می‌گویید که نمی‌خواهید کدام صفحات دیده شوند

مطالب مرتبط

مطالب قبلی و بعدی

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

7 − 3 =