تهران، سیدخندان به سمت رسالت شرق، خیابان کابلی (دبستان)، نبش کوچه آگاهی، پلاک ۴ ، واحد ۱۵
۰۹۱۲۰۱۹۹۳۸۶   ۰۲۱۸۸۴۷۱۵۲۱

ایجاد Robots.txt و خلاقیت در استفاده از آن

ایجاد Robots.txt

ایجاد Robots.txt

در این مقاله تعدادی از بایدها و نبایدهایی که در هنگام استفاده از فایل Robots.txt و ایجاد آن باید در نظر گرفته شوند آورده شده است و همچنین مثال‌هایی از چند نمونه خلاقیت‌های گوناگون که کمپین‌های مختلف در استفاده از این فایل به کار گرفته‌اند آورده شده است.
یکی از خسته‌کننده ترین و کسل‌کننده ترین بخش‌ها و موضوعات در زمینه سئو استفاده از robots.txt و ایجاد این فایل می‌باشد. وظیفه فایل robots.txt محدود کردن دسترسی روبات‌های گوگل و سایر موتورهای جستجو به محتویات سایت شما می‌باشد. عملکرد این روبات‌ها به‌صورت کاملا اتوماتیک بوده و قبل از ورود به هر سایت یا صفحه‌ای از وجود یا عدم وجود فایل robots.txt بر روی آن و محدود نبودن دسترسی به محتوای آن صفحه مطمئن می‌شوند. تمامی روبات‌های استاندارد در اینترنت به این قوانین و محدودیت‌ها احترام گذاشته و صفحات شما را بدون اجازه شما بازدید و یا اندیس گذاری نخواهند کرد.
دقت داشته باشید که روبات‌های اسپم توجهی به این فایل نخواهند داشت و وجود یا عدم وجود آن تاثیری در عملکرد آن‌ها نخواهد داشت. پس شما اگر تمایل به حفظ امنیت محتوایی خاص و پنهان کردن آن از دید روبات‌های اینترنتی دارید بهتر است از پسورد گذاری صفحات استفاده کنید.
در عمل استفاده از فایل robots.txt به شما این امکان را می‌دهد که صفحات سایت را تنها مختص کاربران اینترنتی طراحی کرده و ترسی از محتوای تکراری یا Duplicated content، وجود لینک‌های بسیار در آن صفحه و تاثیر منفی بر سئو سایت نداشته باشید. همچنین به شما این امکان را می‌دهد که صفحات بی‌ارزش و کم محتوا را از دید موتورهای جستجوگر پنهان نمایید تا از اتلاف زمان روبات‌ها در سایت شما برای اندیس گذاری کردن این صفحات جلوگیری گردد.
شما تنها زمانی که قصد محدود کردن روبات‌های گوگل را داشته باشید و بخواهید صفحه یا صفحات مشخصی از سایت شما اندیس گذاری نشوند از فایل robots.txt استفاده می‌کنید و اگر از نظر شما تمام صفحات سایت قابلیت و ارزش ایندکس گذاری شدن توسط گوگل و دیگر موتورهای جستجوگر را داشته باشند نیازی به این فایل نخواهید داشت. حتی قرار دادن یک فایل خالی با همین نام نیز لزومی ندارد.

بخش‌های اصلی یک فایل robots.txt

  • User-agent : این دستور برای تعیین اینکه کدام ربات‌ها امکان دسترسی به سایت شما را داشته باشند و کدام ربات‌ها نداشته باشند مورد استفاده قرار می‌گیرد.
  • Disallow : این دستور برای تعیین آدرس صفحاتی که می‌خواهید ربات‌ها آن‌ها را کراول و اندیس گذاری ننمایند استفاده می‌شوند.
  • Allow : این دستور برای اجازه دادن به ربات برای کراول کردن یک محل مشخص استفاده می‌گردد.
  • Crawl-delay: دستوری است که به ربات می‌گوید پیش از ادامه دادن مراحل بعدی کراول به تعداد ثانیه‌های مشخصی مکث کند.
  • Sitemap : این دستور محل یا درواقع لینک نقشه سایت را مشخص می‌نماید و به ربات‌ها می‌گوید که نقشه سایت در چه آدرسی قرار دارد.
  • Noindex: این دستور بدین منظور مورداستفاده قرار می‌گیرد که به موتورهای جستجوگر بگوییم که برخی از صفحاتی را که اندیس گذاری شده‌اند حذف نمایند.
  • # : این دستور یک خط مشخص را کامنت می‌کند و لذا آن خط خوانده نمی‌شود.
  • * : این دستور نشان‌دهنده تعداد حروف کلمات است.
  • $ : این دستور منطبق با پایان URL است.

شما می‌توانید با قرار دادن نام هریک از ربات‌ها به‌عنوان User-agent قوانین مشخصی برای آن‌ها تعریف کنید و یا اگر می‌خواهید که قانون خاصی را برای تمامی ربات‌ها اعمال کنید می‌توانید با استفاده از کاراکتر * به‌جای نام ربات موردنظر در جلوی دستور User-agent در فایل robots.txt یک قانون را برای همه روبات ها اعمال کنید؛ مانند:

User-agent: *
Disallow: /folder1/

موتور جستجوگر گوگل چندیدن نوع روبات متفاوت برای کاربردهای متفاوت دارد که معروف‌ترین آن‌ها Googlebot می‌باشد و وظیفه اصلی این ربات بررسی و اندیس گذاری نمودن صفحات وب می‌باشد. روبات Gogglebot-image یکی دیگر از ربات‌های گوگل است که مسئول بررسی تصاویر سایت‌ها و اندیس گذاری کردن آن‌ها می‌باشد. برای مثال شما برای محدود کردن ربات Googlebot می‌توانید به‌صورت زیر عمل کنید :

User-Agent: Googlebot
Disallow: /folder2/

شما می‌توانید با استفاده از روش‌های مختلف قوانین خود را بر روی هر یک از صفحات وب‌سایت خود اعمال کنید و یا می‌توانید قوانینی را برای یک دسته از صفحات تعیین نمایید. مثال‌های زیر روش‌های مختلف استفاده از این قوانین را نمایش می‌دهند :

  • برای منع دسترسی روبات‌ها به تمام محتویات سایت از کاراکتر / در کنار دستور Disallow استفاده می‌کنیم :
User-Agent: Googlebot
Disallow: /
  • برای منع دسترسی ربات‌ها به یک فولدر یا دسته مشخص از سایت نام آن را در جلوی دستور Disallow وارد می‌کنیم :
User-Agent: Googlebot
Disallow: /blog/
  • برای اعمال محدودیت دسترسی روی یک صفحه مشخص آدرس دقیق آن صفحه را بدون نام سایت وارد می‌کنیم :
User-Agent: Googlebot
Disallow: /blog/keyword-planner/
  • برای محدود کردن دسترسی به یک تصویر موجود در آدرس مشخصی بر روی سایت آدرس آن تصویر را به همراه User-agent مربوط به آن وارد می‌کنیم :
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
  • اگر بخواهیم تمام تصاویر موجود بر روی سایت از دید موتورهای جستجوگر مخفی بمانند از دستور زیر استفاده می‌نماییم :
User-agent: Googlebot-Image
Disallow: /
  • همچنین اگر بخواهیم یک نوع فایل (فایل‌های دارای فرمت مشخص) مشخص را از دید موتورهای جستجوگر مخفی نگه داریم، به‌عنوان مثال تصاویری با فرمت gif را از دسترس موتورهای جستجوگر خارج کنیم باید از دستورات زیر استفاده نماییم :
User-agent: Googlebot
Disallow: /*.gif$

سایر نکات درباره robots.txt

  • فایل txt باید در فولدر اصلی قرار گیرد، برای مثال شما باید به فرم زیر عمل کنید :

Robots.tet/نام دامنه برای مثال اگر نام دامنه شما samin.com باشد فایل robots.txt باید در آدرس samin.com/ robots.txt قرار گیرد.

  • هر SubDomain یا زیر دامنه نیاز به یک فایل txt مجزا دارد و وجود یک فایل robots.txt برای کل سایت کافی نیست. برای مثال وجود فایل robots.txt در آدرس domain.com/robots.txt نیاز به وجود یک فایل robots.txt در آدرس www.domain.com/robots.txt را پوشش نمی‌دهد.
  • برخی از کراولرها فایل های txt را نادیده می‌گیرند.
  • هم URL ها و هم فایل‌های txt نسبت به بزرگ و یا کوچک بودن حروف حساس هستند (case-sensitive) یعنی برای آن‌ها example.com با example.com متفاوت است.
  • دستور Disallow به کروالرها می‌گوید که به محل‌های خاصی نروند و برخی از محل‌ها را کراول نکنند، حال آنکه برخی افراد فکر می‌کنند که می‌توانند با استفاده از این دستور به کراولر ها بگویند صفحاتی را که قبلا کراول کرده‌اند از میان پایگاه داده خود (از میان صفحات اندیس گذاری شده‌ای که در پایگاه داده خود ذخیره نموده‌اند) حذف نمایند، اما این دستور به هیچ‌وجه نمی‌تواند برای شما چنین کاری انجام دهد.
  • دستور Crawl-delay توسط گوگل به رسمیت شناخته نشده است ولی شما می‌توانید برای مدیریت کراول شدن صفحات خود تنظیمات مربوط به Crawl-delay را در کنسول جستجوی گوگل انجام دهید.
  • از دستور Allow برای CSS و GS استفاده نمایید :
User-Agent: Googlebot
Allow:.js
Allow:.css
  • فایل txt خود را در کنسول جستجوی گوگل (Google Search Console) و بینگ وب مستر تولز (Bing Webmaster Tools) ثبت کنید.
  • برخی از متخصصان در رابطه با دستور Noindex نظرات مختلفی دارند، برخی می‌گویند که می‌توان از این دستور در txt استفاده نمود و استفاده از آن نتایج خوبی دارد، حال آنکه برخی دیگر معتقدند که باید آن را در x-robots و یا meta robots استفاده نمود.
  • هیچ‌گاه برای پیشگیری از جریمه شدن برای محتوای تکراری مانع کراول شدن وب سایت خود نشوید، بیشتر در رابطه با رفتار گوگل با محتواهای تکراری و چگونگی تشخیص اینکه یک محتوا تکراری است یا خیر مطالعه کنید تا بدانید چگونه محتوای سایت خود را ایجاد کنید که از جانب گوگل به‌عنوان یک محتوای تکراری در نظر گرفته نشود.
  • هیچ‌گاه از دستور Disallow برای صفحاتی که ریدایرکت شده‌اند استفاده ننمایید، در صورتی که چنین اقدام اشتباهی را انجام دهید اسپایدر های موتورهای جستجوگر قادر به دنبال کردن مسیر ریدایرکت ها نخواهند بود.
  • استفاده از دستور Disallow برای صفحات مانع از آن می‌شود که ورژن های قدیمی‌تر صفحات در org نمایش داده شوند.
  • شما می‌توانید در org به دنبال ورژن های قدیمی‌تر robots.txt بگردید، برای این کار تنها کافیست که در کادر مخصوص به URL عبارت domain.com/robots.txt را تایپ کنید. (به جای Domain.com نام دامنه خودتان را باید بنویسید)
  • ماکزیمم سایز برای فایل txt می‌تواند ۵۰۰ کیلو بایت باشد.

خلاقیت در ایجاد Robots.txt

بسیاری از وب سایت های مشهور کارهای بسیار خلاقانه‌ای در فایل robots.txt انجام می‌دهند و اشکالی بسیار خلاقانه‌ای در فایل robots.txt خود ایجاد می‌نمایند، برای مثال به نمونه‌های زیر توجه کنید:

  • برای مثال اگر شما به فایل txt کمپانی نایک در آدرس nike.com/robots.txt مراجعه نمایید می‌بینید که در فایل robots.txt وب‌سایت نایک لوگوی آن‌ها به شکل زیر درون فایل robots.txt طراحی شده است:
[us_single_image image=”10966″ align=”center”]
  • وب سایت (seer (http://www.seerinteractive.com نیز در فایل txt خود که در آدرس seerinteractive.com/robots.txt قرار دارد طرح جالبی را پیاده سازی کرده است:
[us_single_image image=”10967″ align=”center”]

آن‌ها همچنین پیام جالبی را برای کسانی که (این فایل برای ربات ها طراحی شده و احتمال مراجعه افراد به آن کم است) به طور اتفاقی یا بنا به دلیلی این فایل را مورد بررسی قرار می‌دهند در فایل robots.txt خود قرار داده‌اند که متن آن “why are you looking at this human? Perhaps try this instead:

http://www.seerinteractive.com/careers”

معنی این پیام این است:  اگر تو یک انسان هستی چرا داری به این فایل نگاه می‌کنی؟ به‌جای این کار به این لینک مراجعه کن:http://www.seerinteractive.com/careers”

فایل Human.txt

فایل human.txt نیز همانند فایل robots.txt یک فایل txt است با این تفاوت که فایل robots.txt برای روبات‌ها تولید می‌شود اما فایل human.txt برای انسان‌ها و در فایل human.txt توضیحات اولیه‌ای درباره افرادی که آن وب‌سایت را ایجاد کرده‌اند نوشته‌شده است. من فایل human.txt برخی از دامنه‌های بسیار مشهور را صرفا برای کنجکاوی خود بررسی نمودم و از دیدن فایل human.txt برخی از وب سایت ها بسیار شگفت زده شدم. برای مثال شما می‌توانید فایل human.txt وب سایت گوگل را در آدرس https://www.google.com/humans.txt بیابید.

ایجاد robots.txt برای شوخی با کاربران

در یکی از بررسی‌هایم در زمینه فایل robots.txt در یک وب سایت با مورد بسیار جالبی برخورد کردم. با مراجعه به آدرس http://ohgm.co.uk/robots.txt شما نیز می‌توانید این فایل robots.txt را مشاهده نمایید. دستورات درون این فایل اندکی عجیب به نظر می‌رسیدند:

User-agent: *
Disallow: /

همان‌طور که شما می‌دانید این دستورات موجب می‌شود که هیچ موتور جستجوگری به هیچ صفحه‌ای از وب سایت شما دسترسی نداشته باشد!

اما با اندکی کندوکاو راز این فایل robots.txt عجیب را کشف کردم، این فایل در واقع هیچ ارزشی از لحاظ کد نویسی ندارد و تنها برای شوخی کردن با کاربران طراحی شده است. شاید این فایل robots.txt در نظر اول کاملا عادی و نرمال به نظر برسد و به نظر برسد که این شخص تمام کراولرها را بلاک کرده است اما حقیقت چیز دیگری است.

مساله اصلی آن است که این فرد خط اول این فایل را با کاراکترهای BOM (byte order mark) ایجاد و ذخیره سازی کرده است و این کار موجب می‌شود که خط اول غیر معتبر شود و خط دوم که دستور مربوط به Disallow می‌باشد نتواند به User-Agent مشخصی ارجاع دهد و در کل کد غیر فعال شود. با ارزیابی این فایل در کنسول جستجوی گوگل (Google Search Console) می‌توان به راز این فایل robots.txt پی برد.

[us_single_image image=”10969″ align=”center”]

صفحاتی که اندیس گذاری شده‌اند اما عملا وجود ندارند

اگر شما عبارت “World’s Greatest SEO,” را در گوگل جستجو نمایید در صفحه SERP مطلبی از وب سایت آقای مت کاتز (http://www.seomofo.com/ ) مشاهده می‌کنید که عملا آن مطلب وجود ندارد. وب سایت SEO Mofo در هنگام انتخاب دایرکتوری (/files) دایرکتوریی را انتخاب کرده است که توسط https://www.mattcutts.com/robots.txt بلاک شده است. تنها اطلاعاتی که گوگل درباره این صفحه دارد لینک‌هایی است که به این صفحه که عملا وجود ندارد ارجاع داده‌اند. با وجود آنکه ریدایرکت ۴۰۴ برای این لینک استفاده شده است، گوگل همچنان آن را با استفاده از انکر تکست هایی که به این لینک ارجاع می‌دادند نمایش می‌دهد.

دیدگاه ‏خود را بنویسید