Search engine जैसे Google या Bing एक किस्म के program को use करते हैं जो internet पर मौजूद website पर जाकर जरुरी information को collect करता है और एक website से दुसरे website पर जाता रहता है।
इस तरह के programs को spider, web crawlers, bot या robot कहा जाता है। Internet के शुरुआती दौर में जब computing power और memory काफी costly होती थी। कुछ website owner उस समय के search engine के इन crawlers से काफी परेशान हो गए।
क्योंकि तब website कम होती थी। और robot बार बार website को visit करते थे। जिससे उनके server असली इन्सानी visitor को website नहीं दिखा पाते थे। और website के resource खत्म हो जाते थे।
इस समस्या से निपटने के लिए कुछ लोगों ने robot.txt का idea दिया जो search engine या किसी भी type के crawler और web robot को ये instruction देंगी कि website के owner website के किस हिस्से पर visit करने कि permission दे रहे हैं और किस हिस्से कि नहीं दे रही हैं।
Robot.txt क्या है
Robot.txt text file होती है। जो website के root folder में होती है। हम एक domain का example लेते हैं।
https://xyz.com, जब भी कोई search engine या robot इस website को visit करेंगा। तो वो सबसे पहले xyz.com/robot.txt को ढुंढेगा। अगर ये file नहीं मिलती है तो कोई issue नहीं है। Robot पुरे website को visit करके उसके किसी भी part को अपने हिसाब से index करेंगा या information store कर लेंगा।
अगर xyz/robot.txt पर file मिलती है तो उसे पढेंगा फिर technically उसके instruction को follow करेंगा। सही शब्दों में data aggregators, email gather करने वाले bots, hackers के बनाए हुए search bot instruction को ठेंगा दिखाकर आगे बढ़ जाते हैं।
Robot.txt के बारे में कुछ मुख्य बांते क्या है
तो यहां पर हमें कुछ बांते clear हो जाती है।
1. Robot.txt एक text file होती है। 2. Robot.txt हमेशा website के root folder में होती है। 3. इसका नाम हमेशा robot.txt होता है। ये capital letter में नहीं होंगा। Name हमेशा case sensetive होंगा। 4.किसी website की robot.txt file को उसके domain name के आगे robot.txt लगाकर देख सकते है। 5. इस file में दिए हुए instruction को कोई robot मानेंगा या नहीं मानेंगा इस बात की कोई guarantee नहीं है। बाकी search engine çompany जैसे Google, Bing, Yahoo, yendex इस instruction को follow करती है। पर छोटे search engine, data aggregators इस instruction को कभी follow नहीं करते।
इस file में क्या होता है
=============================
User-agent:*
Disallow
============================== ये robot.txt file का minimum content है , अगर आप सभी search engine को अपने website के सभी pages तक जाने देना चाहते है तो आपकी robot.txt file में सिर्फ इतना ही होना चाहिए।
इस text file की जो पहली लाईन है, user-agent: और ये * का मतलब है कि सभी प्रकार के search engine के bot के लिए instruction है। Normally web technologies में * का मतलब wild card होता है।
इसके दुसरी लाईन में है disallow:, इसमें disallow के आगे कुछ भी नहीं है। इसका मतलब है हुआ कि किसी भी तरह के search engine robot के लिए website का कोई भी हिस्सा disallow यानी banned नहीं है।
अगर इस disallow के आगे / ( forward slash ) लगा हुआ हो तो इसका मतलब कि Root directory कि सारी file disallow है। ध्यान रहे किसी भी website के domain में / लगाने के बाद ही उसका link बना पाते हैं।
Home page भी / के बाद index.html या index.php होती है। Browser उसे show नहीं करते। अगर आप disallow के / लगा देते हैं तो आप अपनी website की सभी file को search engine के लिए block कर रहे हैं।
अगर आप किसी खास search engine को ही अपने website पर block करना चाहते हैं तो इस file की जो first line हैं, user-agent: * यहां पर wild card कि जगह उस search engine bot का नाम दे सकते हैं। और फिर अपना instruction निचे लिंक सकते हैं।
=============================
User-agent: Googlebot
Disallow
============================== सारे major search engine bot का नाम या user agent अलग होता है। जैसे Google का है Googlebot, yahoo का sleep, Microsoft search का msnbot है।
अगर आप सारे user agent की list देखना चाहते हैं तो इस page पर जाकर देख सकते है। https://www.robotstxt.org/db.html
Robot.txt का use seo में क्यो जरुरी है
वर्तमान में India में Google web traffic का 98% से भी ज़्यादा Handel करता है। Google हर website को crawl budget alott करता है। जो ये decide करता है की Google का हर bot आपकी Website को कितनी बार visit करेंगा।
ये crawl budget दो चीजो पर depend करता है।
1. आपका server crawl करते समय slow तो नहीं हो रहा। ऐसा तो नहीं होता है कि जब Google robot आपके website को visit करता है तो उस समय website की जो real visitor है उनके लिए आपकी website slow हो जाए।
2. आपकी website कितनी popular है। ज्यादा popular website, जिन पर ज्यादा content होता है, उन्हें Google ज्यादा visit करना चाहता हैं। ताकि वो content के साथ अपने आप को ज्यादा update रख सके।
- तो अगर आप चाहते हैं कि आपकी website Google के इस crawl budget का सदुपयोग करें तो आप robot.txt से अपनी website के unimportant pages को block कर सकते हैं। जैसे login page, internal link के documents. वाला folder या page, पुराने duplicate वाले pages इन सभी को Googlebot के disallow करके crawl budget को important pages को बचाकर रख सकते हैं।
- Robot.txt से आप अपने website के under maintenence वाले part को index होने से रोक सकते हैं।
- अगर आपकी website में कोई ऐसा हिस्सा है जो company के employees के लिए है। जिसे आप publicly search में नहीं दिखाना चाहते हैं। उसे भी robot.txt file में block कर सकते हैं।
उदाहरण के लिए मान लेते हैं कि आपकी website xyz.com और उसमें folder है sample, sample का एक page है Sample.html, इस sample folder की सारी file को search engine से छुपाने के लिए आप robot.txt में यह code enter करेंगे। ≠========================
User-agent:*
Disallow: /sample
===========================
और sample.html को छुपाने के लिए इस code को use करेंगे
≠========================
User-agent:*
Disallow: /sample.html
===========================
इसके अलावा robot.txt से आप search robot को अपनी website का sitemap link भी दे सकते हैं। जिसके लिए आपको यह line जोडनी होंगी।
≠==========================
Sitemap: https://xyz.com/sitemap.xml
===========================
आप अपनी robot.txt file में एक delay timer लगा सकते हैं। जिससे search engine robot एक page को crawl करने के बाद दुसरे page को crawl करने से पहले कुछ देर wait करेंगे। ये wait time या crawl का delay by default millisecond में तय किया जा सकता है। इसके लिए आपको यह code अपने robot.txt file में देना होंगा।
≠==========================
Crawl-delay: 10
===========================
इस 10 का मतलब हुआ की crawler एक page को crawl करने के बाद 10 millisecond रुकेंगा और दुसरे page पर जाएंगा। जिससे आपकी server को एक breathing room मिल जाएंगा। और आपकी site suddenly slow नहीं होंगी।
Robo.txt कैसे बनाएं
अपने website के लिए robo.txt बनाने के लिए आप generate XML sitemap की site जाए। इसमें अपने website का url enter करे और generate XML sitemap पर click करे। Click करते ही robot.txt generate होंगा।
Robot.txt Website में कैसे add करें
Robot.txt को website में add करने के लिए आपको blogger के dashboard में आना होंगा। इसमें right side में menu options पर click करने पर कुछ लिस्ट open होगी। इसमें setting पर click करे। इससे setting का page open हो जाएंगा।
इसमें crawlers and indexing option में enable custom robot.txt को on करें और custom robot.txt पर click करे। Click करने पर एक window open होंगी। इसमें अपने जो robot.txt generate किया होगा उसे इसमें paste करें और save पर click करे।
Read > blogger basic setting कैसे करें
अन्तिम शब्द
मुझे उम्मीद है कि आपको अपने website के robot.txt को maintain करने में और सही से use करने में मदत करेंगी, और robot.txt क्या है, और इसे कैसे use करें, इसके बारे में आपको जानकारी मिल गई होंगी। यदि आपको ये post अच्छी लगी है तो इसे अपने दोस्तों जरुर शेयर करे।

