Crawl and Indexing Process in Search Engine Full Guide

क्रॉलिंग और इंडेक्सिंग संक्षेप में Full Guide:

खोज इंजनों को अपनी प्राथमिकताओं के बारे में बताकर अपनी वेबसाइट की क्रॉलिंग और अनुक्रमण प्रक्रिया पर नियंत्रण रखें।

इससे उन्हें यह समझने में मदद मिलती है कि आपकी वेबसाइट के किन हिस्सों पर ध्यान केंद्रित करना है और किन हिस्सों को अनदेखा करना है। ऐसा करने के लिए कई तरीके हैं, तो किस विधि का उपयोग कब करें?

इस लेख में हम चर्चा करेंगे कि प्रत्येक विधियों का उपयोग कब करना है, और हम पेशेवरों और विपक्षों पर प्रकाश डालेंगे।

विषयसूची

क्रॉलिंग कैसे काम करता है?
अनुक्रमण कैसे काम करता है?
क्रॉलिंग और इंडेक्सिंग पर नियंत्रण कैसे करें
क्रॉलिंग और इंडेक्सिंग को नियंत्रित करने के तरीके
रोबोट्स.txt
रोबोट निर्देश
कैननिकल यूआरएल
हरेफ्लांग विशेषता
पृष्ठांकन विशेषताएँ
मोबाइल विशेषता
वेबमास्टर टूल्स में पैरामीटर हैंडलिंग
HTTP प्रमाणीकरण
खोज इंजन के रूप में प्राप्त करें: स्वयं को उनके स्थान पर रखना
क्रॉलिंग और अनुक्रमण के बारे में अक्सर पूछे जाने वाले प्रश्न

सर्च इंजन हर दिन अरबों पेज क्रॉल करते हैं। लेकिन वे इससे कम पृष्ठों को अनुक्रमित करते हैं, और वे अपने परिणामों में और भी कम पृष्ठ दिखाते हैं। आप चाहते हैं कि आपके पृष्ठ उनमें से हों। तो, आप इस पूरी प्रक्रिया को कैसे नियंत्रित करते हैं और अपनी रैंकिंग में सुधार कैसे करते हैं?

उस प्रश्न का उत्तर देने के लिए, पहले हमें यह देखना होगा कि क्रॉलिंग और अनुक्रमण प्रक्रिया कैसे काम करती है। फिर हम उन सभी विधियों पर चर्चा करेंगे जिन्हें आप इस प्रक्रिया को नियंत्रित करने के लिए अपना सकते हैं।

क्रॉलिंग कैसे काम करता है?

खोज इंजन के क्रॉलर को अधिक से अधिक URL खोजने और क्रॉल करने का काम सौंपा जाता है। वे ऐसा यह देखने के लिए करते हैं कि क्या वहां कोई नई सामग्री है। ये यूआरएल नए और यूआरएल दोनों हो सकते हैं जिनके बारे में वे पहले से जानते थे। नए URL उन पृष्ठों को क्रॉल करके पाए जाते हैं जिन्हें वे पहले से जानते थे। क्रॉल करने के बाद, वे अपने परिणाम इंडेक्सर को देते हैं। जिन पेजों को सर्च इंजन को क्रॉल करने की अनुमति होती है, उन्हें अक्सर क्रॉल करने योग्य कहा जाता है ।

अनुक्रमण कैसे काम करता है?

अनुक्रमणिका को क्रॉलर से URL की सामग्री प्राप्त होती है। इसके बाद इंडेक्सर्स इसका विश्लेषण करके इस सामग्री को समझने की कोशिश करते हैं (लिंक सहित, यदि कोई हो)। अनुक्रमणिका विहित URL को संसाधित करती है और प्रत्येक URL के अधिकार को निर्धारित करती है। अनुक्रमणिका यह भी निर्धारित करती है कि उन्हें किसी पृष्ठ को अनुक्रमित करना चाहिए या नहीं। जिन पेजों को सर्च इंजन को इंडेक्स करने की अनुमति होती है, उन्हें अक्सर इंडेक्सेबल कहा जाता है ।

क्रॉल किए जाने के बाद एक पेज इंडेक्सर्स को फॉरवर्ड किया जाता है।

इंडेक्सर वेब पेज भी प्रस्तुत करते हैं और जावास्क्रिप्ट निष्पादित करते हैं । यदि इसके परिणामस्वरूप कोई लिंक मिलता है, तो ये क्रॉलर को वापस भेज दिए जाते हैं।

क्रॉलिंग और इंडेक्सिंग पर नियंत्रण कैसे करें

खोज इंजन के लिए अपनी प्राथमिकताएं स्पष्ट करके क्रॉलिंग और अनुक्रमण प्रक्रिया पर नियंत्रण रखें। ऐसा करके, आप उन्हें यह समझने में मदद करते हैं कि आपकी वेबसाइट के कौन से अनुभाग आपके लिए सबसे महत्वपूर्ण हैं।

इस अध्याय में हम उन सभी विधियों को शामिल करेंगे जिनका उपयोग कब करना है। हमने यह बताने के लिए एक तालिका भी रखी है कि वे क्या कर सकते हैं और क्या नहीं।

आइए पहले कुछ अवधारणाओं की व्याख्या करें:

क्रॉल करने योग्य: क्या खोज इंजन URL को क्रॉल करने में सक्षम हैं?
इंडेक्सेबल: क्या सर्च इंजन को यूआरएल को इंडेक्स करने के लिए प्रोत्साहित किया जाता है?
डुप्लिकेट सामग्री को रोकता है: क्या यह विधि डुप्लिकेट सामग्री समस्याओं को रोकती है ?
संकेतों को समेकित करता है: क्या खोज इंजनों को URL की सामग्री और लिंक द्वारा परिभाषित सामयिक प्रासंगिकता और URL प्राधिकरण संकेतों को समेकित करने के लिए प्रोत्साहित किया जाता है?

इसके अलावा, यह समझना महत्वपूर्ण है कि क्रॉल बजट क्या है। क्रॉल बजट वह समय है जो खोज इंजन के क्रॉलर आपकी वेबसाइट पर खर्च करते हैं। आप चाहते हैं कि वे इसे बुद्धिमानी से खर्च करें, और आप उन्हें इसके लिए निर्देश दे सकते हैं।

क्रॉलिंग और इंडेक्सिंग को नियंत्रित करने के तरीके

Crawlable Indexable Prevents duplicate content Consolidates signals

रोबोट्स.txt メメ ✔ メ

रोबोट निर्देश

(मेटा और एचटीटीपी हेडर) ✔ メ ✔ メ

कैननिकल

(लिंक और एचटीटीपी हेडर) ✔ メ ✔ ✔

हरेफ्लांग विशेषता ✔ ✔ ✔ メ

पृष्ठांकन विशेषताएँ ✔ ✔ ✔ ✔

मोबाइल विशेषता ✔ ✔ ✔ メ

वेबमास्टर उपकरण メメ ✔ ✔

HTTP प्रमाणीकरण メメ ✔ メ

कौन से पेजों को क्रॉल और इंडेक्स करना है, यह पता लगाने में सर्च इंजन ठीक-ठाक हैं, लेकिन अक्सर यह अनुशंसा की जाती है कि क्रॉलिंग और इंडेक्सिंग प्रक्रिया के बारे में अपनी प्राथमिकताएं उन्हें बताएं। फिर वे जानते हैं कि क्रॉलिंग के दौरान किन पृष्ठों पर ध्यान केंद्रित करना है और किन पृष्ठों को अनदेखा करना है, जिससे बाद में अनुक्रमण के दौरान अधिक ध्यान केंद्रित होता है और कम जंक पृष्ठों को अनुक्रमित किया जाता है।

रोबोट्स.txt

robots.txt फ़ाइल एक केंद्रीय स्थान है जो क्रॉलर के लिए बुनियादी बुनियादी नियम प्रदान करता है । हम इन जमीनी नियमों को निर्देश कहते हैं । यदि आप क्रॉलर को कुछ URL क्रॉल करने से रोकना चाहते हैं, तो आपका robots.txt ऐसा करने का सबसे अच्छा तरीका है।

यदि क्रॉलर को किसी URL को क्रॉल करने और उसकी सामग्री का अनुरोध करने की अनुमति नहीं है, तो अनुक्रमणिका कभी भी इसकी सामग्री और लिंक का विश्लेषण नहीं कर पाएगा। यह डुप्लिकेट सामग्री को रोक सकता है, और इसका अर्थ यह भी है कि विचाराधीन URL कभी भी रैंक नहीं कर पाएगा। साथ ही, जब वे यह नहीं जानते कि पृष्ठ पर क्या है, तो खोज इंजन सामयिक प्रासंगिकता और प्राधिकरण संकेतों को समेकित नहीं कर पाएंगे। इसलिए वे संकेत खो जाएंगे।

robots.txt का उपयोग करने का एक उदाहरण

साइट का व्यवस्थापक अनुभाग इस बात का एक अच्छा उदाहरण है कि आप क्रॉलर को उस तक पहुंचने से रोकने के लिए robots.txt फ़ाइल को कहां लागू करना चाहते हैं। मान लें कि व्यवस्थापक अनुभाग इस पर रहता है: https://www.example.com/admin/.

अपने robots.txt में निम्न निर्देश का उपयोग करके क्रॉलर को इस अनुभाग तक पहुँचने से रोकें:

Disallow: /admin

अपनी robots.txt फ़ाइल नहीं बदल सकते? फिर रोबोट्स नोइंडेक्स निर्देश को /adminअनुभाग पर लागू करें।

महत्वपूर्ण नोट

कृपया ध्यान दें कि जिन URL को खोज इंजन द्वारा क्रॉल किए जाने की अनुमति नहीं है, वे अभी भी खोज परिणामों में दिखाई दे सकते हैं। ऐसा तब होता है जब URL अन्य पृष्ठों से लिंक किए जाते हैं, या robots.txt के माध्यम से पहुंच से बाहर होने से पहले ही खोज इंजन के लिए जाने जाते थे। तब खोज इंजन इस तरह एक स्निपेट प्रदर्शित करेंगे:

Robots.txt मौजूदा डुप्लीकेट सामग्री समस्याओं का समाधान नहीं कर सकता है। खोज इंजन किसी URL को केवल इसलिए नहीं भूलेंगे क्योंकि वे उस तक नहीं पहुंच सकते।

किसी ऐसे URL में एक कैननिकल यूआरएल या मेटा रोबोट्स नोइंडेक्स विशेषता जोड़ने से जिसे robots.txt के माध्यम से ब्लॉक किया गया है, इसे डीइंडेक्स नहीं किया जाएगा। खोज इंजन को आपके डीइंडेक्सिंग के अनुरोध के बारे में कभी पता नहीं चलेगा, क्योंकि आपकी robots.txt फ़ाइल उन्हें पता लगाने से रोक रही है।

आपकी वेबसाइट पर क्रॉल बजट को अनुकूलित करने के लिए robots.txt फ़ाइल एक आवश्यक उपकरण है। robots.txt फ़ाइल का उपयोग करके, आप खोज इंजनों को अपनी वेबसाइट के उन हिस्सों को क्रॉल न करने के लिए कह सकते हैं जो उनके लिए अप्रासंगिक हैं।

robots.txt फ़ाइल क्या करेगी:

खोज इंजन को अपनी वेबसाइट के कुछ हिस्सों को क्रॉल करने से रोकें, जिससे क्रॉल बजट सुरक्षित रहे।
खोज इंजन को अपनी वेबसाइट के कुछ हिस्सों को अनुक्रमित करने से रोकें - यदि उनके लिए कोई लिंक नहीं है।
नई डुप्लिकेट सामग्री समस्याओं को रोकें।

robots.txt फ़ाइल क्या नहीं करेगी:

प्रासंगिकता और अधिकार संकेतों को समेकित करें।
वह सामग्री निकालें जो पहले से अनुक्रमित है*.

* जबकि Google noindex निर्देश का समर्थन करता है और अपनी अनुक्रमणिका से URL निकाल देगा , इस पद्धति का उपयोग करने की अनुशंसा नहीं की जाती है क्योंकि यह एक अनौपचारिक मानक है। यह केवल Google द्वारा समर्थित है और 100% फुलप्रूफ नहीं है। इसका उपयोग केवल तभी करें जब आप रोबोट निर्देशों और प्रामाणिक URL का उपयोग नहीं कर सकते हैं ।

रोबोट निर्देश

मेटा रोबोट्स नोइंडेक्स के साथ क्रॉलिंग और इंडेक्सिंग को नियंत्रित करना।

रोबोट निर्देश खोज इंजनों को निर्देश देते हैं कि पेज को कैसे अनुक्रमित किया जाए, जबकि पेज को आगंतुकों के लिए सुलभ रखा जाए। अक्सर इसका उपयोग खोज इंजनों को कुछ पृष्ठों को अनुक्रमित न करने का निर्देश देने के लिए किया जाता है। जब अनुक्रमण की बात आती है, तो यह प्रामाणिक URL की तुलना में अधिक मजबूत संकेत होता है।

रोबोट निर्देशों को लागू करना आम तौर पर मेटा रोबोट टैग का उपयोग करके इसे स्रोत में शामिल करके किया जाता है। अन्य दस्तावेज़ों जैसे PDF या छवियों के लिए, यह X-Robots-Tag HTTP header.

रोबोट निर्देशों के उपयोग के लिए एक उदाहरण

मान लें कि आपके पास Google AdWords ट्रैफ़िक के लिए दस लैंडिंग पृष्ठ हैं। आपने अन्य पृष्ठों से सामग्री की प्रतिलिपि बनाई और फिर उसे थोड़ा समायोजित किया। आप नहीं चाहते कि इन लैंडिंग पृष्ठों को अनुक्रमित किया जाए, क्योंकि इससे डुप्लीकेट सामग्री संबंधी समस्याएं हो सकती हैं, इसलिए आप noindex विशेषता के साथ robots निर्देश शामिल करें।

महत्वपूर्ण नोट

रोबोट निर्देश आपको डुप्लिकेट सामग्री को रोकने में मदद करते हैं, लेकिन यह किसी अन्य URL के लिए सामयिक प्रासंगिकता और अधिकार का श्रेय नहीं देता है।

खोज इंजनों को किसी पृष्ठ को अनुक्रमित न करने का निर्देश देने के अलावा, रोबोट निर्देश भी खोज इंजन को पृष्ठ को क्रॉल करने से हतोत्साहित करते हैं। इस वजह से कुछ क्रॉल बजट सुरक्षित रहता है.

अपने नाम के विपरीत, robots निर्देश nofollow विशेषता उस पृष्ठ के क्रॉलिंग को प्रभावित नहीं करेगी जिसमें nofollow विशेषता है। हालांकि, जब रोबोट निर्देश nofollow विशेषता सेट की जाती है, तो खोज इंजन क्रॉलर अन्य पृष्ठों को क्रॉल करने के लिए इस पृष्ठ पर लिंक का उपयोग नहीं करेंगे और बाद में इन अन्य पृष्ठों पर अधिकार नहीं देंगे।

रोबोट निर्देश क्या करेंगे:

खोज इंजन को अपनी वेबसाइट के कुछ हिस्सों को अनुक्रमित करने से रोकें।
डुप्लिकेट सामग्री मुद्दों को रोकें।

रोबोट निर्देश क्या नहीं करेंगे:

क्रॉल बजट को बनाए रखते हुए सर्च इंजन को अपनी वेबसाइट के कुछ हिस्सों को क्रॉल करने से रोकें।
अधिकांश प्रासंगिकता और अधिकार संकेतों को समेकित करें।

कैननिकल यूआरएल

कैनोनिकल यूआरएल के साथ क्रॉलिंग और इंडेक्सिंग को नियंत्रित करना।

एक विहित URL खोज इंजन को पृष्ठ के विहित संस्करण का संचार करता है, खोज इंजनों को विहित संस्करण को अनुक्रमित करने के लिए प्रोत्साहित करता है। प्रामाणिक URL स्वयं या अन्य पृष्ठों का संदर्भ दे सकता है। यदि विज़िटर के लिए किसी पृष्ठ के कई संस्करणों तक पहुंच बनाना उपयोगी है और आप चाहते हैं कि खोज इंजन उन्हें एक संस्करण के रूप में मानें, तो कैननिकल URL जाने का रास्ता है। जब एक पृष्ठ विहित URL का उपयोग करते हुए किसी अन्य पृष्ठ का संदर्भ देता है, तो इसकी अधिकांश सामयिक प्रासंगिकता और अधिकार लक्ष्य URL के लिए जिम्मेदार होते हैं।

एक प्रामाणिक URL के उपयोग के लिए एक उदाहरण

मान लें कि आपके पास तीन श्रेणियों में एक उत्पाद के साथ एक ईकामर्स वेबसाइट है। उत्पाद तीन अलग-अलग यूआरएल के माध्यम से सुलभ है। यह आगंतुकों के लिए ठीक है, लेकिन खोज इंजनों को केवल एक URL को क्रॉल और अनुक्रमित करने पर ध्यान केंद्रित करना चाहिए। श्रेणियों में से किसी एक को प्राथमिक श्रेणी के रूप में चुनें, और अन्य दो श्रेणियों को इसके लिए कैननिकलाइज़ करें।

महत्वपूर्ण नोट

सुनिश्चित करें कि उन 301 URL को पुनर्निर्देशित करें जो अब विज़िटर के लिए विहित संस्करण पर किसी उद्देश्य की पूर्ति नहीं करते हैं। यह आपको उनकी सभी सामयिक प्रासंगिकता और अधिकार को विहित संस्करण के लिए जिम्मेदार ठहराने में सक्षम बनाता है। यह अन्य वेबसाइटों को विहित संस्करण से लिंक करने में भी मदद करता है।

एक विहित URL एक निर्देश के बजाय एक दिशानिर्देश है। खोज इंजन इसे अनदेखा करना चुन सकते हैं।

प्रामाणिक URL लागू करने से कोई क्रॉल बजट सुरक्षित नहीं रहेगा, क्योंकि यह खोज इंजनों को पृष्ठों को क्रॉल करने से नहीं रोकता है। यह उन्हें खोज क्वेरी के लिए वापस आने से रोकता है क्योंकि वे URL के प्रामाणिक संस्करण में समेकित होते हैं।

एक कैननिकल यूआरएल क्या करेगा:

खोज इंजन को अपनी वेबसाइट के कुछ हिस्सों को अनुक्रमित करने से रोकें।
डुप्लिकेट सामग्री मुद्दों को रोकें।
अधिकांश प्रासंगिकता और अधिकार संकेतों को समेकित करें।

एक कैननिकल यूआरएल क्या नहीं करेगा:

खोज इंजन को अपनी वेबसाइट के कुछ हिस्सों को क्रॉल करने से रोकें, जिससे क्रॉल बजट सुरक्षित रहे।
प्रामाणिक URL के बारे में अधिक पढ़ना चाहते हैं?

हरेफ्लांग विशेषता

hreflang के साथ क्रॉलिंग और अनुक्रमण को नियंत्रित करना।

rel="alternate" hreflang="x"लिंक विशेषता, या संक्षेप में hreflangविशेषता , का उपयोग खोज इंजनों को यह बताने के लिए किया जाता है कि आपकी सामग्री किस भाषा में है और आपकी सामग्री किस भौगोलिक क्षेत्र के लिए है। यदि आप एक से अधिक क्षेत्रों को लक्षित करने के लिए एक ही सामग्री या समान सामग्री का उपयोग कर रहे हैं, hreflangतो यह सही है। यह आपको अपने पृष्ठों को अपने इच्छित बाजारों में रैंक करने में सक्षम बनाता है।

यह डुप्लिकेट सामग्री को रोकने में मदद करता है, इसलिए आपके द्वारा कार्यान्वित किए जाने पर यूनाइटेड किंगडम और संयुक्त राज्य अमेरिका के लिए समान सामग्री वाले दो पृष्ठ ठीक हैं hreflang। डुप्लिकेट सामग्री एक तरफ, सबसे महत्वपूर्ण बात यह सुनिश्चित करना है कि आपकी सामग्री दर्शकों के साथ गाया जाता है। सुनिश्चित करें कि आपके दर्शक घर जैसा महसूस करते हैं, इसलिए यूनाइटेड किंगडम और यूनाइटेड स्टेट्स के लिए (कुछ हद तक) अलग-अलग टेक्स्ट और विज़ुअल होने की अनुशंसा की जाती है।

hreflang का उपयोग करने का एक उदाहरण

आप प्रत्येक बाजार के लिए उप डोमेन का उपयोग करके कई अंग्रेजी बोलने वाले बाजारों को लक्षित कर रहे हैं। प्रत्येक उप डोमेन में अंग्रेजी सामग्री होती है, जो इसके बाजार के लिए स्थानीयकृत होती है:

www.example.com अमेरिकी मार्केंट के लिए
ca.example.com कनाडा के मार्केंट के लिए
uk.example.com ब्रिटेन के मार्केंट के लिए
au.example.com ऑस्ट्रेलियाई मार्केंट के लिए

प्रत्येक मार्केंट में आप सही पेज के साथ रैंक करना चाहते हैं। यहाँ वह जगह है जहाँ hreflang आता है।

hreflang विशेषता क्या करेगी:

खोज इंजनों को सही सामग्री को सही बाज़ार में रैंक करने में मदद करें।
डुप्लिकेट सामग्री मुद्दों को रोकें।

hreflang विशेषता क्या नहीं करेगी:

खोज इंजन को अपनी वेबसाइट के कुछ हिस्सों को क्रॉल करने से रोकें, जिससे क्रॉल बजट सुरक्षित रहे।
खोज इंजन को अपनी वेबसाइट के कुछ हिस्सों को अनुक्रमित करने से रोकें।
प्रासंगिकता और अधिकार संकेतों को समेकित करें।

पृष्ठांकन विशेषताएँ

rel=prev और rel=next के साथ क्रॉलिंग और इंडेक्सिंग को नियंत्रित करना।

और लिंक विशेषताएँ, संक्षेप rel="prev"में पेजिनेशन विशेषताएँ , खोज इंजनों के लिए पृष्ठों की एक श्रृंखला के बीच संबंधों को संप्रेषित करने के लिए उपयोग की जाती हैं। पेजिनेटेड ब्लॉग आर्काइव पेज या पेजिनेटेड उत्पाद श्रेणी पेज जैसे समान पेजों की श्रृंखला के लिए, पेजिनेशन विशेषताओं का उपयोग करने की अत्यधिक सलाह दी जाती है। खोज इंजन समझेंगे कि पृष्ठ बहुत समान हैं, जो डुप्लिकेट सामग्री के मुद्दों को समाप्त कर देंगे।rel="next"

ज्यादातर मामलों में, खोज इंजन पृष्ठांकित श्रृंखला में पहले वाले की तुलना में अन्य पृष्ठों को रैंक नहीं करेगा।

पेजिनेशन विशेषताएँ क्या करेंगी:

डुप्लिकेट सामग्री मुद्दों को रोकें।
प्रासंगिकता और अधिकार संकेतों को समेकित करें।

पेजिनेशन विशेषताएँ क्या नहीं करेंगी:

खोज इंजन को अपनी वेबसाइट के कुछ हिस्सों को क्रॉल करने से रोकें, जिससे क्रॉल बजट सुरक्षित रहे।
खोज इंजन को अपनी वेबसाइट के कुछ हिस्सों को अनुक्रमित करने से रोकें।
पेजिनेशन विशेषताओं के बारे में अधिक पढ़ना चाहते हैं?

मोबाइल विशेषता

rel=alternate mobile विशेषता के साथ क्रॉलिंग और इंडेक्सिंग को नियंत्रित करना.

rel="alternate"मोबाइल विशेषता, या संक्षेप में मोबाइल विशेषता , किसी वेबसाइट के डेस्कटॉप और मोबाइल संस्करणों के बीच के संबंध को खोज इंजनों से संप्रेषित करती है। यह खोज इंजनों को सही डिवाइस के लिए सही वेबसाइट दिखाने में मदद करता है और प्रक्रिया में डुप्लिकेट सामग्री के मुद्दों को रोकता है।

मोबाइल विशेषता क्या करेगी:

डुप्लिकेट सामग्री मुद्दों को रोकें।
प्रासंगिकता और अधिकार संकेतों को समेकित करें।

मोबाइल विशेषता क्या नहीं करेगी:

खोज इंजन को अपनी वेबसाइट के कुछ हिस्सों को क्रॉल करने से रोकें, जिससे क्रॉल बजट सुरक्षित रहे।
खोज इंजन को अपनी वेबसाइट के कुछ हिस्सों को अनुक्रमित करने से रोकें।

वेबमास्टर टूल्स में पैरामीटर हैंडलिंग

वेबमास्टर टूल्स के साथ क्रॉलिंग और इंडेक्सिंग को नियंत्रित करना।

यदि आप अपनी वेबसाइट में परिवर्तन (जल्दी) करने में असमर्थ हैं, तो आप Google खोज कंसोल और बिंग वेबमास्टर टूल्स में पैरामीटर हैंडलिंग सेट कर सकते हैं। पैरामीटर प्रबंधन परिभाषित करता है कि खोज इंजनों को उन URL के साथ कैसे व्यवहार करना चाहिए जिनमें एक पैरामीटर होता है। इसका उपयोग करके, आप Google और बिंग को कुछ URL को क्रॉल और/या अनुक्रमित न करने के लिए कह सकते हैं।

पैरामीटर हैंडलिंग सेट अप करने के लिए, आपको ऐसे URL की आवश्यकता है जो एक पैटर्न द्वारा पहचाने जाने योग्य हों। पैरामीटर हैंडलिंग का उपयोग केवल कुछ स्थितियों में किया जाना चाहिए, उदाहरण के लिए सत्र डेटा को सॉर्ट करना, फ़िल्टर करना, अनुवाद करना और सहेजना।

महत्वपूर्ण नोट ध्यान

रखें कि इसे Google और बिंग के लिए कॉन्फ़िगर करने से अन्य खोज इंजन आपकी वेबसाइट को कैसे क्रॉल करते हैं, यह प्रभावित नहीं होगा।

पैरामीटर हैंडलिंग क्या करेगा:

खोज इंजन को अपनी वेबसाइट के कुछ हिस्सों को क्रॉल करने से रोकें, जिससे क्रॉल बजट सुरक्षित रहे।
खोज इंजन को अपनी वेबसाइट के कुछ हिस्सों को अनुक्रमित करने से रोकें।
डुप्लिकेट सामग्री मुद्दों को रोकें।
प्रासंगिकता और अधिकार संकेतों को समेकित करें।

कौन सा पैरामीटर हैंडलिंग नहीं करेगा:

आपको अलग-अलग URL के लिए क्रॉलिंग और इंडेक्सिंग को कॉन्फ़िगर करने देता है।

HTTP प्रमाणीकरण

HTTP प्रमाणीकरण के साथ क्रॉलिंग और अनुक्रमण को नियंत्रित करना।

HTTP प्रमाणीकरण के लिए उपयोगकर्ताओं या मशीनों को एक (ए के अनुभाग) वेबसाइट तक पहुंच प्राप्त करने के लिए लॉग इन करने की आवश्यकता होती है। यह कैसा दिखता है इसका एक उदाहरण यहां दिया गया है:

प्रमाणित करना

उपयोगकर्ता नाम और पासवर्ड के बिना, आप (या रोबोट) लॉगिन स्क्रीन से आगे नहीं बढ़ेंगे, और आप कुछ भी एक्सेस नहीं कर पाएंगे। HTTP प्रमाणीकरण अवांछित आगंतुकों - दोनों मनुष्यों और खोज इंजन क्रॉलर - को उदाहरण के लिए एक परीक्षण वातावरण से बाहर रखने का एक शानदार तरीका है। Google अनुशंसा करता है(नए टैब में खुलता है)खोज इंजन क्रॉलर को परीक्षण परिवेशों तक पहुँचने से रोकने के लिए HTTP प्रमाणीकरण का उपयोग करना:

यदि आपके पास गोपनीय या निजी सामग्री है जिसे आप Google खोज परिणामों में प्रदर्शित नहीं करना चाहते हैं, तो निजी URL को प्रदर्शित होने से रोकने का सबसे सरल और सबसे प्रभावी तरीका उन्हें अपने साइट सर्वर पर पासवर्ड-संरक्षित निर्देशिका में संग्रहीत करना है। Googlebot और अन्य सभी वेब क्रॉलर पासवर्ड-संरक्षित निर्देशिकाओं में सामग्री तक पहुंचने में असमर्थ हैं।

HTTP प्रमाणीकरण क्या करेगा:

खोज इंजन को अपनी वेबसाइट के कुछ हिस्सों को क्रॉल करने से रोकें, जिससे क्रॉल बजट सुरक्षित रहे।
खोज इंजन को अपनी वेबसाइट के कुछ हिस्सों को अनुक्रमित करने से रोकें।
डुप्लिकेट सामग्री मुद्दों को रोकें।

HTTP प्रमाणीकरण क्या नहीं करेगा:

प्रासंगिकता और अधिकार संकेतों को समेकित करें।

खोज इंजन के रूप में प्राप्त करें: स्वयं को उनके स्थान पर रखना

तो खोज इंजन क्रॉलर आपके पृष्ठों को कैसे देखते हैं, और आपके पृष्ठ कैसे प्रस्तुत होते हैं? उनके "Fetch and Render" टूल का उपयोग करके स्वयं को उनके स्थान पर रखें।

Google का "Fetch as Googlebot" फीचर सबसे प्रसिद्ध है। यह Google Search Console में स्थित है(नए टैब में खुलता है)और आपको अपनी साइट पर एक यूआरएल भरने की अनुमति देता है और फिर Google आपको दिखाएगा कि उनके क्रॉलर इस यूआरएल पर क्या देखते हैं, और वे यूआरएल कैसे प्रस्तुत करते हैं। आप इसे डेस्कटॉप और मोबाइल दोनों के लिए कर सकते हैं।

यह दोहरी जाँच के लिए बहुत अच्छा है कि क्या URL अपेक्षित रूप से प्रतिसाद दे रहे हैं, बल्कि URL को पुश अनुक्रमणित करने के लिए भी बाध्य करते हैं ("अनुक्रमण का अनुरोध करें")। कुछ ही सेकंड में आप URL को क्रॉल और अनुक्रमित कर सकते हैं। इसका मतलब यह नहीं है कि इसकी सामग्री को तुरंत संसाधित किया जाता है और रैंकिंग को समायोजित किया जाता है, लेकिन यह आपको क्रॉलिंग और अनुक्रमण प्रक्रिया को तेज करने में सक्षम बनाता है।

अन्य परिस्थितियाँ जिनमें Googlebot के रूप में प्राप्त करें काम आता है

Googlebot के रूप में प्राप्त करें न केवल किसी एकल URL की क्रॉलिंग और अनुक्रमण प्रक्रिया को तेज़ करने के लिए उपयोगी है, बल्कि यह आपको निम्न की भी अनुमति देता है:

अपनी वेबसाइट पर संपूर्ण नए अनुभागों की खोज को गति दें, वह URL प्राप्त करें जिससे नए अनुभाग जुड़े हुए हैं, और "इस URL और इसके सीधे लिंक को क्रॉल करें" विकल्प के साथ "अनुक्रमणिका का अनुरोध करें" चुनें
आपकी साइट पर उपयोगकर्ताओं के मोबाइल अनुभव का ऑडिट करें: "मोबाइल: स्मार्टफोन" के रूप में एक URL प्राप्त करें।
जांचें कि क्या 301-रीडायरेक्ट ठीक से काम कर रहे हैं। एक यूआरएल भरें और हेडर प्रतिक्रिया जांचें।

टिप्पणियाँ:

Google आपको अनुक्रमण के लिए प्रति माह 500 URL सबमिट करने की अनुमति देता है।
Google आपको इंडेक्सिंग के लिए प्रति माह केवल 10 URL सबमिट करने की अनुमति देता है, साथ ही उस URL से लिंक किए गए सभी URL भी क्रॉल किए जा रहे हैं।
बिंग का एक समान टूल है, जिसे " Fetch as Bingbot ." कहा जाता है(नए टैब में खुलता है)".

क्रॉलिंग और अनुक्रमण के बारे में अक्सर पूछे जाने वाले प्रश्न

Google कितनी बार मेरी वेबसाइट को क्रॉल करता है?

जब क्रॉलर मेरी वेबसाइट पर क्रॉल कर रहे हों, तो क्या मैं उन्हें धीमा कर सकता हूं?

मैं खोज इंजन को किसी वेबसाइट या पृष्ठ को क्रॉल करने से कैसे रोकूँ?

वेबसाइट को इंडेक्स करने का क्या मतलब है?

क्या मेरी वेबसाइट सर्च इंजन के लिए इंडेक्सेबल है?

Google कितनी बार मेरी वेबसाइट को अनुक्रमित करता है?

Google को मेरी नई वेबसाइट को अनुक्रमित करने में कितना समय लगेगा?

मैं खोज इंजन को किसी वेबसाइट या पृष्ठ को अनुक्रमित करने से कैसे रोकूँ?

1. 🗓️ Google कितनी बार मेरी वेबसाइट को क्रॉल करता है?

Google Search Console उनके क्रॉल व्यवहार को आपके साथ साझा करता है। इसे जांचने के लिए:

Google Search Console में लॉग ऑन करें और एक वेबसाइट चुनें।

"क्रॉल"> "क्रॉल आँकड़े" पर जाएं और वहां आपको पता चलेगा कि Google आपकी वेबसाइट को कितनी बार क्रॉल करता है।

यदि आप काफी तकनीकी जानकार हैं, तो आप यह पता लगा सकते हैं कि Google आपकी वेबसाइट की लॉग फ़ाइलों का विश्लेषण करके आपकी वेबसाइट को कितनी बार क्रॉल करता है )।

यह ध्यान देने योग्य है कि Google यह निर्धारित करता है कि आपकी वेबसाइट के लिए क्रॉल बजट का उपयोग करके उन्हें आपकी वेबसाइट को कितनी बार क्रॉल करना चाहिए ।

2. जब क्रॉलर मेरी वेबसाइट पर क्रॉल कर रहे हों तो क्या मैं उन्हें धीमा कर सकता हूं?

हां, आप इसे क्रॉल-देरी वाले robots.txt निर्देश का उपयोग करके कर सकते हैं। हालांकि Google इसे नहीं सुनेगा। यदि आप चाहते हैं कि Googlebot धीमी गति से क्रॉल करे, तो आपको इसे Google खोज कंसोल में कॉन्फ़िगर करना होगा। विधि चाहे जो भी हो, Google और Bing के क्रॉलर को थ्रॉटल करने की अनुशंसा नहीं की जाती है। उनके क्रॉलर यह जानने में काफी समझदार होते हैं कि आपकी वेबसाइट में कब मुश्किलें आ रही हैं, और वे उस स्थिति में बाद में जांच करेंगे।

3. 🛑 मैं खोज इंजन को किसी वेबसाइट या पृष्ठ को क्रॉल करने से कैसे रोकूं?

खोज इंजन को आपकी वेबसाइट के कुछ हिस्सों, या केवल विशिष्ट पृष्ठों को क्रॉल करने से रोकने के कुछ तरीके हैं:

Robots.txt: का इस्तेमाल पूरी वेबसाइट, सेक्शन और अलग-अलग पेजों को क्रॉल करने से रोकने के लिए किया जा सकता है।

पैरामीटर प्रबंधन: एक निश्चित पैरामीटर वाले URL को क्रॉल करने से रोकने के लिए उपयोग किया जा सकता है।

HTTP प्रमाणीकरण: एक संपूर्ण वेबसाइट, अनुभागों और अलग-अलग पृष्ठों की क्रॉलिंग को रोकने के लिए उपयोग किया जा सकता है।

4. 📇 वेबसाइट को अनुक्रमित करने का क्या अर्थ है?

इसका मतलब है कि एक खोज इंजन द्वारा किसी वेबसाइट को समझने की कोशिश करने के लिए, अपने खोज इंजन के माध्यम से इसे खोजने योग्य बनाने के लिए कार्रवाई की जाती है।

5. 🔎 क्या मेरी वेबसाइट सर्च इंजन के लिए इंडेक्सेबल है?

इसका उत्तर देने का सबसे अच्छा तरीका कंटेंटकिंग के साथ एक खाता बनाना है ताकि यह मूल्यांकन किया जा सके कि आपकी वेबसाइट सर्च इंजन के लिए कितनी इंडेक्सेबल है। जैसा कि आप ऊपर पढ़ चुके हैं, खोज इंजन आपकी वेबसाइट को कैसे अनुक्रमित करते हैं, इसे प्रभावित करने के कई तरीके हैं।

6. 📅 Google कितनी बार मेरी वेबसाइट को अनुक्रमित करता है?

जितनी बार Google आपकी वेबसाइट को क्रॉल करता है। इसके क्रॉलर इंडेक्सर को जो कुछ भी मिला है उसे पास करेंगे, जो इंडेक्सिंग वेबसाइटों का ख्याल रखता है।

7. ⌚ मेरी नई वेबसाइट को अनुक्रमित करने में Google को कितना समय लगेगा?

इस प्रश्न का एक भी उत्तर नहीं है, क्योंकि यह नई वेबसाइट के प्रचार पर निर्भर करता है। इसे बढ़ावा देने से क्रॉलिंग और अनुक्रमण प्रक्रिया तेज हो जाती है। यदि आप इसे अच्छी तरह से करते हैं, तो एक छोटी वेबसाइट को एक घंटे में अनुक्रमित किया जा सकता है। वैकल्पिक रूप से, एक पूरी तरह से नई वेबसाइट को अनुक्रमित करने में महीनों भी लग सकते हैं।

कृपया ध्यान दें कि आपकी वेबसाइट को सर्च इंजन द्वारा अनुक्रमित करने का मतलब यह नहीं है कि आपके पेज बल्ले से उच्च रैंकिंग शुरू कर देंगे। उच्च रैंकिंग प्राप्त करने में बहुत अधिक समय लगता है।

8. ✋ मैं खोज इंजन को किसी वेबसाइट या पृष्ठ को अनुक्रमित करने से कैसे रोकूं?

किसी वेबसाइट या पेज को इन तरीकों से इंडेक्स करने से सर्च इंजन को रोका जा सकता है:

मेटा रोबोट्स नोइंडेक्स टैग: सर्च इंजनों के लिए एक पेज को इंडेक्स न करने का एक बहुत मजबूत संकेत है। यह अन्य पृष्ठों को प्रासंगिकता या अधिकार संकेत नहीं देता है।

कैनोनिकल यूआरएल: खोज इंजनों के लिए एक मध्यम मजबूत संकेत है कि किस पृष्ठ को अनुक्रमित किया जाए, और प्रासंगिकता और प्राधिकरण संकेतों को भी विशेषता दें।

HTTP प्रमाणीकरण: केवल SEO के दृष्टिकोण से नए पृष्ठों को क्रॉल और अनुक्रमित करने से रोकेगा। लेकिन अवांछित खोज इंजनों और उपयोगकर्ताओं को इससे बाहर रखने के लिए परीक्षण वातावरण पर HTTP प्रमाणीकरण का उपयोग करना अभी भी एक सामान्य सर्वोत्तम अभ्यास है।

Robots.txt: का उपयोग केवल नए पेजों को क्रॉल और इंडेक्स करने से रोकने के लिए किया जा सकता है।

पैरामीटर हैंडलिंग: एक निश्चित पैरामीटर वाले URL के क्रॉलिंग और इंडेक्सिंग को रोकने के लिए उपयोग किया जा सकता है।

Search of All

Crawl and Indexing Process in Search Engine Full Guide

क्रॉलिंग और इंडेक्सिंग संक्षेप में Full Guide:

क्रॉलिंग कैसे काम करता है?

अनुक्रमण कैसे काम करता है?

क्रॉलिंग और इंडेक्सिंग पर नियंत्रण कैसे करें