عملکرد خزنده هاي (crawler) گوگل چگونه است؟
عملکرد خزنده هاي (crawler) گوگل چگونه است؟
برنامه هاي نرم افزاري که در اينترنت جستجو مي کنند، خزنده يا خزنده وب ناميده مي شوند.
آنها محتواي وبسايتها مانند متن، عکس يا ويديو را تحليل و فهرستبندي ميکنند. اين عمدتاً ارائه دهندگان موتورهاي جستجو هستند که از خزنده ها براي ايندکس وب سايت ها استفاده مي کنند. اصطلاحات ربات، عنکبوت يا ربات جستجو نيز به صورت مترادف استفاده مي شوند.
ظهور خزنده هاي وب
در دهه 1990، “World Wide Web Wanderer” توسعه يافت، خزنده اي که کارش در ابتدا فقط براي اندازه گيري سرعت رشد اينترنت بود.
از اين انگيزه، يک موتور جستجو با نمايه تمام متن به نام “Webcrawler” در سال 1994 ايجاد شد که براي اولين بار در دسترس عموم قرار گرفت. امروزه به تمامي برنامه هايي که به صورت خودکار در اينترنت جستجو مي کنند، خزنده يا وب خزنده مي گويند.
جالب است که فعاليت ربات هاي موتورهاي جستجو در مجموع بيش از يک سوم ترافيک جهان در اينترنت را تشکيل مي دهند.
چگونه يک خزنده کار مي کند
يک خزنده به طور متوالي وظايف تعريف شده قبلي مهدي نجاري سئوکار را پردازش مي کند. پس او ز. به عنوان مثال، برخي از URL ها در ابتدا داده مي شود که او بايد بازديد کند.
به اين فهرست «مرز خزيدن» يا «محدوديت خزيدن» نيز ميگويند. هنگام جستجو در وب، او اساساً هر پيوندي را که در يک وب سايت کشف مي کند دنبال مي کند. يک خزنده وب مي تواند هم لينک ها و هم کد HTML را در کار خود بررسي کند.
با اين حال، محدوديتها ويژگي پيوند rel="nofollow” يا زمان محدودي هستند که خزنده ممکن است براي تجزيه و تحليل يک وب سايت از آن استفاده کند. بعد از اينکه يک صفحه جستجو شد، تقريباً مي توان آن را به طور کامل توسط يک ربات موتور جستجو کپي کرد تا بعداً در فهرست موتور جستجو سريعتر جستجو شود.
يک اسپايدر اينترنتي هميشه بسته به قوانين خاص و تعداد محدودي از صفحات و دانلودها کار مي کند. به همين دليل، ممکن است زماني اتفاق بيفتد که صفحه اي محتواي به روزتري را ارائه دهد، زماني که خزنده تمام کار خود را به پايان رسانده باشد.
قواعد رايج به سوالات زير پاسخ مي دهد:
- خزنده کدام صفحات را بايد دانلود کند؟
- چه زماني خزنده بايد دوباره از وب سايت مربوطه بازديد کند؟
- چگونه مي توانيد از بارگذاري بيش از حد سرور توسط عنکبوت جلوگيري کنيد؟
- چگونه مي توان کار ربات هايي که به صورت موازي کار مي کنند هماهنگ کرد؟
حتي اگر فناوري رباتها بهتر و بهتر ميشود، تنها بخشهايي از اينترنت يا شبکه جهاني وب تا به امروز قابل جستجو هستند. با اين حال، خزندههاي بسيار کارآمد مانند Googlebot نيز بايد بتوانند از طريق عناصر به اصطلاح وب عميق جستجو کنند.
بدين وسيله z. B. بالاتر از همه به معني پايگاه داده هاي جداگانه است که نمي توان مستقيماً از طريق URL به آنها دسترسي پيدا کرد.
عنکبوت هاي مختلف براي اهداف مختلف
حتي اگر امروزه بسياري از شرکتها با خزندههاي وب کار ميکنند، اکثريت خزيدن توسط رباتهاي ارائهدهندگان موتورهاي جستجو انجام ميشود که دائماً براي محتواي فعلي به اينترنت دسترسي دارند و بنابراين شاخصها را با دادههاي جديد تغذيه ميکنند.
با اين حال، وظايف ديگري وجود دارد که يک خزنده مي تواند انجام دهد، که در اينجا به طور خلاصه به آنها اشاره مي کنيم:
- خزنده متمرکز: اين عنکبوت وب يک موضوع خاص را هدف قرار مي دهد. خزنده معمولاً به گونه اي برنامه ريزي مي شود که هم وب سايت ها و هم لينک هاي يافت شده را طبقه بندي مي کند.
- داده کاوي: اين خزنده ها وب را در جستجوي داده هاي خاص جستجو مي کنند. اين مي تواند نمايه هاي کاربر و همچنين آدرس ايميل شرکت ها باشد. رباتهايي که فقط آدرسها را جمعآوري ميکنند به عنوان «دروگر» نيز شناخته ميشوند. اين عنکبوت ها به عنوان مثال استفاده مي کنند. T. همچنين سئوکاران را سياه مي کند تا بعداً نامه هاي اسپم را به آدرس هاي ايميل جمع آوري شده ارسال کنند.
- بررسي و تجزيه و تحليل اينترنت: اين ربات ها اغلب براي اهداف علمي استفاده مي شوند، به عنوان مثال. ب. اندازه گيري گسترش اينترنت.
- جستجو براي سرقت ادبي يا تحقيق در مورد مطالب داراي حق چاپ: اين ربات ها هميشه در مواقعي که نياز به کشف نقض قانون وجود دارد استفاده مي شود.
- Scraping: وب سايت هاي زيادي در وب وجود دارند که با محتواي کپي شده کار مي کنند. به اين ترتيب z را کپي کنيد. ب. برخي از پورتال هاي مقايسه قيمت محتواي ارائه دهندگان در صفحات آنها. با اين حال، برخي از وبسايتهاي هرزنامه براي به دست آوردن آسان محتوا، «خراش» ميکنند. با اين حال، اين معيار اخير توسط گوگل دستکاري تلقي مي شود و مي تواند منجر به حذف از فهرست جستجو شود.
نام خزنده هاي وب معروف
خزنده هاي موتورهاي جستجو معمولاً از يک شناسه ثابت به عنوان عامل کاربر استفاده مي کنند تا بتوانند توسط سرور شناسايي شوند.
به عنوان مثال، گوگل استفاده مي کند ب. چندين خزنده مختلف براي جستجوي وب، جستجوي تصوير، براي Google AdSense، براي Google Ads، و همچنين براي وب سايت هاي تلفن همراه. مثالها عبارتند از: googlebot، googlebot-mobile و غيره.
خزنده مورد استفاده ياهو Yahoo!Slurp نام دارد، موتور جستجوي Bing از bingbot استفاده مي کند. به عنوان يک وب سرويس، الکسا ربات خود را نيز دارد که در وب جستجو مي کند. به آن ia_archiver مي گويند.
براي مديران وب سايت مهم است که هر ربات شناسه خود را داشته باشد. زيرا ممکن است بازديد از crawlers خاصي مورد نظر نباشد. سپس مي توان اين موارد را از طريق robots.txt حذف کرد.
متا تگ ها براي کنترل خزنده ها
با کمک تگ هاي متا، که در قسمت <head> يک وب سايت درج مي شوند، مي توان دستورالعمل هاي بيشتري را به خزنده ها داد. بنابراين شما مي توانيد z. ب. از ايندکس کردن يک صفحه توسط يک ربات جلوگيري کنيد. در عين حال، ويژگي “nofollow” ايجاب مي کند که ربات پيوندهاي موجود در اين صفحه را دنبال نکند. در اينجا يک مثال براي Bingbot آورده شده است:
<meta name="robots” content="nofollow"><meta name="bingbot” content="noindex">
بهينه سازي موتور جستجو
همه وبمسترها و سئوکاران بايد به اين موضوع علاقه داشته باشند که وبسايتهايشان توسط خزندهها بهطور بهينه جستجو شود تا همه محتوا نيز وارد فهرست موتورهاي جستجو شود. براي کنترل کار خزنده ها، اکيداً توصيه مي شود که يک فايل قدرتمند robots.txt ايجاد کنيد. با اين حال، همچنين مهم است که مناطق حساس به طور کامل از نمايه سازي حذف شوند. اين هدف را مي توان با ورود “noindex” در اطلاعات متا بدست آورد. کنترل ربات همچنين مي تواند از ورود صفحات دسته بندي و آرشيوهاي تکراري در CMS هاي وبلاگ مانند وردپرس به فهرست هاي موتور جستجو جلوگيري کند.
اساساً، مي توان فرض کرد که ساختار URL که تا حد ممکن صاف و منطقي باشد به اين معني است که يک وب سايت مي تواند راحت تر خزيده شود. هرچه يک صفحه پيوند قويتري داشته باشد، خزندههاي وب بيشتر و طولانيتر از آن بازديد ميکنند. در نتيجه، دو عامل براي بازديد مکرر خزنده تعيين کننده است: تعداد بالاي بک لينک و لينک داخلي واضح.
https://biiut.com/read-blog/5083
https://theomnibuzz.com/%d8%a8%da%a9-%d9%84%db%8c%d9%86%da%a9/
https://www.click4r.com/posts/g/5417660/
https://blogfreely.net/faheemkhatri4/bkh-lynkh
http://y8space.com/members-2/faheemkhatri4/activity/3705321/
https://zenwriting.net/2asn2xlo45