گوگل توضیح می دهد که چگونه CDN ها بر خزیدن و سئو تاثیر می گذارند
Google توضیحی را منتشر کرد که در آن به نحوه تأثیرگذاری شبکههای تحویل محتوا (CDN) بر خزیدن جستجو و بهبود سئو و همچنین چگونگی ایجاد مشکلاتی در برخی موارد میپردازد.
CDN چیست؟
شبکه تحویل محتوا (CDN) سرویسی است که یک صفحه وب را در حافظه پنهان ذخیره میکند و آن را از مرکز دادهای که نزدیکترین نقطه به مرورگر درخواستکننده آن صفحه وب است، نمایش میدهد. کش کردن یک صفحه وب به این معنی است که CDN یک کپی از یک صفحه وب ایجاد کرده و آن را ذخیره می کند. این امر تحویل صفحه وب را سرعت می بخشد زیرا اکنون از سروری ارائه می شود که به بازدید کننده سایت نزدیک تر است و به «پرش» کمتری در اینترنت از سرور مبدأ تا مقصد (مرورگر بازدیدکننده سایت) نیاز دارد.
CDN ها خزیدن بیشتر را باز می کنند
یکی از مزایای استفاده از CDN این است که Google به طور خودکار نرخ خزیدن را هنگامی که تشخیص میدهد صفحات وب از CDN ارائه میشوند، افزایش میدهد. این امر استفاده از CDN را برای سئوکاران و ناشرانی که نگران افزایش تعداد صفحاتی هستند که توسط Googlebot خزیده می شوند، جذاب می کند.
به طور معمول Googlebot اگر تشخیص دهد که به آستانه خاصی می رسد که باعث کند شدن سرور می شود، میزان خزیدن از سرور را کاهش می دهد. Googlebot میزان خزیدن را کاهش می دهد که به آن throttling می گویند. وقتی CDN شناسایی میشود، این آستانه برای «گسیختگی» بالاتر است و در نتیجه صفحات بیشتری خزیده میشوند.
چیزی که باید در مورد ارائه صفحات از CDN درک کرد این است که اولین باری که صفحات ارائه می شوند باید مستقیماً از سرور شما ارائه شوند. گوگل از نمونه سایتی با بیش از یک میلیون صفحه وب استفاده می کند:
“با این حال، در اولین دسترسی به URL، حافظه پنهان CDN “سرد” است، به این معنی که از آنجایی که هنوز کسی آن URL را درخواست نکرده است، محتوای آن هنوز توسط CDN ذخیره نشده است. ، بنابراین سرور اصلی شما همچنان حداقل یک بار برای “گرم کردن” حافظه پنهان CDN به آن URL نیاز دارد. این نیز بسیار شبیه نحوه عملکرد حافظه پنهان HTTP است.
به طور خلاصه، حتی اگر فروشگاه اینترنتی شما توسط CDN پشتیبانی می شود، سرور شما باید حداقل یک بار آن 1,000,007 URL را ارائه دهد. تنها پس از آن سرویس اولیه، CDN شما میتواند به شما در مورد حافظه پنهان خود کمک کند. این یک بار قابل توجه برای “بودجه خزیدن” شما است و نرخ خزیدن احتمالاً برای چند روز بالا خواهد بود. اگر قصد دارید چندین URL را همزمان راه اندازی کنید، این را در نظر داشته باشید.”
هنگام استفاده از CDN ها برای خزیدن نتیجه عکس می دهند
Google توصیه می کند که مواقعی وجود دارد که CDN ممکن است Googlebot را در لیست سیاه قرار دهد و متعاقباً خزیدن را مسدود کند. این اثر به عنوان دو نوع بلوک توصیف می شود:
1. بلوک های سخت
2. بلوک های نرم
بلاکهای سخت زمانی اتفاق میافتند که یک CDN پاسخ دهد که خطای سرور وجود دارد. یک پاسخ خطای بد سرور می تواند یک 500 (خطای سرور داخلی) باشد که نشان می دهد یک مشکل بزرگ در سرور اتفاق می افتد. یکی دیگر از پاسخ های خطای بد سرور 502 (درگاه بد) است. هر دوی این پاسخ های خطای سرور باعث می شود Googlebot سرعت خزیدن را کاهش دهد. URL های نمایه شده به صورت داخلی در Google ذخیره می شوند، اما ادامه پاسخ های 500/502 می تواند باعث شود Google در نهایت URL ها را از فهرست جستجو حذف کند.
پاسخ ترجیحی یک 503 است (سرویس در دسترس نیست)، که نشان دهنده یک خطای موقت است.
یک مشکل دیگر که باید مراقب آن بود، همان چیزی است که Google آن را “خطاهای تصادفی” می نامد، یعنی زمانی که یک سرور یک کد پاسخ 200 ارسال می کند، به این معنی که پاسخ خوب بود (حتی اگر یک صفحه خطا با آن 200 پاسخ ارائه می شود). گوگل آن صفحات خطا را تکراری تفسیر می کند و آنها را از فهرست جستجو حذف می کند. این یک مشکل بزرگ است زیرا ممکن است بازیابی از این نوع خطا زمان بر باشد.
اگر CDN یکی از این موارد “آیا شما انسان هستید؟” را نشان دهد، یک بلوک نرم ممکن است رخ دهد. پنجره های بازشو (بینابینی ربات) به Googlebot. بینابینیهای ربات باید یک پاسخ سرور 503 ارسال کنند تا Google بداند که این یک مشکل موقتی است.
اسناد جدید Google توضیح میدهد:
“…وقتی بینابینی نمایش داده می شود، این تنها چیزی است که آنها می بینند، نه سایت عالی شما. در مورد این میانافزارهای تأیید ربات، اکیداً توصیه میکنیم یک سیگنال واضح در قالب یک کد وضعیت HTTP 503 برای مشتریان خودکار مانند خزندهها ارسال کنید که محتوا موقتاً در دسترس نیست. این اطمینان حاصل می کند که محتوا به طور خودکار از فهرست Google حذف نمی شود.”
اشکالزدایی با ابزار بازرسی URL و کنترلهای WAF
Google توصیه میکند از ابزار بازرسی URL در کنسول جستجو استفاده کنید تا ببینید CDN چگونه صفحات وب شما را ارائه میکند. اگر فایروال CDN که فایروال برنامه وب (WAF) نامیده می شود، Googlebot را با آدرس IP مسدود می کند، باید بتوانید آدرس های IP مسدود شده را بررسی کنید و آنها را با لیست رسمی IP های Google مقایسه کنید تا ببینید آیا یکی از آنها در لیست هستند یا خیر. .
Google توصیه های زیر را برای اشکال زدایی در سطح CDN ارائه می دهد:
“اگر می خواهید سایت شما در موتورهای جستجو نمایش داده شود، توصیه می کنیم اکیداً بررسی کنید که آیا خزنده های مورد علاقه شما می توانند به سایت شما دسترسی داشته باشند یا خیر. به یاد داشته باشید که IP ها ممکن است به طور خودکار و بدون اطلاع شما در لیست بلاک قرار گیرند، بنابراین بررسی لیست های بلاک هر از گاهی ایده خوبی برای موفقیت سایت شما در جستجو و فراتر از آن است. اگر فهرست بلاک بسیار طولانی است (نه بر خلاف این پست وبلاگ)، سعی کنید فقط چند بخش اول محدوده IP را جستجو کنید، به عنوان مثال، به جای جستجوی 192.168.0.101، فقط می توانید به دنبال 192.168 باشید.”