Как ускорить индексацию сайта?

Как ускорить индексацию сайта?

Сегодня мы поговорим о механизмах работы поискового краулера. Рассмотрим методы индексации сайта, которые работают всегда одинаково эффективно, как пять лет назад, так и сейчас. За исключением некоторых нюансов.

 

Кратко о принципе работы поисковой системы

Чтобы поисковик что-то показывал в результатах выдачи, ему нужно составить у себя индекс, сохранить базу данных (урлы и их параметры). Прежде, чем найти URL, следует понять какие именно странички ему необходимо сохранять. Найти странички он может по ссылкам, через браузер, через собственную систему аналитики, либо другие сервисы типа Яндекс директ.

После создания базы данных, поисковик составляет расписание, когда первый раз зайти по ссылкам и как часто ходить по ним в дальнейшем. Этот процесс называется краулингом. В процессе краулинга собирается вся необходимая информация – робот парсит сайт, производит индексацию, собирает данные о параметрах и т.д.

Чтобы процесс краулинга был оптимальный:

  1. необходимо обеспечить доступность страниц (код статуса 200);
  2. на сайт не должен быть наложен фильтр;
  3. сайт не должен распространять вирусы;
  4. использовать только текстовые ссылки.

Цели поисковой системы – настроить краулинг таким образом, чтобы правильно распределить нагрузки на серверы. Чтобы снизить нагрузку на сервер пользователя, поисковик немного замедляет индексацию, а чтобы не перегружать свой – посещает странички по оптимально составленному расписанию.

Количество страниц, которые за единицу времени поисковик может взять с одного сайта называется краулинговым бюджетом. У каждого сайта он разный.

Краулинговый бюджет имеет лимит, поэтому использовать его следует рационально. Для этого необходимо:

  1. закрывать в файле robots.txt все, что представлено в виде не двухсотых кодов статуса, чтобы направлять поисковика на нужные разделы;
  2. избавляться от редиректов, битых ссылок.

Узнать краулинговый бюджет своего сайта, можно зайдя в панель для вебмастеров (webmasters.google.com) и посмотрев на представленные графики. Либо получить информацию, открыв какой-нибудь из логов.

 

Как ускорить индексацию страниц сайта

Мы подошли к самой сути вопроса и перейдем к ее подробному рассмотрению. Итак, что же нам потребуется сделать, чтобы ускорить индексацию страниц.

  • Избавиться от ошибок и настроить 304 код страницы. Наличие различных ошибок на сайтах (404 коды, цепочки редиректов), приводит к индексации «хлама» вместо полезных страниц, от них нужно вовремя избавляться. Страницы без изменений должны иметь код статуса 304, тогда роботам будут передаваться только данные http заголовка, и они не будет индексироваться заново.
  • Обеспечить хорошее качество страниц. Либо закрыть для индексации странички с мало ценным контентом, либо их оптимизировать.
  • Увеличить ссылочный вес: внутренний и внешний. Быстрее индексируются и чаще переиндексируются страницы с большим ссылочным весом. На страницу, которая должна проиндексироваться, необходимо поставить больше ссылок с важных страниц, а лучше с главной. Что касается внешних ссылок, то размещать их рекомендуется на каком-либо «раскрученном» сайте.
  • Избавиться от больших уровней вложенности. Ссылочный вес во многом зависит от уровня вложенности. Страницы с 10 уровнем вложенности долго и редко индексируются.
  • Оптимизировать скорость отдачи документов. Чем быстрее мы отдаем страницы, тем больше страниц может проиндексировать сервер. Для этого потребуется ускорение сервера – использовать внутренний и внешний кеш, перенести сервер в свой регион. Хорошая скорость отдачи файлов для больших сайтов – менее секунды.
  • Обеспечить посещаемость. Лить трафик с помощью контекстной рекламы, социальных сетей, размещения ссылок на форумах.
  • Избавление от плохих соседей по серверу – переезжать на хорошие хостинги.

Для изображений действуют те же принципы – доступные ссылки, уникальные фотографии, картинки.