Принцип работы поисковых систем.

Основные компоненты поисковых систем:
Spider (Паук) — браузероподобная программа, которая скачивает веб-страницы (документы);
Crawler (Краулер, «странствующий» паук) — программа, которая автоматически проходит по всем ссылкам, найденным на странице (в документе);
Indexer (Индексатор) — программа, которая анализирует все страницы (документы), скаченные пауком;
Database (База данных) — хранилище скаченных и обработанных страниц;
Search engine results engine (система выдачи результатов) — извлекает результаты поиска из базы данных.
Примечание: поисковые системы видят страницы не так как мы, они видят только html и текст.
Релевантность — степень соответствия запроса и найденного, то есть уместность результата.
Поисковые системы выстраивают выдачу только по релевантности. Чем больше содержимое вашей страницы подходит запросу, тем выше ваша позиция в поисковой выдачи. По этой причине, оптимизируют не сайт, а каждую страницу.
Ранжирование — это процесс выстраивания найденных по запросу пользователей страниц по релевантности.
Поисковая машина ищет только в пределах своей базы данных. Это важно. А то многие думают что поисковые системы производят поиск по всему интернету, это не правда. По этой причине, новые странице не сразу появляются в поиске, а только после процесса индексации страницы.
Сайты ранжируются в зависимости от действующего алгоритма. Поисковые системы, постоянно совершенствуют алгоритмы ранжирования. По этой причине многие замечают резкое изменение позиций сайта в поисковой выдаче.
Обновление индекса поисковых систем происходит не сразу. У Yandex и Google есть такое понятие, как UPDATE (апдейт). Это процесс когда происходит обновление базы данных. Yandex производит update с периодичностью от 2 до 7 дней. А Google находится в постоянном режиме update, у него нету периодичности. Высокая скорость индексации Google является одним из самых важных преимуществ перед Yandex.
Определить когда был произведен update Yandex, можно вот здесь.
Похожие посты:



