какую условную структуру имеет поисковый цикл
Как работают поисковые системы
Поисковые системы являются одним из основных и наиболее важных сервисов интернета.
При помощи поисковых систем миллиарды пользователей интернета находят для себя необходимую информацию.
Что такое поисковая система?
Поисковая система представляет собой программно-аппаратный комплекс, который использует специальные алгоритмы для обработки огромного количества информации о самых различных сайтах, об их содержимом вплоть до каждой страницы.
Поисковая система, с точки зрения простых посетителей, это такой умный сайт, который содержит много информации и дает ответы на любые запросы пользователей.
В разных странах пользователи интернета используют различные поисковые системы. В англоязычном сегменте интернета наиболее популярной является поисковая система Google.
Поисковые системы в Рунете
В России более половины пользователей предпочитают поисковую систему Яндекс, а на долю Google приходится около 35% запросов. Остальные пользователи используют Рамблер, Mail.ru, Nigma и другие сервисы.
На Украине около 60% пользователей используют Google, на долю Яндекса приходится немногим более 25% обработанных запросов.
Поэтому при продвижении сайтов в Рунете специалисты стараются продвигать сайт, ориентируясь на поисковые системы Яндекс и Google.
Задачи поисковых систем
Для того, чтобы максимально точно ответить на вопросы посетителей, поисковые системы должны выполнять следующие задачи:
Составляющие поисковых систем
Поисковые системы представляют собой сложный программный комплекс, который состоит из следующих основных блоков:
Это разделение условное, так как работа разных поисковых систем несколько отличается друг от друга.
1. Сбор данных
На этом этапе стоит задача найти новые документы, составить план их посещения и сканирования.
Вебмастерам необходимо дать знать поисковым системам о появлении новых материалов при помощи размещения адреса страницы в аддурилку или прогнать анонс страницы по социальным сетям.
Лично я пользуюсь последним способом и считаю, что этого вполне достаточно.
Комментарий. Немного отвлекусь и расскажу об эффективности размещения анонсов в социальных сетях на скорость индексации новых страниц сайта.
Я использую для контроля и фиксации уникальности текста на страницах своего сайта сервис text.ru.
Но иногда на этом сервисе бывает большая очередь на обработку. У меня было несколько случаев, когда я не стал ожидать проверки уникальности, размещал статью на сайте и прогонял ее по социальным сетям.
Если проверка уникальности задерживалась около часа и более, то процент уникальности всегда равнялся 0%. Это значит, что за неполный час после размещения страница уже была проиндексирована и занесена в базу данных поисковых систем.
2. Индексация
Поисковые системы, собрав данные о новых веб-страницах, размещают их в своей базе данных. При этом формируется индекс, то есть ключ для быстрого доступа к данным об этой странице, если возникает такая необходимость.
3. Вычисление
После попадания в базу данных страницы наших сайтов проходят этап вычисления различных параметров и показателей.
Сколько этих показателей и как они вычисляются точно сказать, кроме самих разработчиков алгоритмов поисковых систем, никто не может.
4. Ранжирование
Затем, на основании рассчитанных параметров и показателей, происходит определение релевантности страницы тем или иным запросам и ранжирование этой страницы.
Это будет важно для быстрого и качественного формирования страницы поисковой выдачи по этим запросам.
5. Поисковая выдача
Поисковые системы формируют ответы на запросы пользователей и формируют для них результаты в виде страницы поисковой выдачи.
Надо отметить, что алгоритмы обработки данных о страницах, формирование показателей и способы ранжирования постоянно совершенствуются. Меняются приоритеты, по которым происходит ранжирование.
Поисковые системы стремятся ответить на запросы пользователя максимально точно, стараясь учитывать характер запроса, интересы конкретного пользователя, его место проживания, возраст, пол, привычки, наклонности.
Поисковые системы
Основные поисковые системы
На заре своего существования Интернет еще не обладал большим объемом информации. Количество пользователей Сетью было тоже совсем невелико. Однако со временем возникла необходимость в оптимизации доступа к информации, содержащейся в Интернете, благодаря чему в 1994 году на свет появился проект под названием Yahoo. Данный проект подразумевал создание каталогов сайтов, в которых ссылки на сайты были сгруппированы по различным темам. Однако этот проект еще совсем мало был похож на современные поисковые системы. Первой поисковой системой в привычном для нас понимании стала WebCrawler.
На сегодняшний день основными мировыми поисковиками являются Google, Yahoo, MSN Search.
В российском Интернете этот список представлен следующими поисковыми системами: Яндекс, Google, Mail.ru, Aport, Rambler, KM.ru.
Бесспорно, самыми популярными из них являются Яндекс и Google.
Структура поисковых систем
Различные поисковые системы содержат одинаковый состав входящих в них основных элементов, а именно, поле поиска, кнопка поиска, список найденных результатов.
Структура поисковой системы представлена комплексом следующих программ.
Фильтры поисковых систем
Рассмотрим отдельно фильтры, применяемые поисковой системой Google и системой Яндекс. Однако следует понимать, что такое разграничение имеет весьма зыбкие границы, так как в той или иной степени большинство из нижеперечисленных фильтров частично присутствует в каждой из этих двух поисковых систем.
Фильтры, предусмотренные системой Google.
Фильтры, предусмотренные системой Яндекс.
Принципы ранжирования в поисковых системах
Ранжирование – это вывод сайтов на страницах поисковых систем в определенной последовательности в ответ на какой-либо запрос пользователя. Принято выделять внутренние и внешние принципы ранжирования. Рассмотрим каждую группу по отдельности.
Внутренние принципы ранжирования. Внутренние принципы ранжирования подчинены действиям владельца сайта. Они учитывают:
Внешние принципы ранжирования учитывают:
Таким образом, мы представили некоторую информацию, касающуюся специфики работы поисковых систем. Однако следует учесть тот факт, что алгоритм их работы претерпевает различные изменения, поэтому информация о поисковых системах является весьма динамичной и требует постоянного анализа со стороны seo-специалистов.
Принципы работы поисковых систем
Порядка 95% интересующей пользователя информации в интернете он находит в поисковых сервисах, Google, Yandex, Bing, Yahoo, DuckDuckGo и т.д (Смотрите — Рейтинг поисковых систем интернета). Но сам сайт, где вводится запрос — это лишь обертка, под которой скрывается сложный программно-аппаратный комплекс, анализирующий миллиарды сайтов ежедневно и составляющий на их основе базы данных. В статье я расскажу, как работают алгоритмы поисковых систем, как именно идет поиск и ранжирование нужной информации и почему мы так быстро получаем ответ на свои запросы.
Работа поисковых систем
Условно считается, что история создания поисковых систем берет свое начало с 1989 года. Именно тогда был создан сервис Арчи, главная задача которого была индексация информации, которую можно найти в интернете (в пространстве WWW). Система изобретена и создана программистом Аланом Эмтеджем. И алгоритмы, которые он в ней использовал, в базовом понимании используются и по сегодняшний день. Правда, данный сервис был локальным.
А уже в 1996 году была создана программа BackRub. Её главное преимущество — она выполняет глобальную индексацию. Уже в 1998 году система будет переименована в Google. А сейчас это — самый популярный сервис в мире для поиска информации в интернете (по данным аналитиков, его использует порядка 85% всех интернет-пользователей).
Общий принцип работы любой поисковой системы условно можно разделить на следующие этапы:
Описанный принцип работы информационно поисковых систем — это лишь условное пояснение, как работает тот же Google или Яндекс. Но вот алгоритмы, которые они используют для обхода, сайтов, индексации и ранжирования, обычным пользователям неизвестны, каждая поисковая система применяет свои алгоритмы и постоянно их совершенствует, так как обработка информации занимает большое количество ресурсов сервера, расходы на который лежат на поисковой системе.
Понятно лишь одно — каждый сайт анализируется по более чем 1000 критериев. И именно благодаря этому пользователь, отправивший поисковый запрос, в 99% случаев в ответ получает ссылку, на страницу с полезной информацией.
Поисковые системы бывают нескольких подвидов и существуют и другие вариации таких сервисов:
И многие рядовые пользователи ошибочно полагают, что особенности работы поисковых систем таковы, что поиск оптимальных результатов для выдачи выполняется в режиме реального времени. Нет, выполнить анализ значительной части веб-пространства за несколько секунд — невозможно. Даже суперкомпьютерам для этого понадобится несколько месяцев, а то и лет. Поэтому без предварительной обработки информации, и постоянного ранжирования не обойтись.
Общие принципы обработки информации
Каждый этап, описанный выше, выполняется отдельной программой (или их комбинациями). Это — так называемые «составляющие» алгоритмов поисковых систем.
Spider
Робот закачивающий веб страницы на сервер, он скачивает интернет-сайт, что в дальнейшем будет проиндексирован. Причем, загружает он все страницы и готовит полученные данные для анализа следующей программой. Если пользователя на загружаемом сайте интересует только контент (текст, картинки, мультимедиа), то spider работает именно с исходным кодом и html документами.
Crawler
Данная программа автоматически открывает и анализирует все ссылки, которые ей удается найти на сайте (в архиве, предварительно подготовленном с помощью Spyder (Паука). Это позволяет в дальнейшем составить «дерево» адресов, а также обнаружить точные ссылки, которые будут предоставляться в ответ на поисковые запросы. Кстати, если Crawler встречает «битую» ссылку — это затрудняет его работу, и соответственно заставляет поисковик тратить больше бюджета на индексирование Вашего сайта.
Indexer
Программа которая проводит индексацию, всех полученных данных от Spider и Crawler. То есть делит загруженную страницу на составные части (по html-тегам) и формирует список данных, которые здесь представлены.
Database
На основе информации, полученной после индексации, формируются 2 раздельные базы данных. Первая — это «дерево» сайта с его мета-тегами. В дальнейшем она используется при выполнении повторной индексации. То есть вместо того, чтобы повторно изучать сайт, выполняется сверка «деревьев» — так поисковый сервис определяет, вносились ли какие-то изменения на анализируемый веб-ресурс.
Вторая база данных — это результаты индексации. Та самая информация, на основе которой определяется условный рейтинг сайта, а также составляется перечень поисковых запросов, в ответ на которые можно предоставить ссылку.
Search Engine Results Engine
Web server
Сервер, на котором хранится сайт поискового сервиса. Именно его открывает пользователь, там же он вводит свой запрос и просматривает результаты выдачи.
Принципы работы поисковой системы
Главные этапы составления базы данных для поисковых сервисов — это индексация и ранжирование сайтов. И чтобы результативность итоговой выдачи была точной, сейчас применяется схема машинного обучения. То есть поисковику демонстрируют для сравнения 2 противоположных результата и указывают, по какой схеме необходимо выполнять их ранжирование. Таким образом система понимает, какой сайт «полезный», какой — «менее полезный».
Всё это позволяет вывести отдельный индекс — релевантность (условно можно назвать «рейтингом»). Он присваивается каждому сайту, представлен в виде дробного числа. Чем выше релевантность — тем выше будет позиция ресурса в выдаче на запрос пользователя. Это — основные принципы работы поисковых систем, используемых сегодня. И этот процесс тоже состоит из нескольких этапов.
Сбор данных
После создания сайта и получения на него ссылки, система автоматически анализирует его с помощью инструментов Spyder и Crawling. Информация собирается и систематизируется из каждой страницы.
Индексация
Индексация выполняется с определенной периодичностью. И по её прохождению сайт добавляется в общий каталог поисковой системы. Результата этого процесса — создание файла индекса, который используется для быстрого нахождения запрашиваемой информации на ресурсе.
Обработка информации
Система получает пользовательский запрос, анализирует его. Определяются ключевые слова, которые в дальнейшем и используются для поиска по файлам индекса. Из базы данных извлекаются все документы, схожие на пользовательский запрос.
Ранжирование
Из всех документов, отобранных для выдачи, составляется список, где каждому сайту отведена своя позиция. Выполняется на основании ранее вычисленных показателей релевантности.
На этом этапе принцип работы поисковых систем немного разнится. Формула ранжирования — тоже уникальная. Но ключевые факторы, влияющие на релевантность сайта, следующие:
СПРАВКА! Если вам необходимо заказать продвижение сайта в поисковых системах, я могу Вам помочь, сделать качественный SEO аудит сайта и составить план продвижения.
Основные характеристики поисковых систем
Главный параметр — это наглядность. То есть насколько точная информация представлена в выдаче на усмотрение самого пользователя, который и отправлял запрос. Но есть и другие характеристики для оценки поисковых систем.
Полнота
Условный параметр, который указывает соотношение от общего числа документов, дающих ответ на пользовательский запрос, от их количества, представленного системой в выдаче. Чем выше соотношение — тем более полный анализ производится сервисом.
Точность
Можно описать на примере. Пользователь ввёл запрос «купить квартиру». В выдаче было представлена 1000 сайтов. Но в половине из них просто встречается данное словосочетание. В другой части — предлагаются ресурсы, где можно совершить покупку недвижимости. Естественно, что пользователя интересуют последние. В данном случае точность работы поискового сервиса составляет 0,5 (то есть 50%). Чем выше показатель — тем больше точность.
Актуальность
Имеется ввиду время, прошедшее с момента публикации данных на сайте до его добавления в каталог индексации. Чем быстрее этот процесс будет завершен, тем более актуальную информацию пользователю представят в выдаче. Для современных сервисов, типа Bing или Google периодичность обновления базы данных индексации составляет до 3-х месяцев. Для релевантных сайтов — несколько дней.
Скорость поиска
Она же — «устойчивость к нагрузкам». Определяется временем, необходимым для составления списка сайтов для выдачи после получения пользовательского запроса. По большей части зависит только от производительности серверов, обрабатывающих данные, а также общего количества получаемых запросов. Современные сервисы могут обрабатывать одновременно до 100 миллионов таковых ежесекундно.
Наглядность
Пользовательская оценка в работе сервиса. Во многом зависит от того, какие ссылки рядовой пользователь увидит в ТОП выдачи. Ведь именно их он изучает в первую очередь. И полученная на них информация должна на 100% ответить на его запросы.
Выводы
Постоянная индексация и ранжирование — это основной принцип работы поисковых интернет систем. А за написание алгоритмов и программ, которые выполняют большую часть всей этой работы, отвечают тысячи программистов. Именно благодаря их работе каждый пользователь за несколько секунд может отыскать в веб-пространстве необходимую для него прямо сейчас информацию.
Если Вам понравилась статья поделитесь ей в социальных сетях, так же рекомендую прочитать статью — методах продвижения сайта в интернете.
Если вы хотите более глубоко понимать принцип работы поисковых систем рекомендую посмотреть видео от Сергея Кокшарова и почитать его SEO блог