Глобальный поиск что это
Сервис глобального поиска
Сервис глобального поиска (Global Search Service) создан для интеграции поисковой системы ElasticSearch c приложением Creatio. Назначение сервиса — поиск данных в приложении Creatio из командной строки. Поиск данных выполняется по всем разделам приложения, включая пользовательские, независимо от места запуска поиска — из главного меню либо из раздела.
Общие принципы работы
Задачи сервиса глобального поиска:
Особенности сервиса глобального поиска:
Параметры поиска задаются при помощи системных настроек:
Схема работы
Компоненты сервиса глобального поиска:
Схема работы сервиса глобального поиска представлена ниже.
Масштабируемость
Использование кластера баз данных позволяет выполнить масштабирование сервиса глобального поиска в крупных проектах. Описание кластеризации содержится в документации ElasticSearch.
Совместимость с продуктами Creatio
Сервис глобального поиска имеет версии 1.4, 1.5, 1.6, 1.7, 2.0, которые совместимы со всеми продуктами Creatio версий 7.10 и выше.
Варианты развертывания
Сервис глобального поиска разворачивается on-site и cloud.
Для приложений, развернутых on-site, необходимо выполнить предварительную настройку сервиса. Для настройки необходимы 2 сервера (физические или виртуальные машины), которые должны отвечать техническим требованиям. На серверах должна быть установлена операционная система Linux, которая официально поддерживает программное обеспечение Docker. Перечень операционных систем, которые поддерживает Docker, содержится в документации Docker.
Рекомендуем устанавливать актуальную версию сервиса глобального поиска.
Настроить глобальный поиск
Сервис глобального поиска (Global Search Service) создан для интеграции ElasticSearch c Creatio и выполняет следующие функции:
Подписывает клиента, создавая индекс в ElasticSearch и сохраняет связь индекс-приложение.
Отключает клиента, по требованию удаляя индекс в ElasticSearch.
Участвует в процессе индексации — забирает данные из базы данных.
Для настройки глобального поиска необходимы два отдельных физических или виртуальных сервера (“сервер 1” и “сервер 2”) с установленной ОС Linux. Для расчета требований к серверам воспользуйтесь калькулятором системных требований.
Развертывание компонентов глобального поиска выполняется на ПО Docker. С перечнем поддерживаемых ОС вы можете ознакомиться в документации Docker.
Важно. Для настройки глобального поиска необходимы базовые знания администрирования ПО Docker и ОС Linux.
Последовательность действий при настройке глобального поиска зависит от того, какую версию сервиса вы будете использовать. Для последней версии Creatio рекомендуется всегда использовать новейшую версию сервиса глобального поиска.
Для поддержания работоспособности сервиса и возможности быстрого восстановления данных после отказа, например, в случае перебоев с электроэнергией, рекомендуется раз в сутки выполнять резервное копирование Elasticsearch.
Если у вас возникнут вопросы в ходе настройки, то рекомендуем ознакомиться со статьей Часто задаваемые вопросы по глобальному поиску и дедупликации.
Настроить сервис глобального поиска (версия 2.0)
На заметку. Настройки ниже актуальны для сервиса глобального поиска версии 2.0. Если вам необходимо настроить сервис глобального поиска более ранней версии, то ознакомьтесь с описанием настроек в документации Creatio версии 7.16.
Компоненты глобального поиска
Развертывается на сервере 1:
Развертываются на сервере 2:
postgres — база данных конфигурирования компонентов глобального поиска.
redis — хранилище данных, используемое для кеширования и быстродействия.
gs-web-api — web-сервис конфигурирования компонентов глобального поиска.
gs-web-indexing-service — web-сервис для обработки запросов точечного индексирования данных из системы.
gs-scheduler — планировщик задач индексации данных из Creatio в ElasticSearch.
gs-worker — компонент индексирования данных из Creatio в ElasticSearch по задачам планировщика.
gs-worker-replay — компонент, обрабатывающий результаты индексации (результаты работы gs-worker-а).
gs-worker-single — компонент точечной индексации данных бизнес-процессов в ElasticSearch по запросу из бизнес-процесса.
gs-worker-single-replay — компонент, обрабатывающий исключения в процессе точечной индексации (результаты работы gs-worker-single).
gs-worker-single-task — компонент для постановки задач компоненту gs-worker-single.
gs-worker-querried-single-task — компонент для формирования задач компоненту gs-worker-single.
Список портов, используемых компонентами глобального поиска:
Важно. Если вы используете FireWall, убедитесь, что все перечисленные порты доступны и открыты.
Глобальный поиск и замена
Режим глобального поиска и замены позволяет искать в прикладном решении вхождения некоторой строки и заменять их другой строкой. Поиск выполняется во всех элементах прикладного решения, которые могут содержать строку: модулях, диалогах, табличных документах, описаниях конфигурации и внешних файлах.
Этот режим также может быть использован просто для поиска всех вхождений некоторой строки, например, для поиска всех вызовов некоторой процедуры.
Глобальный поиск и глобальную замену можно вызвать из меню Правка конфигуратора:
Диалог задания параметров поиска и замены позволяет достаточно подробно настроить как условия поиска, так и состав элементов конфигурации, в которых будет выполняться поиск:
Помимо задания типа текста, для каждого прикладного решения, в котором выполняется поиск, можно задать состав его элементов, в которых необходимо этот поиск выполнять:
При использовании только режима глобального поиска результат будет выведен в окне результатов поиска:
Щелкнув мышью на выбранной строке можно перейти в соответствующий элемент прикладного решения к найденному значению.
Простой и расширенный поиск
Для поиска информации в Internet используются поисковые системы, выполненные в виде www-серверов и предлагающие простой и расширенный варианты поиска.
Простой запрос дает значительное количество ссылок на документы, так как в список попадают документы, содержащие одно из слов или простое словосочетание, введенное при запросе.
Правила оформления простого запроса:
1. Сложение наоборот. Если нам надо, чтобы поисковая система нашла страницы, на которых одновременно присутствуют все использованные ключевые слова, то перед каждым из них следует поставить знак «+». Используя знак «+», мы сужаем круг поиска и уменьшаем количество возможных ссылок. Например, необходимо найти информацию о протоколах Internet. Для этого нужно в строке поиска указать следующее:
Поисковая система выдаст список страниц, на которых встречаются оба эти слова, хотя, конечно, не исключено, что между ними нет прямой связи.
Ряд систем выполняет такой поиск по умолчанию.
2. Вычитание. Конкретизировать круг поиска информации можно не только знаком «+» но и знаком «-». Например, необходимо найти информацию о протоколах Internet, но без учета тех страниц, на которых протокол рассматривается как нормативный документ. Для этого нужно в строке поиска указать следующее:
3. Применение джокера. В запрос информации можно включать специальный символ «*», расширяющий диапазон поиска. Символ «*» позволяет заменить любой другой символ или набор символов до конца слова. Например, необходимо найти информацию о протоколах Internet. Для этого в строке поиска запишем:
Поисковая машина осуществит поиск всех документов, в которых встречаются словосочетания, состоящие из слов «Интернет» и «протокол» в различных падежах.
4. Контекстный поиск. В случае использования кавычек поисковая система разыскивает документы, в точности совпадающие с текстом, заключенным в кавычки. Поиск с помощью кавычек называется контекстным поиском.
Например: «глобальная сеть»
Поисковая система найдет все документы, в которых есть подобный текст.
5. Поиск по заголовкам. Каждая страница содержит заголовок. При его отсутствии как заголовок выделяется предложение из первого абзаца. В результате поиска выдается ссылка, в которой присутствует заголовок.
– Title: глобальная сеть
– Заг.: глобальная сеть
Поисковая система Апорт имеет несколько альтернативных команд:
Средства расширенного поиска позволяют более точно формулировать поисковое задание. В большинстве поисковых систем команды расширенного поиска формируются с помощью логических команд.
Преимущество использования логических команд связано с тем, что команды простого поиска у многих поисковых систем реализованы по-разному. Каждая поисковая система стремится сделать средства простого поиска наиболее удобными, а средства расширенного — наиболее стандартными.
Правила оформления расширенного запроса:
1. Команда OR. OR (или) служит для формирования поискового задания, состоящего из нескольких ключевых слов, если надо, чтобы разыскиваемый документ содержал любые из этих слов в любой комбинации.
2. Команда AND. AND (и) служит для формирования поискового задания, когда требуется, чтобы разыскиваемый документ содержал одновременно все слова, введенные пользователем. Аналогичные функции выполняет команда «+» простого поиска. Например: протокол AND TCP/IP.
3. Команда NOT. NOT (не) устанавливает исключения из результатов поиска.
Например: протокол NOT TCP/IP.
Например: СЛ5(протокол, TCP/IP).
5. Вложение команд. Вложение команд позволяет создавать весьма сложные запросы. Оно выполняется с помощью круглых скобок (). Команда, стоящая в скобках, выполняется в первую очередь.
Например: сеть AND (глобальная OR интернет)
6. Вы можете искать документы не только по всему русскоязычному Internet, но и по его части. Самый простой случай — поиск по определенному серверу. Например: url=www.intel.ru собака
По данному запросу будут найдены все документы на сервере www.intel.ru, содержащие слово «собака». Возможно, вам интересно, а что будет, если написать просто: url=www.intel.ru
В этом случае вы получите список всех документов, расположенных на указанном вами сервере.
Показатель — выраженная числом характеристика какого-либо свойства объекта, явления, процесса или решения;
— численная характеристика отдельных сторон деятельности;
— данные, по которым можно судить о развитии, ходе, состоянии чего-нибудь (например, показатели роста, средние показатели).
[2] Фактография — описание фактов без их анализа, обобщения, ос- нмщгния.
[3] Лексикография — теория и практика составления словарей.
[4] Экспертиза ценности документов — изучение документов на основании критериев их ценности в целях определения сроков хранения документов и отбора их для включения в состав Архивного фонда Российской Федерации
Дата добавления: 2014-01-11 ; Просмотров: 6179 ; Нарушение авторских прав? ;
Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет
ПРАКТИЧЕСКОЕ ЗАНЯТИЕ 42
Тема:Поисковые системы. Осуществление поиска информации или информационного объекта в тексте, файловых структурах, базах данных, сети Интернет. Использование ключевых слов, фраз для поиска информации. Комбинации условия поиска.
Цель: Изучение способов поиска информации в тексте, в файловых структурах, в базах данных, в сети Интернет.
Средства обучения:ПК, Интернет.
Пояснения к выполнению работы:
Поиск информации – задача, которую человечество решает уже многие столетия. По мере роста объема информационных ресурсов, потенциально доступных одному человеку, были выработаны все более изощренные и совершенные поисковые средства и приемы, позволяющие найти необходимый документ. Обширные возможности для работы с большими массивами информации дают поисковые сервисы Interner.
При наличии первичных сведений по теме поиска, документы можно разыскивать поисковых системах. При этом следует различать приемы простого, расширенного, контекстного и специального поиска.
Под простым поиском понимается поиск Web-ресурсов по одному или нескольким ключевым словам. Недостаток простого поиска заключается в том, что обычно он выдает слишком много документов, среди которых трудно выбрать наиболее подходящие.
При использовании расширенного поиска ключевые слова связывают между собой операторами логических отношений. Расширенный поиск применяют в тех случаях, когда приемы простого поиска дают слишком много результатов. С помощью логических отношений поисковое задание формируют так, чтобы более точно детализировать задание и ограничить область отбора, например по дате публикации или типу данных.
Контекстный поиск – это поиск по точной фразе. Он удобен для реферативного поиска информации, но доступен далеко не во всех поисковых системах. Прежде всего, чтобы обеспечивать такую возможность, система должна работать не только индексированными файлами, но и с полноценными образами Web-страниц. Эта операция достаточно медленная, и ее выполняют не все поисковые системы.
Специальный поиск применяют при розыске Web-страниц, содержащих ссылки на заданные адреса URL, содержащих заданные данные в служебных полях, например в поле заголовка и т.п.
Расширенный поиск. Кроме средства простого поиска обычно поисковые службы предоставляют средства расширенного поиска. Эти средства позволяют более точно формулировать поисковое задание, но требуют определенного опыта и работают заметно медленнее. В большинстве поисковых систем команды расширенного поиска формируются с помощью логических команд. Удобство использования логических команд в частности связано с тем, что команды простого поиска у многих поисковых систем реализованы по-разному. Каждая система стремится сделать средства простого поиска наиболее удобными, а средства расширенного поиска – наиболее стандартными. Тем не менее, для обозначения логических операторов в различных поисковых системах используются разные обозначения. Поэтому желательно перед осуществлением расширенного поиска желательно изучить синтаксис поисковых запросов выбранной поисковой системы.
Рассмотрим подробнее операторы логических отношений (логические команды).
Логическая оператор OR (ИЛИ) служит для формирования поискового запроса, если искомый текст должен содержать хотя бы один из терминов, соединенных данным оператором. Этот оператор в различных поисковых системах может обозначаться одним из следующих способов: | ; OR; ИЛИ.
Например, результат запроса «Чёрное OR море» – будет представлен списком ссылок на документы, в которых есть слово «Чёрное», или слово «море», или оба этих слова вместе.
В некоторых поисковых системах, как отмечалось выше, по умолчанию ключевые слова в запросе связаны именно этим логическим отношением.
С помощью логического оператора AND (И) осуществляется поиск документов, содержащих все термины, соединенные данным оператором. Этот оператор может обозначаться одним из следующих способов: +; AND; &; И.
Например, по запросу – «Чёрное AND море» – будут найдены документы, в которых содержатся слова «черное» и «море».
Например, по запросу – «Чёрное NOT море», результат – документы, в которых есть слово «Чёрное» и нет слова «море».
С помощью логических операций можно создавать достаточно сложные запросы. Запрос из нескольких слов, перемежающихся операторами, будет истолкован в соответствии с их приоритетом. Операторы AND и NOT традиционно имеют более высокий приоритет, поэтому запрос из нескольких слов при обработке сначала группируется по операторам AND и NOT, и лишь потом по операторам OR. Например, по запросу «Чёрное AND море OR Крым» будут найдены документы, либо содержащие обязательно слова: «Чёрное» и «море», либо слово «Крым», либо все три слова.
Изменить порядок группировки можно использованием скобок. Оператор, стоящий в скобках, будет выполняться в первую очередь Использование скобок позволяет строить вложенные запросы и передавать их операторам в качестве аргументов. Так по запросу «Чёрное AND (море OR Крым)» будут найдены документы, в которых обязательно содержится слово «Чёрное» и одно из двух слов «море» или «Крым».
С помощью вложенных запросов можно значительно ограничивать область отбора, освобождая результирующий список от ненужных ссылок. Так, например, если нас интересует информация об отдыхе на юге на море, но исключительно на российском побережье, то можно попробовать использовать примерно такой запрос – «отдых AND ((Азовское OR Чёрное) AND море) NOT (Крым OR Турция OR Болгария)».
Использование круглых скобок для управления порядком исполнения задания на поиск разрешается большинством крупнейших поисковых систем.
Поисковая система – это комплекс программ и мощных компьютеров, автоматически просматривающих ресурсы Интернет, которые они могут найти, и индексирующих их содержание. Поисковые системы могут отличаться по эффективности поиска, по языку поиска (русский, английский и др.) и по некоторым другим возможностям. Например, одни поисковые системы находят информацию только в виде Web-страниц, другие могут просматривать и группы новостей, и файловые серверы. Результатом поиска являются гиперссылки на документы, содержащие требуемую информацию.
Наиболее известны следующие системы для поиска информации в международных информационных ресурсах:
Для поиска информации в российских информационных ресурсах:
Для поиска информации в Интернет с использованием поисковой системы необходимо перейти на ее WEB – страницу, набрав электронный адрес или воспользоваться гипертекстовой ссылкой на эту систему.
Поисковые системы могут быть 2-х типов: универсальные и специализированные. Наиболее популярные современные поисковые системы сочетают в себе оба типа.
В универсальных системах используется обычный принцип поиска в неструктурированных документах – по ключевым словам. Ключевым словом (Keyword) документа называется отдельное слово или словосочетание, которое отражает содержание данного документа.
На начальной странице поисковой системы обычно расположено обширное меню тем и поле для ввода запроса, иногда можно задать язык для поиска. Для поиска документов по ключевому слову надо ввести это слово в поле для ввода запроса и нажать кнопку “ Search ” (или “ Поиск ” в русских системах), расположенную рядом с полем ввода. Для поиска можно использовать словосочетание; для этого надо словосочетание заключить в двойные кавычки. В некоторых системах можно осуществлять поиск по части слова, оставшаяся часть слова заменяется знаком “*”, как в шаблоне имени файла. Знаки “+” и “-” перед словом требуют обязательного присутствия или отсутствия этого слова в документе.
Существует также кнопка перехода к расширенному поиску (Advanced Search). Главное отличие расширенного поиска – использование в запросе логических операторов и круглых скобок. Для построения сложного запроса используются логические операторы AND (И), OR (ИЛИ), NOT (НЕТ) и NEAR (около; не далее чем в 10 символах). Логические операторы ставятся между словами или словосочетаниями. Здесь могут использоваться даты документов размер документов и другие критерии. Интерфейсы расширенного поиска у разных поисковых систем существенно отличаются; для наиболее эффективного использования нужно внимательно почитать раздел Advanced Search Help поисковой системы.
Поисковые системы обычно состоят из трех компонентов:
Поисковые роботы – это специальные программы, которые занимаются поиском страниц в сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных.
При запросе к поисковой системе база данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме поиска, и выводит список ссылок на документы, соответствующих запросу. В этом списке представлены ссылки на различные Web-страницы, причем ссылки располагаются по степени убывания встреченных на данных страницах слов, совпадающих с ключевыми словами. При просмотре списка необходимо выбрать те страницы, которые нужно просмотреть. Некоторые системы составляют список ссылок по степени свежести страниц, другие же – по степени вероятности того, что данные страницы окажутся искомыми.
Специализированные справочные службы – это тематические каталоги, в которых собраны структурированные сведения об адресах серверов по той или иной тематике. Ссылки в такие каталоги заносятся не автоматически, а с помощью администраторов. Они стараются сделать свои коллекции наиболее полными, включающими все доступные ресурсы на каждую тему. В результате пользователю не нужно самому собирать все ссылки по интересующему его вопросу, а достаточно найти этот вопрос в каталоге – работа по поиску и систематизации ссылок уже сделана за него. Как правило, хорошие каталоги Интернет обеспечивают разнообразный дополнительный сервис: поиск по ключевым словам в своей базе данных, списки последних поступлений, списки наиболее интересных из них, выдачу случайной ссылки, автоматическое оповещение по электронной почте о свежих поступлениях.
Поисковые каталоги предназначены для поиска по темам. Обычно они построены по иерархическому принципу, т.е. каждый шаг поиска это выбор подраздела с более конкретной тематикой искомой информации. На нижнем уровне поиска пользователь получает относительно небольшой список ссылок на искомую информацию.
Для того чтобы обойти всю сеть, мощному роботу нужно от нескольких дней до нескольких недель. При этом составляется свежий и подробный индекс – опись доступных ресурсов. При каждом новом цикле индекс обновляется, и старые недействительные адреса удаляются. Однако автоматизированный подход приводит к тому, что индекс оказывается засоренным большим количеством профессионально слабых, неинформативных адресов, которые пользователь нередко и получает в результате поиска.
Каталоги составляются администраторами, просматривающими каждый новый сайт прежде, чем включить его в индекс. Качество информации каталогов выше, и нетематическая информация попасть в каталог просто не может; но коллектив редакторов может не поспевать за темпами расширения Интернета. Кроме того, чем дальше, тем больше в каталоге накапливается заброшенных или устаревших адресов – его не успевают чистить. В отличие от роботов, каталоги индексируют документ не по наиболее часто встречающимся словам, а по тем ключевым словам, которые вводятся администраторами.
Если пользователя интересует хорошо разработанная и часто востребуемая тема, популярный материал, то проще воспользоваться специализированным каталогом, обычно расположенным на первой странице каждой поисковой системы. Метод работы здесь как в обычной библиотеке: двигаясь от общего к частному, достигается список нужных сайтов. Для более специального поиска, как правило, необходимо использовать ключевые слова.
Помимо услуг по нахождению сайтов, поисковые системы предоставляют широкий перечень разнообразной сопутствующей информации, например: новости, гороскопы, почтовые ящики, электронная коммерция, котировки акций, погода, спорт, географические карты, программы телевидения, лотереи и т.д.
Как работают поисковые системы
Мы разбирали старые письма и наткнулись на статью, которую писал Илья Сегалович iseg для журнала «Мир Internet» в далёком 2002 году. В ней он сравнивает интернет и поисковые системы с чудесами света, размышляет о поисковых технологиях и вспоминает их историю. Несмотря на загруженность по работе, Илья написал статью в рекордные сроки и даже снабдил достаточно подробным словарём терминов, который особенно интересно читать в наши дни. Нам не удалось найти электронную версию журнала со статьей, поэтому сегодня мы публикуем её в нашем блоге, первым автором которого, к слову, был Илья.
В мире написаны сотни поисковых систем, а если считать функции поиска, реализованные в самых разных программах, то счет надо вести на тысячи. И как бы ни был реализован процесс поиска, на какой бы математической модели он ни основывался, идеи и программы, реализующие поиск, достаточно просты. Хотя эта простота, относится, по-видимому, к той категории, про которую говорят «просто, но работает». Так или иначе, но именно поисковые системы стали одним из двух новых чудес света, предоставив Homo Sapiens неограниченный и мгновенный доступ к информации. Первым чудом, очевидно, можно считать Интернет как таковой, с его возможностями всеобщей коммуникации.
Поисковые системы в исторической перспективе
Существует распространенное убеждение, что каждое новое поколение программ совершенней предыдущего. Дескать, раньше все было несовершенно, зато теперь повсюду царит чуть ли не искусственный интеллект. Иная крайняя точка зрения состоит в том, что «все новое – это хорошо забытое старое». Думаю, что применительно к поисковым системам истина лежит где-то посередине.
Но что же поменялось в действительности за последние годы? Не алгоритмы и не структуры данных, не математические модели. Хотя и они тоже. Поменялась парадигма использования систем. Проще говоря, к экрану со строчкой поиска подсели домохозяйка, ищущая утюг подешевле, и выпускник вспомогательного интерната в надежде найти работу автомеханика. Кроме появления фактора, невозможного в доинтернетовскую эру – фактора тотальной востребованности поисковых систем – стала очевидна еще пара изменений. Во-первых, стало ясно, что люди не только «думают словами», но и «ищут словами». В ответе системы они ожидают увидеть слово, набранное в строке запроса. И второе: «человека ищущего» трудно «переучить искать», так же как трудно переучить говорить или писать. Мечты 60-х – 80-х об итеративном уточнении запросов, о понимании естественного языка, о поиске по смыслу, о генерации связного ответа на вопрос с трудом выдерживают сейчас жестокое испытание реальностью.
Алгоритм + Структура данных = Поисковая система
Как и любая программа, поисковая система оперирует со структурами данных и исполняет алгоритм. Разнообразие алгоритмов не очень велико, но оно есть. Не считая квантовых компьютеров, которые обещают нам волшебный прорыв в «алгоритмической сложности» поиска, и про которые автору почти ничего не известно, есть четыре класса поисковых алгоритмов. Три алгоритма из четырех требуют «индексирования», предварительной обработки документов, при котором создается вспомогательный файл, сиречь «индекс», призванный упростить и ускорить сам поиск. Это алгоритмы инвертированных файлов, суффиксных деревьев, сигнатур. В вырожденном случае предварительный этап индексирования отсутствует, а поиск происходит при помощи последовательного просмотра документов. Такой поиск называется прямым.
Прямой поиск
ПРЯМОЙ ПОИСК ТЕКСТА. В этой функции языка C текст строки big просматривают слева направо и для каждой позиции x запускают последовательное сравнение с искомой подстрокой little. Для этого, двигая одновременно два указателя y и z, попарно сравнивают все символы. Если мы успешно дошли до конца искомой подстроки, значит она найдена! |
Несмотря на кажущуюся простоту, последние 30 лет прямой поиск интенсивно развивается. Было выдвинуто немалое число идей, сокращающих время поиска в разы. Эти алгоритмы подробно описаны в разнообразной литературе, есть их сводки и сопоставления. Неплохие обзоры прямых методов поиска можно найти в учебниках, например Седжвика или Кормена. При этом надо учесть, что новые алгоритмы и их улучшенные варианты появляются постоянно.
Хотя прямой просмотр всех текстов – довольно медленное занятие, не следует думать, что алгоритмы прямого поиска не применяются в интернете. Норвежская поисковая система Fast (www.fastsearch.com) использовала чип, реализующий логику прямого поиска упрощенных регулярных выражений, и разместила 256 таких чипов на одной плате. Это позволяло Fast-у обслуживать довольно большое количество запросов в единицу времени.
Кроме того, есть масса программ, комбинирующих индексный поиск для нахождения блока текста с дальнейшим прямым поиском внутри блока. Например, весьма популярный, в том числе и в Рунете, glimpse.
Вообще, у прямых алгоритмов есть принципиально беспроигрышные отличительные черты. Например, неограниченные возможности по приближенному и нечеткому поиску. Ведь любое индексирование всегда сопряжено с упрощением и нормализацией терминов, а, следовательно, с потерей информации. Прямой же поиск работает непосредственно по оригинальным документам безо всяких искажений.
Инвертированный файл
Эта простейшая структура данных, несмотря на свое загадочное иностранное название, интуитивно знакома как любому грамотному человеку, так и любому программисту баз данных, даже не имевшему дело с полнотекстовым поиском. Первая категория людей знает, что это такое, по «конкордансам» – алфавитно упорядоченным исчерпывающим спискам слов из одного текста или принадлежащих одному автору (например «Конкорданс к стихам А. С. Пушкина», «Словарь-конкорданс публицистики Ф. М. Достоевского»). Вторые имеют дело с той или иной формой инвертированного списка всякий раз, когда строят или используют «индекс БД по ключевому полю».
Проиллюстрируем эту структуру при помощи замечательного русского конкорданса – «Симфонии», выпущенной Московской патриархией по тексту синодального перевода Библии.
Перед нами упорядоченный по алфавиту список слов. Для каждого слова перечислены все «позиции», в которых это слово встретилось. Поисковый алгоритм состоит в отыскании нужного слова и загрузке в память уже развернутого списка позиций.
Чтобы сэкономить на дисковом пространстве и ускорить поиск, обычно прибегают к двум приемам. Во-первых, можно сэкономить на подробности самой позиции. Ведь чем подробнее задана такая позиция, например, в случае с «Симофонией» это «книга+глава+стих», тем больше места потребуется для хранения инвертированного файла.
В наиподробнейшем варианте в инвертированном файле можно хранить и номер слова, и смещение в байтах от начала текста, и цвет и размер шрифта, да много чего еще. Чаще же просто указывают только номер документа, скажем, книгу Библии, и число употреблений этого слова в нем. Именно такая упрощенная структура считается основной в классической теории информационного поиска – Information Retrieval (IR).
Второй (никак не связанный с первым) способ сжатия: упорядочить позиции для каждого слова по возрастанию адресов и для каждой позиции хранить не полный ее адрес, а разницу от предыдущего. Вот как будет выглядеть такой список для нашей странички в предположении, что мы запоминаем позицию вплоть до номера главы:
В литературе встречается и более тяжелая артиллерия упаковочных алгоритмов самого широкого спектра: арифметический, Хафман, LZW и т. д. Прогресс в этой области идет непрерывно. На практике в поисковых системах они используются редко: выигрыш невелик, а мощности процессора расходуются неэффективно.
В результате всех описанных ухищрений размер инвертированного файла, как правило, составляет от 7 до 30 процентов от размера исходного текста, в зависимости от подробности адресации.
Занесены в «Красную книгу»
Неоднократно предлагались другие, отличные от инвертированного и прямого поиска алгоритмы и структуры данных. Это, прежде всего, суффиксные деревья (см. книги Манбера и Гоннета), а также сигнатуры.
Первый из них функционировал и в интернете, будучи запатентованным алгоритмом поисковой сиcтемы OpenText. Мне доводилось встречать суффиксные индексы в отечественных поисковых системах.
Второй – метод сигнатур – представляет собой преобразование документа к поблочным таблицам хеш-значений его слов – «сигнатуре» и последовательному просмотру «сигнатур» во время поиска.
Широкого распространения ни тот ни другой метод не получили, а, следовательно, не заслужили и подробного обсуждения в этой небольшой статье.
Математические модели
Приблизительно 3 из 5 поисковых систем и модулей функционируют безо всяких математических моделей. Точнее сказать, их разработчики не ставят перед собой задачу реализовывать абстрактную модель и/или не подозревают о существовании оной. Принцип здесь прост: лишь бы программа хоть что-нибудь находила. Абы как. А дальше сам пользователь разберется.
Однако, как только речь заходит о повышении качества поиска, о большом объеме информации, о потоке пользовательских запросов, кроме эмпирически проставленных коэффициентов полезным оказывается оперировать каким-нибудь пусть и несложным теоретическим аппаратом. Модель поиска – это некоторое упрощение реальности, на основании которого получается формула (сама по себе никому не нужная), позволяющая программе принять решение: какой документ считать найденным и как его ранжировать. После принятия модели коэффициенты часто приобретают физический смысл и становятся понятней самому разработчику, да и подбирать их становится интересней.
Все многообразие моделей традиционного информационного поиска (IR) принято делить на три вида: теоретико-множественные (булевская, нечетких множеств, расширенная булевская), алгебраические (векторная, обобщенная векторная, латентно-семантическая, нейросетевая) и вероятностные.
Булевское семейство моделей, по сути, – первое, приходящее на ум программисту, реализующему полнотекстовый поиск. Есть слово – документ считается найденным, нет – не найденным. Собственно, классическая булевская модель – это мостик, связывающий теорию информационного поиска с теорией поиска и манипулирования данными.
Критика булевской модели, вполне справедливая, состоит в ее крайней жесткости и непригодности для ранжирования. Поэтому еще в 1957 году Joyce и Needham (Джойс и Нидхэм) предложили учитывать частотные характеристики слов, чтобы «… операция сравнения была бы отношением расстояния между векторами. ». Векторная модель и была с успехом реализована в 1968 году отцом-основателем науки об информационном поиске Джерардом Солтоном (Gerard Salton)* в поисковой системе SMART (Salton’s Magical Automatic Retriever of Text). Ранжирование в этой модели основано на естественном статистическом наблюдении, что чем больше локальная частота термина в документе (TF) и больше «редкость» (то есть обратная встречаемость в документах) термина в коллекции (IDF), тем выше вес данного документа по отношению к термину.
* Gerard Salton (Sahlman) 1927-1995. Он же Селтон, он же Залтон и даже Залман, он же Жерар, Герард, Жерард или даже Джеральд в зависимости от вкуса переводчика и допущенных опечаток.
http://www.cs.cornell.edu/Info/Department/Annual95/Faculty/Salton.html
http://www.informatik.uni-trier.de/
clv2m/salton.txt
Обозначение IDF ввела Karen Sparck-Jones (Карен Спарк-Джоунз) в 1972 в статье про различительную силу (term specificity). С этого момента обозначение TF*IDF широко используется как синоним векторной модели.
Наконец, в 1977 году Robertson и Sparck-Jones (Робертсон и Спарк-Джоунз) обосновали и реализовали вероятностную модель (предложенную еще в 1960-м), также положившую начало целому семейству. Релевантность в этой модели рассматривается как вероятность того, что данный документ может оказаться интересным пользователю. При этом подразумевается наличие уже существующего первоначального набора релевантных документов, выбранных пользователем или полученных автоматически при каком-нибудь упрощенном предположении. Вероятность оказаться релевантным для каждого следующего документа рассчитывается на основании соотношения встречаемости терминов в релевантном наборе и в остальной, «нерелевантной» части коллекции. Хотя вероятностные модели обладают некоторым теоретическим преимуществом, ведь они располагают документы в порядке убывания «вероятности оказаться релевантным», на практике они так и не получили большого распространения.
Я не собираюсь вдаваться в подробности и выписывать громоздкие формулы для каждой модели. Их сводка вместе с обсуждением занимает в сжатом виде 35 страниц в книжке «Современный информационный поиск». Важно только заметить, что в каждом из семейств простейшая модель исходит из предположения о взаимонезависимости слов и обладает простым условием фильтрации: документы, не содержащие слова запроса, никогда не бывают найденными. Продвинутые («альтернативные») модели каждого из семейств не считают слова запроса взаимонезависимыми, а, кроме того, позволяют находить документы, не содержащие ни одного слова из запроса.
Поиск «по смыслу»
Способность находить и ранжировать документы, не содержащие слов из запроса, часто считают признаком искусственного интеллекта или поиска по смыслу и относят априори к преимуществам модели. Вопрос о том, так ли это или нет, мы оставим за рамками данной статьи.
Для примера опишу лишь одну, пожалуй, самую популярную модель, работающую по смыслу. В теории информационного поиска данную модель принято называть латентно-семантическим индексированием (иными словами, выявлением скрытых смыслов). Эта алгебраическая модель основана на сингулярном разложении прямоугольной матрицы, ассоциирующей слова с документами. Элементом матрицы является частотная характеристика, отражающая степень связи слова и документа, например, TF*IDF. Вместо исходной миллионно-размерной матрицы авторы метода Furnas и Deerwester предложили использовать 50-150 «скрытых смыслов», соответствующих первым главным компонентам ее сингулярного разложения.
Давным-давно доказано, что если оставить в рассмотрении первые k сингулярных чисел (остальные приравнять нулю), мы получим ближайшую из всех возможных аппроксимацию исходной матрицы ранга k (в некотором смысле ее «ближайшую семантическую интерпретацию ранга k»). Уменьшая ранг, мы отфильтровываем нерелевантные детали; увеличивая, пытаемся отразить все нюансы структуры реальных данных.
Оценка качества
Consistency checking has shown that the overlap of relevant documents between any two assesors is on the order of 40% on average…cross-assesor recall and precision of about 65% …This implies a practical upper bound on retrieval system performance of 65% …
Donna Harman
What we have learned, and not learned, from TREC
Какова бы ни была модель, поисковая система нуждается в «тюнинге» – оценке качества поиска и настройке параметров. Оценка качества – идея, фундаментальная для теории поиска. Ибо именно благодаря оценке качества можно говорить о применимости или неприменимости той или иной модели и даже обсуждать их теоретичеcкие аспекты.
В частности, одним из естественных ограничений качества поиска служит наблюдение, вынесенное в эпиграф: мнения двух «асессоров» (специалистов, выносящих вердикт о релевантности) в среднем не совпадают друг с другом в очень большой степени! Отсюда вытекает и естественная верхняя граница качества поиска, ведь качество измеряется по итогам сопоставления с мнением асессора.
* Материалы конференции публично доступны по адресу trec.nist.gov/pubs.html.
Не только поиск
Как видно из «дорожек» TREC, к самому поиску тесно примыкает ряд задач, либо разделяющих с ним общую идеологию (классификация, маршрутизация, фильтрация, аннотирование), либо являющихся неотъемлемой частью поискового процесса (кластеризация результатов, расширение и сужение запросов, обратная связь, «запросо-зависимое» аннотирование, поисковый интерфейс и языки запросов). Нет ни одной поисковой системы, которой бы не приходилось решать на практике хотя бы одну из этих задач.
Зачастую наличие того или иного дополнительного свойства является решающим доводом в конкурентной борьбе поисковых систем. Например, краткие аннотации состоящие из информативных цитат документа, которыми некоторые поисковые системы сопровождают результаты своей работы, помогают им оставаться на полступеньки впереди конкурентов.
Обо всех задачах и способах их решения рассказать невозможно. Для примера рассмотрим «расширение запроса», которое обычно производится через привлечение к поиску ассоциированных терминов. Решение этой задачи возможно в двух видах – локальном (динамическом) и глобальном (статическом). Локальные техники опираются на текст запроса и анализируют только документы, найденные по нему. Глобальные же «расширения» могут оперировать тезаурусами, как априорными (лингвистическими), так и построенными автоматически по всей коллекции документов. По общепринятому мнению, глобальные модификации запросов через тезаурусы работают неэффективно, понижая точность поиска. Более успешный глобальный подход основан на построенных вручную статических классификациях, например, ВЕБ-директориях. Этот подход широко используется в интернет-поисковиках в операциях сужения или расширения запроса.
Нередко реализация дополнительных возможностей основана на тех же самых или очень похожих принципах и моделях, что и сам поиск. Сравните, например, нейросетевую поисковую модель, в которой используется идея передачи затухающих колебаний от слов к документам и обратно к словам (амплитуда первого колебания – все тот же TF*IDF), с техникой локального расширения запроса. Последняя основана на обратной связи (relevance feedback), в которой берутся наиболее смыслоразличительные (контрастные) слова из документов, принадлежащих верхушке списка найденного.
К сожалению, локальные методы расширения запроса, несмотря на эффектные технические идеи типа «Term Vector Database» и очевидную пользу, все еще остаются крайне «дорогим» удовольствием (в смысле вычислительных ресурсов).
Лингвистика
Немного в стороне от статистических моделей и структур данных стоит класс алгоритмов, традиционно относимых к лингвистическим. Точно границы между статистическими и лингвистическими методами провести трудно. Условно можно считать лингвистическими методы, опирающиеся на словари (морфологические, синтаксические, семантические), созданные человеком. Хотя считается доказанным, что для некоторых языков (например, для английского) лингвистические алгоритмы не вносят существенного прироста точности и полноты, все же основная масса языков требует хотя бы минимального уровня лингвистической обработки. Не вдаваясь в подробности, приведу только список задач, решаемых лингвистическими или окололингвистическими приемами:
— автоматическое определение языка документа
— токенизация (графематический анализ): выделение слов, границ предложений
— исключение неинформативных слов (стоп-слов)
— лемматизация (нормализация, стемминг): приведение словоизменительных форм к «словарной», в том числе и для слов, не входящих в словарь системы
— разделение сложных слов (компаундов) для некоторых языков (например, немецкого)
— дизамбигуация: полное или частичное снятие омонимии
— выделение именных групп
Еще реже в исследованиях и на практике можно встретить алгоритмы словообразовательного, синтаксического и даже семантического анализа. При этом под семантическим анализом чаще подразумевают какой-нибудь статистический алгоритм (LSI, нейронные сети), а если толково-комбинаторные или семантические словари и используются, то в крайне узких предметных областях.
Поиск в вебе
“Things that work well on TREC often do not produce good results on the web… Some argue that on the web, users should specify more accurately what they want and add more words to their query. We disagree vehemently with this position. If a user issues a query like «Bill Clinton» they should get reasonable results since there is a enormous amount of high quality information available on this topic”
Sergei Brin, Larry Page
The Anatomy of a Large-Scale Hypertextual Web Search Engine
«I was struck when a Google person told me at SIGIR that the most recent Google ranking algorithm completely ignores anything discovered at TREC, because all the good Ad Hoc ranking algorithms developed over the 10 years of TREC get trashed by spam»
Mark Sanderson
Пора вернуться к теме, с которой началась эта статья: что же изменилось в поисковых системах за последнее время?
Прежде всего, стало очевидно, что поиск в вебе, не может быть сколько-нибудь корректно выполнен, будучи основан на анализе (пусть даже сколь угодно глубоком, семантическом и т. п.) одного лишь текста документа. Ведь внетекстовые (off-page) факторы играют не меньшую, а порой и бо́льшую роль, чем текст самой страницы. Положение на сайте, посещаемость, авторитетность источника, частота обновления, цитируемость страницы и ее авторов – все эти факторы невозможно сбрасывать со счета.
Cтав основным источником получения справочной информации для человеческого вида, поисковые системы стали основным источником трафика для интернет-сайтов. Как следствие, они немедленно подверглись «атакам» недобросовестных авторов, желающих любой ценой оказаться в первых страницах результатов поиска. Искусственная генерация входных страниц, насыщенных популярными словами, техника клоакинга, «слепого текста» и многие другие приемы, предназначенные для обмана поисковых систем, мгновенно заполонили Интернет.
Кроме проблемы корректного ранжирования, создателям поисковых систем в Интернете пришлось решать задачу обновления и синхронизации колоссальной по размеру коллекции с гетерогенными форматами, способами доставки, языками, кодировками, массой бессодержательных и дублирующихся текстов. Необходимо поддерживать базу в состоянии максимальной свежести (на самом деле достаточно создавать иллюзию свежести – но это тема отдельного разговора), может быть учитывать индивидуальные и коллективные предпочтения пользователей. Многие из этих задач никогда прежде не рассматривались в традиционной науке информационного поиска.
Для примера рассмотрим пару таких задач и практических способов их решения в поисковых системах для интернета.
Качество ранжирования
Не все внетекстовые критерии полезны в равной мере. Именно ссылочная популярность и производные от нее оказались решающим фактором, поменявшим в 1999-2000 годах мир поисковых систем и вернувшим им преданность пользователей. Так как именно с ее помощью поисковые системы научились прилично и самостоятельно (без подпорок из вручную отредактированных результатов) ранжировать ответы на короткие частотные запросы, составляющие значительную часть поискового потока.
Простейшая идея глобального (то есть статического) учета ссылочной популярности состоит в подсчете числа ссылок, указывающих на страницы. Примерно то, что в традиционном библиотековедении называют индексом цитирования. Этот критерий использовался в поисковых системах еще до 1998 года. Однако он легко подвергается накрутке, кроме того, он не учитывает вес самих источников. Естественным развитием этой идеи можно считать предложенный Брином и Пейджем в 1998 году алгоритм PageRank – итеративный алгоритм, подобный тому, что используется в задаче определения победителя в шахматном турнире по швейцарской системе. В сочетании с поиском по лексике ссылок, указывающих на страницу (старая, весьма продуктивная идея, которая использовалась в гипертекстовых поисковых системах еще в 80-е годы), эта мера позволила резко повысить качество поиска.
Оба алгоритма, их формулы, условия сходимости подробно описаны, в том числе и в русскоязычной литературе. Отмечу только, что расчет статической популярности не является самоценной задачей, он используется в многочисленных вспомогательных целях: определение порядка обхода документов, ранжирование поиска по тексту ссылок и т. д. Формулы расчета популярности постоянно улучшают, в них вносят учет дополнительных факторов: тематической близости документов (например, популярная поисковая система www.teoma.com), их структуры и т.п., позволяющих понизить влияние непотизма. Интересной отдельной темой является эффективная реализация соответствующих структур данных.
Качество индекса
Хотя размер базы в интернете на поверхностный взгляд не кажется критическим фактором, это не так. Недаром рост посещаемости таких машин, как Google и Fast, хорошо коррелирует именно с ростом их баз. Основная причина: «редкие» запросы, то есть те, по которым находится менее 100 документов, составляют в сумме около 30% от всей массы поисков – весьма значительную часть. Этот факт делает размер базы одним из самых критичных параметров системы.
Однако рост базы, кроме технических проблем с дисками и серверами, ограничивается логическими: необходимостью адекватно реагировать на мусор, повторы и т.п. Не могу удержаться, чтобы не описать остроумный алгоритм, применяемый в современных поисковых системах для того, чтобы исключить «очень похожие документы».
Происхождение копий документов в Интернете может быть различным. Один и тот же документ на одном и том же сервере может отличаться по техническим причинам: быть представлен в разных кодировках и форматах; содержать переменные вставки – рекламу или текущую дату.
Широкий класс документов в вебе активно копируется и редактируется – ленты новостных агентств, документация и юридические документы, прейскуранты магазинов, ответы на часто задаваемые вопросы и т. д. Популярные типы изменений: корректура, реорганизация, ревизия, реферирование, раскрытие темы и т. д. Наконец, публикации могут быть скопированы с нарушением авторских прав и изменены злонамеренно с целью затруднить их обнаружение.
Кроме того, индексация поисковыми машинами страниц, генерируемых из баз данных, порождает еще один распространенный класс внешне мало отличающихся документов: анкеты, форумы, страницы товаров в электронных магазинах.
Очевидно, что с полными повторами проблем особых нет, достаточно сохранять в индексе контрольную сумму текста и игнорировать все остальные тексты с такой же контрольной суммой. Однако этот метод не работает для выявления хотя бы чуть-чуть измененных документов.
Для решения этой задачи Udi Manber (Уди Манбер) (автор известной программы приближенного прямого поиска agrep) в 1994 году предложил идею, а Andrei Broder (Андрей Бродер) в 1997-м придумал название и довел до ума алгоритм «шинглов» (от слова shingles, «черепички», «чешуйки»). Вот его примерное описание.
Для каждого десятисловия текста рассчитывается контрольная сумма (шингл). Десятисловия идут внахлест, с перекрытием, так, чтобы ни одно не пропало. А затем из всего множества контрольных сумм (очевидно, что их столько же, сколько слов в документе минус 9) отбираются только те, которые делятся на, скажем, 25. Поскольку значения контрольных сумм распределены равномерно, критерий выборки никак не привязан к особенностям текста. Ясно, что повтор даже одного десятисловия – весомый признак дублирования, если же их много, скажем, больше половины, то с определенной (несложно оценить вероятность) уверенностью можно утверждать: копия найдена! Ведь один совпавший шингл в выборке соответствует примерно 25 совпавшим десятисловиям в полном тексте!
Очевидно, что так можно определять процент перекрытия текстов, выявлять все его источники и т.п. Этот изящный алгоритм воплотил давнюю мечту доцентов: отныне мучительный вопрос «у кого студент списывал этот курсовик» можно считать решенным! Легко оценить долю плагиата в любой статье. (В том числе и в данной; надеюсь, что 0%; можете проверить.)
Чтобы у читателя не создалось впечатление, что информационный поиск исключительно западная наука, упомяну про альтернативный алгоритм определения почти-дубликатов, придуманный и воплощенный у нас в Яндексе. В нем используется тот факт, что большинство поисковых систем уже обладают индексом в виде инвертированного файла (или инвертированным индексом), и этот факт удобно использовать в процедуре нахождения почти-дубликатов.
Цена одного процента
Архитектурно современные поисковые системы представляют собой сложные многокомпьютерные комплексы. Начиная с некоторого момента по мере роста системы основная нагрузка ложится вовсе не на робота, а на поиск. Ведь в течение секунды приходят десятки и сотни запросов.
Для того чтобы справиться с этой проблемой, индекс разбивают на части и раскладывают по десяткам, сотням и даже тысячам компьютеров. Сами компьютеры, начиная с 1997 года (поисковая система Inktomi) представляют собой обычные 32-битные машины (Linux, Solaris, FreeBSD, Win32) с соответствующими ограничениями по цене и производительности. Исключением из общего правила осталась лишь AltaVista, которая с самого начала использовала относительно «большие» 64-битные компьютеры Alpha.
Поисковые системы для Интернета (и, вообще, все большие поисковые сиcтемы) могут ускорять свою работу при помощи техник эшелонирования и прюнинга. Первая техника состоит в разделении индекса на заведомо более релевантную и менее релевантную части. Поиск сначала выполняется в первой части, а затем, если ничего не найдено, или найдено мало, поисковая система обращается ко второй части индекса. Pruning (от англ. отсечение, сокращение) состоит в том, чтобы динамически прекращать обработку запроса после накопления достаточного количества релевантной информации. Бывает еще статический pruning, когда на основании некоторых допущений индекс сокращается за счет таких документов, которые заведомо никогда не будут найдены.
Отдельная проблема – организовать бесперебойную работу многокомпьютерных комплексов, бесшовное обновление индекса, устойчивость к сбоям и задержкам с ответами отдельных компонент. Для общения между поисковыми серверами и серверами, собирающими отклики и формирующими страницу выдачи разрабатываются специальные протоколы.
Решающее значение приобретает продумывание архитектуры всего комплекса с самого начала, так как любые изменения, например, добавление необычного фактора при ранжировании или сложного источника данных становится исключительно болезненной и сложной процедурой. Очевидно, системы, стартующие позже, имеют в этой ситуации преимущество. Но инертность пользователей весьма высока, так, например, требуется 2-4 года, чтобы сформированная многомиллионная аудитория сама, пусть и медленно, но перешла на непривычную поисковую систему, даже при наличии у нее неоспоримых преимуществ. В условиях жесткой конкуренции это порой неосуществимо.
Асессор (assesor, эксперт) – специалист в предметной области, выносящий заключение о релевантности документа, найденного поисковой системой.
Булевская модель (boolean, булева, булевая, двоичная) – модель поиска, опирающаяся на операции пересечения, объединения и вычитания множеств.
Векторная модель – модель информационного поиска, рассматривающая документы и запросы как векторы в пространстве слов, а релевантность – как расстояние между ними.
Вероятностная модель – модель информационного поиска, рассматривающая релевантность как вероятность соответствия данного документа запросу на основании вероятностей соответствия слов данного документа идеальному ответу.
Внетекстовые критерии (off-page, внестраничные) – критерии ранжирования документов в поисковых системах, учитывающие факторы, не содержащиеся в тексте самого документа и не извлекаемые оттуда никаким образом.
Входные страницы (doorways, hallways) – страницы, созданные для искусственного повышения ранга в поисковых системах (поискового спама). При попадании на них пользователя перенаправляют на целевую страницу.
Дизамбигуация (tagging, part of speech disambiguation, таггинг) – выбор одного из нескольких омонимов c помощью контекста; в английском языке часто сводится к автоматическому назначению грамматической категории «часть речи».
Дубликаты (duplicates) – разные документы с идентичным, с точки зрения пользователя, содержанием; приблизительные дубликаты (near duplicates, почти-дубликаты), в отличие от точных дубликатов, содержат незначительные отличия.
Иллюзия свежести – эффект кажущейся свежести, достигаемый поисковыми системами в интернете за счет более регулярного обхода тех документов, которые чаще находятся пользователями.
Инвертированный файл (inverted file, инверсный файл, инвертированный индекс, инвертированный список) – индекс поисковой системы, в котором перечислены слова коллекции документов, а для каждого слова перечислены все места, в которых оно встретилось.
Индекс (index, указатель) – см. индексирование.
Индекс цитирования (citation index) – число упоминаний (цитирований) научной статьи, в традиционной библиографической науке рассчитывается за промежуток времени, например, за год.
Индексирование (indexing, индексация) – процесс составления или приписывания указателя (индекса) – служебной структуры данных, необходимой для последующего поиска.
Информационный поиск (Information Retrieval, IR) – поиск неструктурированной информации, единицей представления которой является документ произвольных форматов. Предметом поиска выступает информационная потребность пользователя, неформально выраженная в поисковом запросе. И критерий поиска, и его результаты недетермированы. Этими признаками информационный поиск отличается от «поиска данных», который оперирует набором формально заданных предикатов, имеет дело со структурированной информацией и чей результат всегда детерминирован. Теория информационного поиска изучает все составляющие процесса поиска, а именно, предварительную обработку текста (индексирование), обработку и исполнение запроса, ранжирование, пользовательский интерфейс и обратную связь.
Клоакинг (cloaking) – техника поискового спама, состоящая в распознании авторами документов робота (индексирующего агента) поисковой системы и генерации для него специального содержания, принципиально отличающегося от содержания, выдаваемого пользователю.
Контрастность термина – см. различительная сила.
Латентно-семантическое индексирование – запатентованный алгоритм поиска по смыслу, идентичный факторному анализу. Основан на сингулярном разложении матрицы связи слов с документами.
Лемматизация (lemmatization, нормализация) – приведение формы слова к словарному виду, то есть лемме.
Накрутка поисковых систем – см. спам поисковых систем.
Непотизм – вид спама поисковых систем, установка авторами документов взаимных ссылок с единственной целью поднять свой ранг в результатах поиска.
Обратная встречаемость в документах (inverted document frequency, IDF, обратная частота в документах, обратная документная частота) – показатель поисковой ценности слова (его различительной силы); «обратная» говорят, потому что при вычислении этого показателя в знаменателе дроби обычно стоит число документов, содержащих данное слово.
Обратная связь – отклик пользователей на результат поиска, их суждения о релевантности найденных документов, зафиксированные поисковой системой и использующиеся, например, для итеративной модификации запроса. Следует отличать от псевдообратной связи – техники модификации запроса, в которой несколько первых найденных документов автоматически считаются релевантными.
Омонимия – см. полисемия.
Основа – часть слова, общая для набора его словообразовательных и словоизменительных (чаще) форм.
Поиск по смыслу – алгоритм информационного поиска, способный находить документы, не содержащие слов запроса.
Поиск похожих документов (similar document search) – задача информационного поиска, в которой в качестве запроса выступает сам документ и необходимо найти документы, максимально напоминающие данный.
Поисковая система (search engine, SE, информационно-поисковая система, ИПС, поисковая машина, машина поиска, «поисковик», «искалка») – программа, предназначенная для поиска информации, обычно текстовых документов.
Поисковое предписание (query, запрос) – обычно строчка текста.
Полисемия (polysemy, homography, многозначность, омография, омонимия) — наличие нескольких значений у одного и того же слова.
Полнота (recall, охват) – доля релевантного материала, заключенного в ответе поисковой системы, по отношению ко всему релевантному материалу в коллекции.
Почти-дубликаты (near-duplicates, приблизительные дубликаты) – см. дубликаты.
Прюнинг (pruning) – отсечение заведомо нерелевантных документов при поиске с целью ускорения выполнения запроса.
Прямой поиск – поиск непосредственно по тексту документов, без предварительной обработки (без индексирования).
Псевдо-обратная связь – см. обратная связь.
Различительная сила слова (term specificity, term discriminating power, контрастность, различительная сила) – степень ширины или узости слова. Слишком широкие термины в поиске приносят слишком много информации, при это существенная часть ее бесполезна. Слишком узкие термины помогают найти слишком мало документов, хотя и более точных.
Регулярное выражение (regualr expression, pattern, «шаблон», реже «трафарет», «маска») – способ записи поискового предписания, позволяющий определять пожелания к искомому слову, его возможные написания, ошибки и т. д. В широком смысле – язык, позволяющий задавать запросы неограниченной сложности.
Релевантность (relevance, relevancy) – соответствие документа запросу.
Сигнатура (signature, подпись) – множество хеш-значений слов некоторого блока текста. При поиске по методу сигнатур все сигнатуры всех блоков коллекции просматриваются последовательно в поисках совпадений с хеш-значениями слов запроса.
Словоизменение (inflection) – образование формы определенного грамматического значения, обычно обязательного в данном грамматическом контексте, принадлежащей к фиксированному набору форм (парадигме), характерному для слов данного типа. В отличие от словообразования, никогда не приводит к смене типа и порождает предсказуемое значение. Словоизменение имен называют склонением (declension), а глаголов – спряжением (conjugation).
Словообразование (derivation) – образование слова или основы из другого слова или основы. Чаще приводит к смене типа и к образованию слов, имеющих идеосинкразическое значение.
Смыслоразличительный – см. различительная сила.
Спам поисковых систем (spam, спамдексинг, накрутка поисковых систем) – попытка воздействовать на результат информационного поиска со стороны авторов документов.
Статическая популярность – см. PageRank.
Стемминг – процесс выделения основы слова.
Стоп-слова (stop-words) – те союзы, предлоги и другие частотные слова, которые данная поисковая система исключила из процесса индексирования и поиска для повышения своей производительности и/или точности поиска.
Суффиксные деревья, суффиксные массивы (suffix trees, suffix arrays, PAT-arrays) – индекс, основанный на представлении всех значимых суффиксов текста в структуре данных, известной как бор (trie). Суффиксом в этом индексе называют любую «подстроку», начинающуюся с некоторой позиции текста (текст рассматривается как одна непрерывная строка) и продолжающуюся до его конца. В реальных приложениях длина суффиксов ограничена, а индексируются только значимые позиции – например, начала слов. Этот индекс позволяет выполнять более сложные запросы, чем индекс, построенный на инвертированных файлах.
Токенизация (tokenization, lexical analysis, графематический анализ, лексический анализ) – выделение в тексте слов, чисел и иных токенов, в том числе, например, нахождение границ предложений.
Точность (precision) — доля релевантного материала в ответе поисковой системы.
Хеш-значение (hash-value) – значение хеш-функции (hash-function), преобразующей данные произвольной длины (обычно, строчку) в число фиксированного порядка.
Частота (слова) в документах (document frequency, встречаемость в документах, документная частота) – число документов в коллекции, содержащих данное слово.
Частота термина (term frequency, TF) – частота употреблений слова в документе.
Шингл – (shingle) – хеш-значение непрерывной последовательности слов текста фиксированной длины.
PageRank – алгоритм расчета статической (глобальной) популярности страницы в интернете, назван в честь одного из авторов — Лоуренса Пейджа. Соответствует вероятности попадания пользователя на страницу в модели случайного блуждания.
TF*IDF – численная мера соответствия слова и документа в векторной модели; тем больше, чем относительно чаще слово встретилось в документе и относительно реже – в коллекции.