<<<< | Кузнецов Сергей Валентинович | Исследование рисков и поиск возможностей через Интернет. Введение | Карта сайта ONLINECI.RU | Словарь | Обучение | Консультирование | >>>> |
Краткий словарь терминов и обозначений
CD-xxxxx * CG-xxxxx * HTML * NC-xxxxx * URL * Агрегатор новостей * Доменное имя * Лексическая единица * Лексический контекст * Лингвистический контекст * Логические скобки * Модификатор лексической единицы * Параметр поисковых шаблонов и формул * Пертинентность * ПКД * Поисковый запрос * Поисковый оператор * Поисковая система * Поисковый термин * Поисковый шаблон * Полнотекстовый индекс * Полнотекстовый поиск * Разделительный символ * Регулярные выражения при поиске * Релевантность * Ситуативный контекст / Экстралингвистический контекст * Стандарт на термины поиска * Формула поискового запроса * Шаблон лексической единицы * Язык поисковых запросов
CD-xxxxx - десятичный номер папки на авторском компакт-диске "Исследование рисков и поиск возможностей через Интернет", например, "CD-61281" (Невидимый Интернет). Если номер заканчивается знаком «плюс», например, «CD-61281+» нужно использовать и все вложенные папки. См. оглавление компакт-диска "Исследование рисков и поиск возможностей через Интернет" (600 Кб) и его описание.↑
CG-xxxxx - десятичный номер группы ресурсов Интернет в авторской базе данных формата Check&Get 1.14, например, "CG-1112325" (Патентные базы данных). Если номер заканчивается знаком «плюс», например, «CG-1112325+» нужно использовать и все вложенные группы ресурсов. Встроенные каталоги ресурсов Интернет в группе NC-11 сгенерированы программой Check&Get 1.14 (командой "Главное меню – Файл – Импортировать в HTML") и имеют ту же нумерацию. См.пример.↑
HTML (HyperText Markup Language) язык разметки гипертекстовых документов - основной способ хранения и передачи документов в Internet. Представляет собой обычный текстовый файл. В качестве элементов форматирования используются так называемые тэги (tag). Главной особенностью HTML является способность использовать гиперсвязи (links), благодаря которым возможны ссылки на другие документы, как локальные, так и находящиеся на другом конце земного шара, а также внедрение в документы изображений, звука, видео и т.д. Документы формата HTML, как правило, имеют расширение .htm. ↑
NC-xxxxx - десятичный номер группы ресурсов Интернет в авторской базе данных "Рабочее место аналитика" формата NetCaptor, например, "NC-1145" (Обратная стратегия поиска). Если номер заканчивается знаком «плюс», например, «NC-1145+» нужно использовать и все вложенные группы ресурсов. ↑
URL (Uniform Resource Locator) - универсальный адрес ресурса - уникальное имя, однозначно определяющее документ в сети Internet. Наиболее широко используется в WEB. Когда Вы хотите cослаться на какой-то документ в сети, то пользуетесь стандартным соглашением по написанию URL, например, http://office.microsoft.com/ru-ru/default.aspx, где http - название протокола, office - имя домена третьего уровня, microsoft - имя домена второго уровня, com - имя домена первого уровня, office.microsoft.com - имя домена, ru-ru - имя папки на сервере, default.aspx – имя файла на сервере, где default – имя файла, .aspx – расширение имени файла. Расширение, как правило, указывает на формат файла, например, .htm – формат HTML, .doc – формат MS Word, .pdf – формат Adobe Acrobat, .txt – текст... Полная запись URL: протокол://имя-пользователя:пароль@домен:порт/путь/файл#якорь или протокол://логин:пароль@домен:порт/путь/файл?параметр1=значение1&параметр2=значение2... Имя пользователя (логин) и пароль необязательны и используются только для доступа к серверам, требующим авторизации. Порт задается тогда, когда его значение, установленное по умолчанию, не подходит: http (80), finger (79), ftp (21), nntp (119), pop3 (110), smtp (25), whois (43)...↑
Агрегатор новостей (news aggregator), новостная полнотекстовая поисковая система (news search engine) – сервер Интернет, обеспечивающий полнотекстовый поиск только актуальной информации (новинок) из многих ординарных источников, например, Красный Трамвай (www.redtram.ru), RocketNews (www.rocketnews.com) и другиe (см. реестр новостных баз данных). ↑
Доменное имя (домен, Domain Name) - уникальный идентификатор, который назначается определенному IP-адресу. Доменное имя дает возможность обращаться к компьютеру по имени типа www.company.com, вместо запоминания его числового эквивалента (см. IP-адрес). Возьмем www.fishka.ru: ".ru" - домен первого уровня, "fishka" - второго, "www" - третьего. ↑
Лексическая единица (Lexical unit) или лексема (lexema) -
Лексический контекст (Lexical context) - совокупность лексических единиц, в окружении которых расположена в тексте искомая лексическая единица или их совокупность. Лексический контекст может иметь следующие объемы (перечислены в порядке увеличения):
В компактном описании поисковой системы Яндекс расширение лексического контекста действия логических операторов идет от п.4 "Фраза" к п.12 "Один документ". ↑
Лингвистический контекст - языковое окружение, в котором употребляется конкретная единица языка в тексте, - понятие, очень близкое к лексическому контексту.↑
Логические скобки - парные круглые скобки - оператор языка поисковых запросов, изменяющий порядок исполнения других поисковых операторов. Сначала исполняется команды в самой внутренней (вложенной) скобке... (((А или B)и С) и (D или E)). ↑
Модификатор лексической единицы - одноместный оператор, записываемый слитно с лексической единицей (в начале или конце слова), область действия которого ограничена этой поисковой единицей, например, !налог (искать конкретную словоформу через Яндекс), польза!с (искать слово с опечатками через Артефакт). ↑
Параметр поисковых шаблонов и формул - подставляемая часть шаблонов и формул, представляющая из себя корректно работающий запрос конкретной поисковой системы. В авторской системе программирования запросов полнотекстовых поисковых машин параметры шаблонов и формул начинаются с символа "#" (решетка), например, #ПКД (проблема, как она дана), и выделяются жирный цветным шрифтом. До подстановки параметра в шаблоны / формулы обязательно нужно проверить его работоспособность в качестве поискового запроса.↑
Пертинентность, пертинентный (англ. pertinence, pertinent, франц. pertinence) - субъективная оценка потребителем степени cоответствия найденной информации его потребности или ПОЛЕЗНОСТЬ НАЙДЕННОГО для решения поставленной задачи. Согласно п. 3.5.2 стандарта пертинентность, пертинентный - соответствие полученной информации информационной потребности. В промышленных проектах построения баз знаний, автоматического классифицирования и компьютерной разведки по открытым источникам пертинентность результатов поиска должна поддерживаться на уровне не ниже 90%. ↑
ПКД – проблема, как она дана потребителем (заказчиком). Для уточнения (кодификации) ПКД (требований заказчика) рекомендуется использовать специальные формы http://www.5186364.ru/webagent.htm. ↑
Поисковый запрос, запрос на поиск, поисковое предписание (search query, search specification) - команда пользователя конкретной поисковой системе, переданная через соответствующую форму (пользовательский интерфейс) и, возможно, учитывающая особенности этой поисковой системы, в частности, языка поисковых запросов. В идеале поисковые запросы должны обеспечивать 100% релевантность и максимально возможную полноту результатов поиска при уровне пертинентности не ниже 90%. Обеспечить высокую релевантность при поиске возможно только в результате тщательного тестирования и хорошего знания особенностей конкретной поисковой системы, например, см. компактное описание поисковой системы Google http://www.onlineci.ru/googlecd.htm. Полнота поиска по аналогии в рамках конкретной базы данных с полнотекстовой поисковой системой обеспечивается выполнением п. 7, а 90% пертинентность - выполнением п. 8 соответствующей инструкции http://www.onlineci.ru/oci-in-how-to.htm. Примеры разнообразия поисковых запросов:
Поисковый оператор, поисковая команда, логический оператор - оператор командного языка поисковых запросов, записываемый раздельно от лексических единиц и задающий определенное условие в отношении одной (одноместный оператор), двух (двуместный оператор) или многих (многоместный оператор) лексических единиц. Поисковый оператор (кроме ИЛИ) всегда действует в определенном лексическом контексте. ↑
Поисковая система, поисковик, поисковая машина (search engine, information retrieval system) - прикладная программа, предназначенная для поиска информации. Поисковые машины Интернет представляют собой исполняемую страницу на сервере, содержащую формы для заполнения и иные элементы управления (реестры возможных значений, кнопки для запуска исполнения) и помощи пользователю. Ниже приведены фрагменты фасетно-иерархической классификации поисковых систем:
- имена файлов и папок,
- метаданные,
- ссылки из документов приемлемых форматов,
- лексические единицы документов приемлемых форматов (полнотекстовый индекс):
- с поддержкой соответствующих кодировок, в частности,
- однобайтных, например, русская Koi8R,
- двубайтных, например, японская Shift-JIS,
- Unicode
- с учетом транслитерации (в тексте "вечер" - в индексе "вечер" и "vecher"),
- с учетом похожих кириллических и латинских букв (в тексте "ветер", в индексе "ветер" и "веtер"),
- с учетом или без учета знаков акцентирования (в тексте "ещё" - в индексе "еще", в тексте "českých" - в индексе "ceskych" и "českých"),
- с учетом похожих букв и цифр (в тексте "ЗАТО", в индексе "зато" и "3ато"),
- в отношении учета морфологии естественного языка текста:
- без учета словоизменений, т.е. все слова заносятся в индекс "как они встречаются в тексте",
- с учетом морфологии конкретного естественного языка (русский, английский...):
- в индекс вносится только нормальная форма слова (в тексте "ребята" - в индексе "ребенок"),
- в индекс вносится и конкретная словоформа, и нормальная форма слова (в тексте "шедший" - в индексе "идти" и "шедший")
- в отношении учета лексического контекста:
- без учета расположения лексической единицы в документе,
- с учетом лексического контекста, в частности, в индекс записывается порядковый номер:
- лексической единицы от начала документа,
- лексической единицы от начала предложения,
- предложения от начала документа,
- абзаца от начала документа
Поисковый термин (search term) - частный вид лексической единицы, единица информационно-поискового языка, являющаяся неделимым элементом поискового запроса и ограниченная символами-разделителями. Наличие поискового термина в документе служит основанием для выдачи документа по запросу. В отличии от спецсимволов поисковый термин включается в полнотекстовый индекс. ↑
Поисковый шаблон, шаблон поискового запроса (search pattern, search query pattern) - работающая заготовка сложного и, как правило, трудоемкого в изготовлении поискового запроса для конкретной поисковой системы, включающая т.н. параметры. При загрузке в поисковую систему незаполненный шаблон, как правило, вызывает ошибку. Работающий поисковый запрос получается редактированием поискового шаблона (заменой параметров на конкретные значения). Для этого шаблон загружается в текстовый редактор (например, Блокнот или MS Word) и все параметры последовательно заменяются на значения пользователя, образуя работающие поисковые запросы. В авторской системе программирования запросов полнотекстовых поисковых систем все параметры поисковых шаблонов и формул начинаются с символа "#". Отсутствие символа "#" свидетельствует о корректном заполнении поискового шаблона. См. техническое задание и примеры. ↑
Полнотекстовый индекс (Full text index) - результат полнотекстового индексирования документов в базе данных. Полнотекстовый индекс содержит информацию о том, в каком документе какая лексическая единица содержится. Если в полнотекстовом индексе учитывается словарное окружение лексической единицы, такой индекс называется контекстно-зависимым. Контекстно-зависимый индекс обеспечивает исполнение поисковых запросов с контекстными операторами (фраза, следование, близость). Контекстно-зависимые полнотекстовые индексы различают также по основанию деления - единице структурирования текста (слова, слова и предложения, слова и предложения и абзацы). ↑
Полнотекстовый поиск (Full text searching) - автоматизированный документальный поиск, при котором в качестве поискового образа документа используется его полный текст или существенные части текста. ↑
Разделительный символ, символ-разделитель - спецсимвол, используемый для разделения отдельных лексических единиц. Список символов-разделителей различается в разных поисковых системах... ↑
Регулярные выражения при поиске - набор спецсимволов, позволяющий описать широкий спектр символов и подстрок лексических единиц при поиске. Например, следующий запрос (регулярное выражение стандарта VBScript / JavaScript) http(s)?://(www\.)?\w+\.\w{2,4}[^<\s\n]+ находит в тексте или html-коде все ссылки по протоколу http или https, например, http://www.liveco.ru/... ↑
Релевантность, релевантный (англ. relevance, франц. adequation) - формальное соответствие найденного поисковому запросу (объективная характеристика). В идеале текст найденного документа должен с учетом синтаксиса поискового запроса содержать слова, включенные в поисковый запрос. Говоря проще, каждый найденный документ должен полностью отвечать условиям поискового запроса. Согласно п. 3.5.1 стандарта на термины поиска релевантность, релевантный - соответствие полученной информации информационному запросу. Однако из-за ошибок в описаниях и программного коде поисковых систем, устаревания информации в индексах поисковых систем, а также других организационно-технических причин реальный уровень релевантности результатов поиска колеблется в диапазоне 0-90%. Только тщательное тестирование поисковых систем и их грамотное использование позволяет поднять уровень релеватности до предела (90%). См. результат тестирования. ↑
Ситуативный контекст / Экстралингвистический контекст -
Стандарт на термины поиска. "Поиск и распространение информации. Термины и определения." ГОСТ 7.73—96 SU. Принят Межгосударственным Советом СНГ по стандартизации, метрологии и сертификации (протокол № 10 от 4 октября 1996 г.), введен в действие в РФ с 1 января 1998 г. http://docs.cntd.ru/document/1200004733 ↑
Поисковая формула, формула поискового запроса (search query formula, search formula) - логическая конструкция запроса для конкретной поисковой системы, содержащая только операторы, параметры и, возможно, регулярные выражения. В отличие от поискового шаблона формула поискового запроса не содержит никакой лексики и может быть использована для работы с текстами на любом языке. При попытке исполнения в качестве поискового запроса незаполненная формула, как правило, вызывает ошибку. Работающий поисковый запрос получается редактированием поисковой формулы (заменой параметров на конкретные значения). Для этого формула загружается в текстовый редактор (например, Блокнот или MS Word) и все параметры последовательно заменяются на значения пользователя, образуя работающие поисковые запросы. В авторской системе программирования запросов полнотекстовых поисковых систем все параметры поисковых формул начинаются с символа "#". Отсутствие символа "#" свидетельствует о корректном заполнении поисковой формулы. См. техническое задание и примеры. ↑
Шаблон лексической единицы - одноместный оператор, записываемый слитно с лексической единицей (в начале, середине или конце слова), область действия которого ограничена этой поисковой единицей, например, налог* (искать все расширения слова справа через Convera http://www.public.ru), пол?за (искать слово с любым четвертым знаком без морфологии через Артефакт http://www.integrum.ru). ↑
Язык поисковых запросов, командный язык поисковых запросов, синтаксис поисковых запросов (search query language, search query syntax) состоит из лексических единиц, модификаторов и шаблонов лексических единиц, операторов, логических скобок, регулярных выражений, сравнений, диапазонов и иных конструкций.
CD-xxxxx * CG-xxxxx * HTML * NC-xxxxx * URL * Агрегатор новостей * Доменное имя * Лексическая единица * Лексический контекст * Лингвистический контекст * Логические скобки * Модификатор лексической единицы * Параметр поисковых шаблонов и формул * Пертинентность * ПКД * Поисковый запрос * Поисковый оператор * Поисковая система * Поисковый термин * Поисковый шаблон * Полнотекстовый индекс * Полнотекстовый поиск * Разделительный символ * Регулярные выражения при поиске * Релевантность * Ситуативный контекст / Экстралингвистический контекст * Стандарт на термины поиска * Формула поискового запроса * Шаблон лексической единицы * Язык поисковых запросов
<<<< | Кузнецов Сергей Валентинович | Исследование рисков и поиск возможностей через Интернет. Введение | Карта сайта ONLINECI.RU | Словарь | Обучение | Консультирование | >>>>t; |
Опубликовано по адресу: http://www.onlineci.ru/oci-in-termins.htm
Дата последнего редактирования 18.08.2021
© Кузнецов Сергей Валентинович