<<<< Кузнецов Сергей Валентинович Исследование рисков и поиск возможностей через Интернет. Введение Карта сайта ONLINECI.RU Словарь Обучение Консультирование >>>>

Краткий словарь терминов и обозначений

CD-xxxxx * CG-xxxxx * HTML * NC-xxxxx * URL * Агрегатор новостей * Доменное имя * Лексическая единица * Лексический контекст * Лингвистический контекст * Логические скобки * Модификатор лексической единицы * Параметр поисковых шаблонов и формул * Пертинентность * ПКД  * Поисковый запрос * Поисковый оператор * Поисковая система * Поисковый термин * Поисковый шаблон * Полнотекстовый индекс * Полнотекстовый поиск  * Разделительный символ * Регулярные выражения при поискеРелевантность * Ситуативный контекст / Экстралингвистический контекст * Стандарт на термины поиска * Формула поискового запроса * Шаблон лексической единицы * Язык поисковых запросов

CD-xxxxx - десятичный номер папки на авторском компакт-диске "Исследование рисков и поиск возможностей через Интернет", например, "CD-61281" (Невидимый Интернет). Если номер заканчивается знаком «плюс», например, «CD-61281+» нужно использовать и все вложенные папки. См. оглавление компакт-диска "Исследование рисков и поиск возможностей через Интернет" (600 Кб) и его описание.

CG-xxxxx - десятичный номер группы ресурсов Интернет в авторской базе данных формата Check&Get 1.14, например, "CG-1112325" (Патентные базы данных). Если номер заканчивается знаком «плюс», например, «CG-1112325+» нужно использовать и все вложенные группы ресурсов. Встроенные каталоги ресурсов Интернет в группе NC-11 сгенерированы программой Check&Get 1.14 (командой "Главное меню – Файл – Импортировать в HTML") и имеют ту же нумерацию. См.пример.

HTML (HyperText Markup Language) язык разметки гипертекстовых документов - основной способ хранения и передачи документов в Internet. Представляет собой обычный текстовый файл. В качестве элементов форматирования используются так называемые тэги (tag). Главной особенностью HTML является способность использовать гиперсвязи (links), благодаря которым возможны ссылки на другие документы, как локальные, так и находящиеся на другом конце земного шара, а также внедрение в документы изображений, звука, видео и т.д. Документы формата HTML, как правило, имеют расширение .htm.

NC-xxxxx - десятичный номер группы ресурсов Интернет в авторской базе данных "Рабочее место аналитика" формата NetCaptor, например, "NC-1145" (Обратная стратегия поиска). Если номер заканчивается знаком «плюс», например, «NC-1145+» нужно использовать и все вложенные группы ресурсов.

URL (Uniform Resource Locator) - универсальный адрес ресурса - уникальное имя, однозначно определяющее документ в сети Internet. Наиболее широко используется в WEB. Когда Вы хотите cослаться на какой-то документ в сети, то пользуетесь стандартным соглашением по написанию URL, например, http://office.microsoft.com/ru-ru/default.aspx, где http - название протокола, office - имя домена третьего уровня, microsoft - имя домена второго уровня, com - имя домена первого уровня, office.microsoft.com - имя домена, ru-ru - имя папки на сервере, default.aspx – имя файла на сервере, где default – имя файла, .aspx – расширение имени файла. Расширение, как правило, указывает на формат файла, например, .htm – формат HTML, .doc – формат MS Word, .pdf – формат Adobe Acrobat, .txt – текст... Полная запись URL: протокол://имя-пользователя:пароль@домен:порт/путь/файл#якорь или протокол://логин:пароль@домен:порт/путь/файл?параметр1=значение1&параметр2=значение2... Имя пользователя (логин) и пароль необязательны и используются только для доступа к серверам, требующим авторизации. Порт задается тогда, когда его значение, установленное по умолчанию, не подходит: http (80), finger (79), ftp (21), nntp (119), pop3 (110), smtp (25), whois (43)...

Агрегатор новостей (news aggregator), новостная полнотекстовая поисковая система (news search engine) – сервер Интернет, обеспечивающий полнотекстовый поиск только актуальной информации (новинок) из многих ординарных источников, например, Красный Трамвай (www.redtram.ru), RocketNews (www.rocketnews.com) и другиe (см. реестр новостных баз данных).

Доменное имя (домен, Domain Name) - уникальный идентификатор, который назначается определенному IP-адресу. Доменное имя дает возможность обращаться к компьютеру по имени типа www.company.com, вместо запоминания его числового эквивалента (см. IP-адрес). Возьмем www.fishka.ru: ".ru" - домен первого уровня, "fishka" - второго, "www" - третьего.

Лексическая единица (Lexical unit) или лексема (lexema) -

  1. неразрывная последовательность символов в тексте (слово, фрагмент слова, целое число, цепочка из букв или цифр), не содержащая символов-разделителей (пробелов, знаков препинания и других спецсимволов);
  2. поисковый термин - неразрывная последовательность символов или регулярное выражение в поисковом запросе, ограниченная разделителями (спецсимволами) или элементами синтаксиса языка запросов поисковой системы (операторами, модификаторами, скобками и т.п.).

Лексический контекст (Lexical context) - совокупность лексических единиц, в окружении которых расположена в тексте искомая лексическая единица или их совокупность. Лексический контекст может иметь следующие объемы (перечислены в порядке увеличения):

В компактном описании поисковой системы Яндекс расширение лексического контекста действия логических операторов идет от п.4 "Фраза" к п.12 "Один документ".

Лингвистический контекст - языковое окружение, в котором употребляется конкретная единица языка в тексте, - понятие, очень близкое к лексическому контексту.

Логические скобки - парные круглые скобки - оператор языка поисковых запросов, изменяющий порядок исполнения других поисковых операторов. Сначала исполняется команды в самой внутренней (вложенной) скобке... (((А или B)и С) и (D или E)).

Модификатор лексической единицы - одноместный оператор, записываемый слитно с лексической единицей (в начале или конце слова), область действия которого ограничена этой поисковой единицей, например, !налог (искать конкретную словоформу через Яндекс), польза!с (искать слово с опечатками через Артефакт).

Параметр поисковых шаблонов и формул - подставляемая часть шаблонов и формул, представляющая из себя корректно работающий запрос конкретной поисковой системы. В авторской системе программирования запросов полнотекстовых поисковых машин параметры шаблонов и формул начинаются с символа "#" (решетка), например, #ПКД (проблема, как она дана), и выделяются жирный цветным шрифтом. До подстановки параметра в шаблоны / формулы обязательно нужно проверить его работоспособность в качестве поискового запроса.

Пертинентность, пертинентный (англ. pertinence, pertinent, франц. pertinence) - субъективная оценка потребителем степени cоответствия найденной информации его потребности или ПОЛЕЗНОСТЬ НАЙДЕННОГО для решения поставленной задачи. Согласно п. 3.5.2 стандарта пертинентность, пертинентный - соответствие полученной информации информационной потребности. В промышленных проектах построения баз знаний, автоматического классифицирования и компьютерной разведки по открытым источникам пертинентность результатов поиска должна поддерживаться на уровне не ниже 90%.

ПКД – проблема, как она дана потребителем (заказчиком). Для уточнения (кодификации) ПКД (требований заказчика) рекомендуется использовать специальные формы http://www.5186364.ru/webagent.htm.

Поисковый запрос, запрос на поиск, поисковое предписание (search query, search specification) - команда пользователя конкретной поисковой системе, переданная через соответствующую форму (пользовательский интерфейс) и, возможно, учитывающая особенности этой поисковой системы, в частности, языка поисковых запросов. В идеале поисковые запросы должны обеспечивать 100% релевантность и максимально возможную полноту результатов поиска при уровне пертинентности не ниже 90%. Обеспечить высокую релевантность при поиске возможно только в результате тщательного тестирования и хорошего знания особенностей конкретной поисковой системы, например, см. компактное описание поисковой системы Google http://www.onlineci.ru/googlecd.htm. Полнота поиска по аналогии в рамках конкретной базы данных с полнотекстовой поисковой системой обеспечивается выполнением п. 7, а 90% пертинентность - выполнением п. 8 соответствующей инструкции http://www.onlineci.ru/oci-in-how-to.htm. Примеры разнообразия поисковых запросов:

  • Поисковые запросы могут быть введены письменно на естественном языке (natural language searching / answer searching), например, "Сколько лет Альберту Эйнтшейну?" специализированной поисковой машине, например, англоязычной Ask http://www.ask.com.
  • Поисковые запросы могут уточняться выбором из списка терминов, присутствующих в найденных документах, например, по запросу tax может быть получен следующий результат http://www.dicy.com/search.cfm?st=tax, заметим, что связанные слова (related keywords) и ассоциированные фразы (associated phrases) сгруппированы отдельно;
  • Поиск может быть продолжен выбором по визуальной карте терминов, присутствующих в найденных документах, например, http://www.kwmap.net/tax.html;
  • Меню-ориентированный пользовательский интерфейс позволяет задавать поисковый запрос с булевой логикой, не набирая никаких операторов, например, чтобы найти словосочетание (фразу) "поисковый спам" в заголовке страниц через "Расширенный поиск" Gogo.ru, нужно просто заполнить соответствующие поля формы.
  • Командно-ориентированный пользовательский интерфейс, будучи самым сложным и самым гибким, дает возможность формировать необычайно замысловатые условия поиска. Например, можно через поисковый сервер Exalead.com командным запросом ((парк OR парки OR park OR parks) NEAR (знани* OR knowledge)) найти все документы, в тексте которых упоминаются "парки знаний", точнее содержащие рядом (в группе из 10 смежных слов) любые их двух словоформ "парк" и "park" и расширение справа слова "знание" или его английский эквивалент. Другие примеры командных запросов для поисковых систем см. http://www.knowbase.ru/knowdoc.htm.
  • Запросы могут быть введены устно или произнесены (голосовой поиск, voice searching), например, используя англоязычную службу MySpeak http://www.talkhouse.com/MySpeak.html, а ответы также могут быть получены устно, через "говорящую голову" (speaking head) ребенка, мужчины, женщины или животного, примеры см. http://www.webfaces.ru/casting/.
  • В качестве запроса на естественном языке может выступать обычный текст или файл без разметки, см. например, англоязычную службу доступа к медицинской информации eTBLAST http://invention.swmed.edu/etblast/etblast.shtml.
  • Поисковые термины могут быть введены на одном языке, а поиск может осуществляться на другом языке, например, с использованием специализированной службы Google "Поиск на другом языке" http://www.google.ru/language_tools.

Поисковый оператор, поисковая команда, логический оператор - оператор командного языка поисковых запросов, записываемый раздельно от лексических единиц и задающий определенное условие в отношении одной (одноместный оператор), двух (двуместный оператор) или многих (многоместный оператор) лексических единиц. Поисковый оператор (кроме ИЛИ) всегда действует в определенном лексическом контексте.

Поисковая система, поисковик, поисковая машина (search engine, information retrieval system) - прикладная программа, предназначенная для поиска информации. Поисковые машины Интернет представляют собой исполняемую страницу на сервере, содержащую формы для заполнения и иные элементы управления (реестры возможных значений, кнопки для запуска исполнения) и помощи пользователю. Ниже приведены фрагменты фасетно-иерархической классификации поисковых систем:

  1. по типам письменных поисковых запросов:
  2. по типу ввода поискового запроса и получения результата:
    • устный,
    • письменный / клавиатурный / знаковый (для ввода запроса кроме клавиатуры могут использоваться пиктограммы или сенсор),
      • с отправкой запроса и получением результата по электронной почте,
      • с отправкой запроса и получением результата на сотовый телефон,
      • иным средствами ввода-вывода
  3. по видам индекса поисковой системы;
    • собственный индекс у "поисковой системы" отсутствует:
      • конкретный полнотекстовый индекс арендуется,
      • запрос выполняется с использованием группы чужих полнотекстовых индексов (метапоиск, параллельный поиск, metasearch, parallel search) с объединением результатов,
      • запрос выполняется с использованием распределенной сети индексов неизвестной топологии (distributed search), таким образом, в частности, работает поиск в файлобменных (пиринговых) сетях,
      • иные варианты использования внешних баз данных
    • индекс не формируется (поиск проводится без индексирования, на лету),
    • индекс предварительно создается (проводится т.н. индексирование), причем в него вносятся:
    • имена файлов и папок,
    • метаданные,
    • ссылки из документов приемлемых форматов,
    • лексические единицы документов приемлемых форматов (полнотекстовый индекс):
      • с поддержкой соответствующих кодировок, в частности,
        • однобайтных, например, русская Koi8R,
        • двубайтных, например, японская Shift-JIS,
        • Unicode
      • с учетом транслитерации (в тексте "вечер" - в индексе "вечер" и "vecher"),
      • с учетом похожих кириллических и латинских букв (в тексте "ветер", в индексе "ветер" и "веtер"),
      • с учетом или без учета знаков акцентирования (в тексте "ещё" - в индексе "еще", в тексте "českých" - в индексе "ceskych" и "českých"),
      • с учетом похожих букв и цифр (в тексте "ЗАТО", в индексе "зато" и "3ато"),
      • в отношении учета морфологии естественного языка текста:
        • без учета словоизменений, т.е. все слова заносятся в индекс "как они встречаются в тексте",
        • с учетом морфологии конкретного естественного языка (русский, английский...):
          • в индекс вносится только нормальная форма слова (в тексте "ребята" - в индексе "ребенок"),
          • в индекс вносится и конкретная словоформа, и нормальная форма слова (в тексте "шедший" - в индексе "идти" и "шедший")
      • в отношении учета лексического контекста:
        • без учета расположения лексической единицы в документе,
        • с учетом лексического контекста, в частности, в индекс записывается порядковый номер:
          • лексической единицы от начала документа,
          • лексической единицы от начала предложения,
          • предложения от начала документа,
          • абзаца от начала документа
  4. по уровню соответствия найденного поисковому запросу:
    • жесткий поиск (exact search) - точное соответствие условиям запроса,
    • мягкий поиск, нечеткий поиск, приблизительный поиск, поиск похожих документов (approximate search, fuzzy search, similar search) - частичное соответствие условиям запроса,
    • поиск с опечатками (approximate spelling, misspelling search), как правило, не более одного несоответствующего символа в слове,
    • фонетический поиск (phonetic search) - поиск слов, имеющих аналогичное с лексической единицей произношение,
    • иные варианты соответствия запроса и результата
  5. по соответствию языков поискового запроса и искомого текста (совпадают или различаются, т.е. поиск выполняется на другом языке),
  6. существует множество иных оснований деления.

Поисковый термин (search term) - частный вид лексической единицы, единица информационно-поискового языка, являющаяся неделимым элементом поискового запроса и ограниченная символами-разделителями. Наличие поискового термина в документе служит основанием для выдачи документа по запросу. В отличии от спецсимволов поисковый термин включается в полнотекстовый индекс.

Поисковый шаблон, шаблон поискового запроса (search pattern, search query pattern) - работающая заготовка сложного и, как правило, трудоемкого в изготовлении поискового запроса для конкретной поисковой системы, включающая т.н. параметры. При загрузке в поисковую систему незаполненный шаблон, как правило, вызывает ошибку. Работающий поисковый запрос получается редактированием поискового шаблона (заменой параметров на конкретные значения). Для этого шаблон загружается в текстовый редактор (например, Блокнот или MS Word) и все параметры последовательно заменяются на значения пользователя, образуя работающие поисковые запросы. В авторской системе программирования запросов полнотекстовых поисковых систем все параметры поисковых шаблонов и формул начинаются с символа "#". Отсутствие символа "#" свидетельствует о корректном заполнении поискового шаблона. См. техническое задание и примеры.

Полнотекстовый индекс (Full text index) - результат полнотекстового индексирования документов в базе данных. Полнотекстовый индекс содержит информацию о том, в каком документе какая лексическая единица содержится. Если в полнотекстовом индексе учитывается словарное окружение лексической единицы, такой индекс называется контекстно-зависимым. Контекстно-зависимый индекс обеспечивает исполнение поисковых запросов с контекстными операторами (фраза, следование, близость). Контекстно-зависимые полнотекстовые индексы различают также по основанию деления - единице структурирования текста (слова, слова и предложения, слова и предложения и абзацы).

Полнотекстовый поиск (Full text searching) - автоматизированный документальный поиск, при котором в качестве поискового образа документа используется его полный текст или существенные части текста.

Разделительный символ, символ-разделитель - спецсимвол, используемый для разделения отдельных лексических единиц. Список символов-разделителей различается в разных поисковых системах...

Регулярные выражения при поиске - набор спецсимволов, позволяющий описать широкий спектр символов и подстрок лексических единиц при поиске. Например, следующий запрос (регулярное выражение стандарта VBScript / JavaScript) http(s)?://(www\.)?\w+\.\w{2,4}[^<\s\n]+ находит в тексте или html-коде все ссылки по протоколу http или https, например, http://www.liveco.ru/...

Релевантность, релевантный (англ. relevance, франц. adequation) - формальное соответствие найденного поисковому запросу (объективная характеристика). В идеале текст найденного документа должен с учетом синтаксиса поискового запроса содержать слова, включенные в поисковый запрос. Говоря проще, каждый найденный документ должен полностью отвечать условиям поискового запроса. Согласно п. 3.5.1 стандарта на термины поиска релевантность, релевантный - соответствие полученной информации информационному запросу. Однако из-за ошибок в описаниях и программного коде поисковых систем, устаревания информации в индексах поисковых систем, а также других организационно-технических причин реальный уровень релевантности результатов поиска колеблется в диапазоне 0-90%. Только тщательное тестирование поисковых систем и их грамотное использование позволяет поднять уровень релеватности до предела (90%). См. результат тестирования.

Ситуативный контекст / Экстралингвистический контекст -

  1. обстановка, время и место, к которым относится высказывание, а также факты реальной действительности, знание которых помогает рецептору правильно понять (интерпретировать) значения языковых единиц в высказывании;
  2. совокупность (последовательность) документов, позволяющая исследователю выполнить поисковый проект или информационно-аналитическую работу.

Стандарт на термины поиска. "Поиск и распространение информации. Термины и определения." ГОСТ 7.73—96 SU. Принят Межгосударственным Советом СНГ по стандартизации, метрологии и сертификации (протокол № 10 от 4 октября 1996 г.), введен в действие в РФ с 1 января 1998 г. http://docs.cntd.ru/document/1200004733

Поисковая формула, формула поискового запроса (search query formula, search formula) - логическая конструкция запроса для конкретной поисковой системы, содержащая только операторы, параметры и, возможно, регулярные выражения. В отличие от поискового шаблона формула поискового запроса не содержит никакой лексики и может быть использована для работы с текстами на любом языке. При попытке исполнения в качестве поискового запроса незаполненная формула, как правило, вызывает ошибку. Работающий поисковый запрос получается редактированием поисковой формулы (заменой параметров на конкретные значения). Для этого формула загружается в текстовый редактор (например, Блокнот или MS Word) и все параметры последовательно заменяются на значения пользователя, образуя работающие поисковые запросы. В авторской системе программирования запросов полнотекстовых поисковых систем все параметры поисковых формул начинаются с символа "#". Отсутствие символа "#" свидетельствует о корректном заполнении поисковой формулы. См. техническое задание и примеры.

Шаблон лексической единицы - одноместный оператор, записываемый слитно с лексической единицей (в начале, середине или конце слова), область действия которого ограничена этой поисковой единицей, например, налог* (искать все расширения слова справа через Convera http://www.public.ru), пол?за (искать слово с любым четвертым знаком без морфологии через Артефакт http://www.integrum.ru).

Язык поисковых запросов, командный язык поисковых запросов, синтаксис поисковых запросов (search query language, search query syntax) состоит из лексических единиц, модификаторов и шаблонов лексических единиц, операторов, логических скобок, регулярных выражений, сравнений, диапазонов и иных конструкций.

CD-xxxxx * CG-xxxxx * HTML * NC-xxxxx * URL * Агрегатор новостей * Доменное имя * Лексическая единица * Лексический контекст * Лингвистический контекст * Логические скобки * Модификатор лексической единицы * Параметр поисковых шаблонов и формул * Пертинентность * ПКД  * Поисковый запрос * Поисковый оператор * Поисковая система * Поисковый термин * Поисковый шаблон * Полнотекстовый индекс * Полнотекстовый поиск  * Разделительный символ * Регулярные выражения при поискеРелевантность * Ситуативный контекст / Экстралингвистический контекст * Стандарт на термины поиска * Формула поискового запроса * Шаблон лексической единицы * Язык поисковых запросов


<<<< Кузнецов Сергей Валентинович Исследование рисков и поиск возможностей через Интернет. Введение Карта сайта ONLINECI.RU Словарь Обучение Консультирование >>>>t;

Опубликовано по адресу: http://www.onlineci.ru/oci-in-termins.htm
Дата последнего редактирования 22.07.2015
© Кузнецов Сергей Валентинович


Сайты (Сергей Кузнецов / Кузнецов С.В.):
Всепроникающее обучение
Невидимый Интернет для бизнеса
Технологии производства баз знаний
Юридические исследования через Интернет
Бесплатные сервисы (Сергей Кузнецов / Кузнецов С.В.):
Поиск рыночных ниш через Яндекс
Выявление проблем через Яндекс
Поиск определений через Яндекс
Прочие генераторы поисковых запросов
Услуги (Сергей Кузнецов / Кузнецов С.В.):
Тематический мониторинг открытых источников
Профессиональный поиск информации
Поиск и мониторинг ниш на рынках
Технологические исследования через Интернет
Очные компьютерные тренинги
Дистанционное обучение
Об авторе: Резюме Сергея Кузнецова
Фотогалерея Сергея Кузнецова
Публикации и работы Сергея Кузнецова
Правила Сергея Кузнецова
Мифы о Сергее Кузнецове
Технологические работы Сергея Кузнецова
В разработке