Исследование рисков и поиск возможностей через Интернет 3. Средства доступа к информации в Интернет и ее анализа. Кузнецов Сергей Валентинович
<<<<Кузнецов Сергей ВалентиновичИсследование рисков и поиск возможностей через Интернет. Введение Карта сайта ONLINECI.RU СловарьОбучение Консультирование >>>>

Кузнецов Сергей Валентинович

Исследование рисков и поиск возможностей через Интернет

(Risks & opportunities online research)

<<<<  Оглавление  Литература  Версия для печати  >>>>

3. Средства доступа к информации в Интернет и ее анализа.

3.1. Путешествие по ссылкам. Исторически Интернет развивался как клиент-серверная гипертекстовая среда, основанная на стандартных протоколах. Попробуем оценить, каковы возможности найти нужный документ, путешествуя по гипертекстовым ссылкам (hypertext links). Менее 5% информации доступной через Интернет находится в стандартном для Интернет формате HTML, содержащем гипертекстовые ссылки. Остальную часть составляет т.н. «Невидимый Интернет» (Invisible Web), где информация либо лежит в иных, нестандартных форматах, либо доступна только через единственные точки входа (пользовательские интерфейсы, шлюзы) в многочисленные базы данных, либо недоступна по иным причинам. В условно «старой» части Интернет (США, Канада, Швейцария и некоторые другие страны Европы) от одного произвольно выбранного документа до любого другого можно пройти в среднем по 4-5 гипертекстовым ссылкам. В «новой» (бурно растущей) части Интернет (Китай, Япония, Германия, иные страны мира) этот показатель возрастает до 14-18 ссылок. Есть территории (развивающиеся страны, островные государства...), где доступ к ресурсам которых осуществляется только по одному нерегулярно работающему каналу. Очевидно, что даже в старой части Интернет с его относительно развитой инфрастуктурой ссылок вероятность найти по гипертекстовым связям нужный материал ничтожно мала.

3.2. Поисковые каталоги. Аналогично систематическим каталогам библиотек в Сети существуют масса серверов, предлагающих упорядоченные коллекции ресурсов Интернет на все случаи жизни. Это поисковые каталоги, которые ведутся редакторами-людьми. Крупнейший сервер Интернет этого класса – Проект «Открытый каталог» / «Open directory project» <http://www.dmoz.org/>. В нем с использованием иерархического классификатора на 460 тыс. рубрик учтено более 3.8 млн. ресурсов Интернет. Эту титаническую работу на общественных началах ведут 58 тысяч редакторов. Понятно, что систематизированная таким образом часть открытых ресурсов Интернет – это капля в море и собрать с использованием поисковых каталогов всю информацию по конкретному вопросу совершенно нереально.

3.3. Полнотекстовые поисковые системы. В отличие от каталогов обновление полнотекстовых поисковых систем Интернет выполняют программные роботы (spiders, robots, crawlers, bots). Идя по ссылкам из т.н. полнотекстового индекса базы данных или по заявкам web-администраторов на регистрацию серверов в поисковой системе, они проверяют, не изменилась (появилась) ли конкретная страница Интернет. Если обнаружены изменения или страница новая, робот копирует ее на поисковый сервер, после чего автоматически проводится ее полный разбор. В процессе обработки нового или измененного текста в полнотекстовом индексе поисковой системы учитываются все слова обрабатываемого документа, возможно, с указанием на каком языке, в какой словоформе и каком контексте они встретились.

Поисковые системы обеспечивают доступ по всему многообразию открытых источников Интернет (включая поисковые каталоги). Это полноценное и единственное средство компьютерной разведки [7] с использованием ресурсов Интернет. Однако, во-первых, их слишком много (всего более 40 млн., и не менее 800 тыс. русскоязычных), во-вторых, они все разные и каждая из них работает по своим правилам и ей нужно уметь воспользоваться.

3.4. Разрешение проблем через Интернет. Нами разработан комплекс из десятка методов поиска проблемно-ориентированных баз данных для решения конкретной проблемы. В частности, для нахождения подходящих поисковых систем могут быть использованы специализированные каталоги, например, крупнейший в своем роде проект BrightPlanet Corp. <http://www.completeplanet.com/index.jsp> содержит описания 70+ тыс. поисковых систем (из 40 млн.).

Вопрос о том, как писать поисковые запросы, вести исследования и готовить аналитику с использованием полнотекстовых поисковых систем (Интернет, любые локальные базы данных), корректно решен в рамках авторского комплекса «Технологии познания» [8,9] следующего состава:

3.5.Вавилонское столпотворение. В разных странах мира говорят на 6800 языках [10]. И только 2261 язык имеет письменную систему, все остальные являются чисто устными. 260 письменных языков представлены в Интернет соответствующими словарями (толковые, тезаурусы, энциклопедии, переводчики ...) [10]. Не более 72% из доступных через Интернет документов - на английском языке и около 1% - на русском [17]. Онлайновыми текстами представлены практически все письменные языки народов мира.

Очень частой является ситуация, когда информации по конкретной проблеме на родном языке совсем нет или явно недостаточно. Прозрачность Интернет обострила проблему языкового барьера. Для этого случая нами разработаны технологии программирования запросов для поиска текстов на незнакомом языке и интерпретации найденных иностранных материалов. Таким способом, русскоязычному пользователю обеспечивается комфортная работа с текстами на следующих 106 языках, являющихся официальными хотя бы в одной из стран мира.

3.6. Мониторинг конкурентов через Интернет. Можно, конечно, пытаться отслеживать весь Интернет или только известные сервера. В первом случае будут очень высоки расходы (нужно качать многие терабайты, что мало реально и очень накладно). Во втором случае мы становимся заложниками своего неизбежного незнания вновь появляющихся открытых источников, конкурентов, технологий, товаров ... Если использовать внешние поисковые системы, нужно каждый раз открывать конкретную базу данных, записывать запрос и проверять, получены ли новые материалы. Вручную просто делать нереально. Если в Сети найти поисковые системы и базы данных, где публикуется или индексируется т.н. критическая информация о конкурентах и рынках, и поручить собственным роботам регулярно выполнять на таких поисковых системах специфичные запросы, получается малозатратная система слежения за изменениями условий бизнеса на неопределенной базе открытых источников. Иными словами, практически решается задача контроля появления критически важной информации в заранее неизвестных источниках (где попало, в том числе и по неизвестным нам подходящим источникам ходят роботы используемых нами поисковых систем, соответственно, трафик оплачивает владелец поискового сервиса). Персональный или корпоративный web-агент обходит любое число поисковых систем, проверяет, не появились ли новые материалы по интересующей теме (по конкретному запросу), и если они появились, автоматически или дает нам уведомление, или посылает письмо по электронной почте или сохраняет новый материал на жесткий диск, в корпоративное хранилище или базу знаний. Контроль Интернет через поисковые системы никак не исключает детального мониторинга конкретных серверов, например, известных конкурентов.

3.7. Виртуальные базы знаний (корпоративная метапоисковая система). Поскольку промышленные разведывательные проекты используют сотни поисковых систем, встает задача программирования запросов для многих поисковых систем одновременно. Для решения этой задачи разработана оригинальная технология «универсальная поисковая спецификация», позволяющая за 2-5 минут определить возможности конкретной поисковой системы Интернет, написать для нее запрос по теме постоянного интереса (рубрике корпоративного классификатора) и сформировать для робота задание на регулярный тематический мониторинг этого открытого источника. В основе этой разработки лежит авторская классификация возможностей поисковых систем Интернет, протокол оперативного выявления недокументированных возможностей поисковых систем Интернет и группа прикладных методов компьютерной лингвистики. Кроме всего прочего, развитие этой технологии позволяет решить проблему невозможности закачки в корпоративное хранилище или покупки всей информации из некоторых уникальных источников. Можно автоматически формировать запрос по произвольной теме из корпоративного классификатора для любых поисковых систем известной функциональности, затем консолидировать найденные в различных уникальных базах данных материалы в едином отчете, перекачивать нужные данные в хранилище, проводить их предварительный анализ, систематизацию и т.п. Иными словами робот, отрабатывая конкретную проблему корпоративного пользователя, формирует и адресует специфичные поисковые запросы к сотням внешних баз данных, после чего собирает полученные результаты в единый отчет. Число внешних баз данных, в принципе, не ограничено, однако, каждая из них должна быть предварительно оттестирована и синтаксис ее поисковых запросов должен быть формально описан. Нечто подобное (в сильно упрощенном варианте и, вероятно, некорректно) делают метапоисковые системы Интернет, например, IxQuick <http://www.ixquick.com/> и отдельные коммерческие службы, например, Deep Query Manager.

3.8. Корпоративные базы знаний. Как только отслеживание информации о конкурентах через Интернет становится систематическим (это и есть разведка, как процесс, а не эпизод поиска), наступает информационная перегрузка. Слишком много поступает в компанию новостей. Своевременно их обработать вручную не получается. На основе корпоративной информационной системы с развитой функцией полнотекстового поиска и уже подготовленной документации к малозатратным системам слежения через Интернет создается систематизированное хранилище (база знаний) [1]. Примеры высокофункциональных поисковых систем: Convera <http://www.public.ru>, Яндекс <http://ya.ru>, «Oracle Text» <http://www.oracle.com/technology/products/text/index.html> и др.

Корпоративная база знаний проводит сбор информации об изменениях внешнего мира и классификацию полученных данных (наполнение систематизированного корпоративного хранилища текстов и иных объектов) с целью обеспечить регулярную доставку информации по компетенции или требованию персоналу корпорации, рассылку, визуализацию тенденций, многофакторный анализ и прогнозирование.

Изучавшийся нами [8] альтернативный (в отношении нашей технологии программирования поисковых систем) статистический подход к выявлению смысла сообщений и классифицированию текстов не обеспечивает достаточной полноты (не выше 30%) и точности (не выше 65%) выборки из хранилища материалов по конкретной проблеме. Смысловой (семантический) анализ массивов и потоков текстов с использованием такого подхода предлагается в ряде российских программных комплексов «Galaktika-Zoom» <http://zoom.galaktika.ru>, «Semantic Explorer» <http://soft.neurok.ru>, «Russian Context Optimizer» <http://www.rco.ru>, «TextAnalyst» <http://www.analyst.ru> и многих отечественных и зарубежных аналогах. Некорректное решение проблемы «смысл-текст» не позволяет строить на основе этих продуктов заслуживающие доверие пользователей корпоративные базы знаний.

<<<<  Оглавление  Литература  Версия для печати  >>>>


<<<<Кузнецов Сергей ВалентиновичИсследование рисков и поиск возможностей через Интернет. Введение Карта сайта ONLINECI.RU СловарьОбучение Консультирование >>>>

Опубликовано по адресу: http://www.onlineci.ru/oci-3.htm
Дата последнего редактирования 10.04.2017
© Кузнецов Сергей Валентинович


Сайты (Сергей Кузнецов / Кузнецов С.В.):
Всепроникающее обучение
Невидимый Интернет для бизнеса
Технологии производства баз знаний
Юридические исследования через Интернет
Бесплатные сервисы (Сергей Кузнецов / Кузнецов С.В.):
Поиск рыночных ниш через Яндекс
Выявление проблем через Яндекс
Поиск определений через Яндекс
Прочие генераторы поисковых запросов
Услуги (Сергей Кузнецов / Кузнецов С.В.):
Тематический мониторинг открытых источников
Профессиональный поиск информации
Поиск и мониторинг ниш на рынках
Технологические исследования через Интернет
Очные компьютерные тренинги
Дистанционное обучение
Об авторе: Резюме Сергея Кузнецова
Фотогалерея Сергея Кузнецова
Публикации и работы Сергея Кузнецова
Правила Сергея Кузнецова
Мифы о Сергее Кузнецове
Технологические работы Сергея Кузнецова
В разработке