<<<< | Кузнецов Сергей Валентинович | Исследование рисков и поиск возможностей через Интернет. Введение | Карта сайта ONLINECI.RU | Словарь | Обучение | Консультирование | >>>> |
Настоящее компактное описание поисковой системы "Яндекс" получено Кузнецовым Сергеем Валентиновичем методом тестирования, актуально по состоянию на дату, указанную в конце этого документа, и содержит описание реально работающих возможностей. Тексты поисковых запросов Яндекс даны цветным курсивом с подчеркиванием. Описания некоторых ошибок и неработающих возможностей, приведенных в фирменной документации производителя, включены в конце настоящего документа.
Введение 1. Адреса форм для ввода поискового запроса 2. Оценка числа проиндексированных документов 3. Доступен командный язык поисковых запросов 4. Фраза 5. Следование на точном расстоянии в словах 6. Следование с диапазоном в словах 7. Смежность в группе слов 8. Смежность в одном предложении 9. Следование на точном расстоянии в предложениях 10. Следование в несимметричной группе соседних предложений 11. Смежность в симметричной группе соседних предложений 12. В одном документе 13. Альтернативность 14. Логический оператор, действующий по умолчанию 15. Логические скобки 16. Регистрозависимость 17. Морфология языков 18. Транслитерация и диакритика 19. Модификаторы слов в запросе 20. Спецсимволы в запросе 20a. Запрещенные в запросе спецсимволы 20b. Спецсимволы – заменители оператора "фраза" 20c. Спецсимволы внутри фразы запроса 21. Индексируемые форматы файлов 22. Возможные ограничения области поиска 23. Дополнительные возможности при поиске 24. Особенности отдельных служб и версий 25. Дополнительные материалы 26. Некоторые ошибки
Введение. Яндекс - одна из крупнейших по числу проиндексированных русскоязычных документов поисковых систем Интернет. Яндекс обладает достаточной функциональностью для прямого поиска по аналогии или от противного решений большинства задач, включая сбор информации по конкретным объектам и подготовки аналитических отчетов с использованием открытой информации русского сегмента Интернет. Поисковая машина Яндекс обеспечивает бесплатный доступ к не более 5% открытых материалов русского сегмента Интернет. Яндекс можно рассматривать как достаточный инструмент для поиска баз данных, подходящих для решения конкретной задачи, и реализации иных непрямых стратегий поиска (Невидимый Интернет). Сервисы Яндекс (см. далее) значительно расширяют возможности поисковой системы. Грамотное использование сервисов Яндекс, включая поисковую систему, заметно и быстро повышает Вашу осведомленность по любым вопросам. По опыту автора в ряде случаев обработки русскоязычной информации, во-первых, служб Яндекс достаточно для подготовки аналитических отчетов, во-вторых, качественное выполнение сложных проектов без использования Яндекс невозможно.1. Адреса форм для ввода поискового запроса (различные поисковые и прочие сервисы Яндекс)
Главная русскоязычная страница http://www.yandex.ru и аскетический поиск http://ya.ru, ограничение длины запроса на уровне формы - 400 символов, максимальная длина работающего запроса - не более 20 слов. Национальные интерфейсы: англоязычный http://www.yandex.com/, Беларусь http://www.yandex.by/, Казахстан http://www.yandex.kz/, Украина http://www.yandex.ua/. | Поиск новостей http://news.yandex.ru/, ограничение длины запроса на уровне формы отсутствует, максимальная длина работающего запроса - не более 20 слов, 9200+ источников новостей. Расш. поиск новостей http://news.yandex.ru/advanced.html, ограничение длины запроса на уровне формы отсутствует, работает с ошибками, максимальная длина работающего запроса - не более 20 слов. |
Расширенный поиск http://www.yandex.ru/advanced.html -, ограничение длины запроса на уровне формы отсутствует, работает с ошибками, максимальная длина работающего запроса - до 20 слов. | Поиск по блогам (личным дневникам) и форумам http://blogs.yandex.ru/, ограничение длины запроса на уровне формы отсутствует, работает с ошибками, максимальная длина работающего запроса - до 20 слов. Есть возможность искать только по комментариям http://blogs.yandex.ru/search_comments.xml |
Поисковый каталог http://yaca.yandex.ru/, ограничение длины запроса на уровне формы отсутствует, работает с ошибками, максимальная длина работающего запроса - до 20 слов. | Подписка на новости http://news.yandex.ru/podpiska/login.pl. Лаборатория Яндекс (экспериментальные проекты) http://nano.yandex.ru/ Все сервисы Яндекс http://www.yandex.ru/all_services.html |
2. Оценка числа проиндексированных документов 3+ млрд., в том числе 2,4+ млрд. на русском (lang="ru"), 230+ млн. в доменной зоне RU (rhost="ru.*") и 750+ млн. на английском ((!a | !the ! |at) ~~ (lang="ru" | rhost="ru.*")). Приведенные выше оценки завышены в среднем на 40% за счет систематического увеличения числа документов, найденных на отдельном сайте. При индексировании документов счет слов идет от начала предложения. ↑
3. Доступен командный язык поисковых запросов, длина запроса со страницы результатов поиска не должна превышать 20 слов. ↑
Область действия
логического оператора (лексический контекст) Операнд - это слово, фраза или выражение в скобках. |
Логический двухместный оператор И (конъюнкция - одновременное присутствие обоих операндов) по умолчанию работает с мягкой логикой |
Логический двухместный оператор НЕ (отрицание, первый операнд присутствует, второй - отсутствует) |
4. Фраза (второй операнд следует за первым без разрыва - ячейка 4и; первый операнд присутствует при условии, что за ним отсутствует второй операнд - ячейка 4не)↑ |
4и
"конкурентных анализов" (регистрозависимая фраза в двойных кавычках работает без учета морфологии). Внутри фразы допускается символ "*", означающий пропуск одного слова, например, "системно * подход" Фраза со словоизменениями может быть найдена с использованием оператора следования, например, +конкурентных /+1 +анализов или +конкурентных &/+1 +анализов (точно работает с морфологией) конкурентных-анализов Оператор фраза (слова в кавычках) в запросах с операторами в ряде случаев работает с морфологией! В сложных запросах для фиксации словоформ предпочтительно использовать модификатор "!" (восклицательный знак). |
4не
конкурентный ~ /+1 среда конкурентный ~ /+1 (среда | анализ) конкурентный /+1 -(среда | анализ)
|
5. Следование на точном расстоянии в словах (второй операнд следует за первым - ячейка 5и или не следует за первым - ячейка 5не, при этом разница номеров слов в предложении точно равна заданному числу)↑ |
5и
налог /+3 стоимость налог &/+3 стоимость '"налог * * стоимость" (число звёздочек внутри фразы не ограничено, вместо каждой звездочки может быть любое слово (не спецсимвол), работает без морфологии, звёздочки, не окруженные пробелами или слипшиеся со словами игнорируются), эквивалентные запросы: (!налог /+3 !стоимость) ~~ "налог * * стоимость" |
5не
качество ~ /-1 +в качество ~ /-1 +в
|
6. Следование с диапазоном в словах (второй операнд следует за первым - ячейка 6и; или не следует за первым - ячейка 6не; при этом разница номеров слов в предложении лежит в заданном диапазоне)↑ |
6и
невероятное /(-1 +3) явление невероятное &/(-1 +3) явление невероятное &/(-1 3) явление
|
6не
неопознанный ~ /(-1 +2) объект неопознанный ~ /(-1 +2) объект неопознанный /(-1 +2) -объект
|
7. Смежность в группе слов (оба операнда находятся в группе соседних слов - ячейка 7и; или первый операнд находится, а второй операнд не присутствует в группе соседних слов - ячейка 7не; при этом разница номеров слов в предложении по модулю не превышает заданного числа)↑ |
7и
бочка /2 мандаринов бочка &/2 мандаринов
|
7не
подлость ~ /2 крупная подлость ~ /2 крупная подлость /2 -крупная
|
8. Смежность в одном предложении (оба операнда находятся в любом месте одного предложения - ячейка 8и; первый операнд находится в любом месте предложения при условии, что второй операнд в нем не присутствует - ячейка 8не)↑ |
8и (оператор, действующий по умолчанию) товарищ начальник +товарищ & +начальниктоварищ &&/0 начальник
|
8не
граница ~ россии граница ~~ /0 россии
|
9. Следование на точном расстоянии в предложениях (оба операнда находятся в двух соседних предложениях - ячейка 9и; первый операнд присутствует, а второй операнд отсутствует - ячейка 9не; при этом разница порядковых номеров этих предложений точно равна заданному числу со знаком)↑ |
9и
российский &&/-1 гимн российский && /-1 гимн
|
9не
!Толстой ~~ /+2 !Война-+и-мир "Толстой" ~~ /+2 !Война-+и-мир
|
10. Следование в несимметричной группе соседних предложений (оба операнда находятся в соседних предложениях - ячейка 10и; первый операнд присутствует, а второй не присутствует в соседних предложениях - ячейка 10не; при этом максимальная разница порядковых номеров этих предложений попадает в заданный диапазон)↑ |
10и
льготы &&/(-1 +5) Чернобыль льготы && /(-1 +5) Чернобыль
|
10не
генерал ~~ /(-1 +2) свадебный генерал ~~ /(-1 +2) свадебный
|
11. Смежность в симметричной группе соседних предложений (оба операнда находятся в соседних предложениях - ячейка 11и; первый операнд присутствует, а второй не присутствует в группе соседних предложений - ячейка 11не; максимальная разница порядковых номеров этих предложений по модулю не превышает заданного числа)↑ |
11и +определение-понятий +платеж определение-понятий &&/3 платеж Работает с ошибками (см. п.26-4)
|
11не
+граница -россия граница ~~ /3 россия
|
12. Искать в одном документе (операнды присутствуют в любом месте документа - ячейка 12и; первый операнд присутствует, а второй отсутствует - ячейка 12не)↑ |
12и (работает с мягкой логикой) 223-фз && вступает-+в-силу (223-фз && вступает в силу)//6 то же с жесткой логикой (+223-фз && +вступает-в-силу) (223-фз && вступает-+в-силу)//1 (223-фз) << (вступает-в-силу) (с выделением в найденных текстах только первого выражения) |
12не
законы-шариата ~~ ваххабит
|
14. Логический оператор, действующий по умолчанию - логическое И в контексте одного предложения (ячейка 8и). Если перед словами используется модификатор "+", лексический контекст применения оператора по умолчанию расширяется до документа, т.е. начинает работать конструкция +приветственное && +слово (ячейка 12и). ↑
15. Логические скобки - допускаются без ограничения уровня вложенности (+(таможенный | импортный) /+1 +(тариф | пошлина)). Дисбаланс открывающих и закрывающих скобок обрабатывается с ошибками. В случае смешения разнородных логических операторов ошибку вызывает и отсутствие логических скобок. ↑16. Регистрозависимость. При поиске по умолчанию не учитывается регистр первой буквы слова. Находить конкретные словоформы, начинающиеся с одной заглавной буквы, можно с модификатором "восклицательный знак" !Налог. При этом нужно учитывать, что в таком случае будут пропущены все словоформы, состоящие только из заглавных букв, например, НАЛОГ. Для примера сравните результаты поиска по запросам (!налог ~~ !НАЛОГ) и (!налог ~~ !Налог). ↑
17. Морфология языков. Ограничение по языку найденного текста, кроме перечисленных ниже языков, можно установить и для белорусского, но его морфология не учитывается при поиске, т.е. результаты поиска по запросам гадовага и "гадовага" эквивалентны. При индексировании документов и поиске по умолчанию учитывается морфология следующих языков:Для неизвестных слов и чисел с незначащими нулями слева проводится псевдонормализация (прибабах эквивалентно прибабахом, 499 эквивалентно 000499), при этом для существительных русского языка при поиске Яндекс может различать единственное и множественное число (прибабах не эквивалентно прибабахи). ↑
18. Транслитерация и диакритика. При индексировании документов и поиске учитывается транслитерация с английского языка на русский для слов, содержащих хотя бы одну русскую букву (самовар эквивалентно сaмовaр). Взаимозаменяемые буквы: a - а, В - В (только прописные), c - с, e - е - ё, g - д (только строчные), k - к, n - п (только строчные), o - о, p - р, u - и (только строчные), x - х, y - у. Диакритические знаки á, à, â, ǎ, ā, č, ë, ï, ř, ž, ά и т.п. в словах запроса в большинстве случаев обрабатываются корректно - návštěvníkům, при этом в полнотекстовом индексе и кэше Яндекс хранит варианты слов без знаков акцентирования (navstevnikum вместо návštěvníkům). ↑19. Модификаторы слов в запросе (префиксные операторы Яндекс) пишутся слитно перед словом, например, +Автандил
20a. Запрещенные в запросе спецсимволы ("^" (стрелка вверх)) в любом месте запроса вызывают диагностику "Синтаксическая ошибка". ↑
20b. Спецсимволы – заменители оператора "фраза" записываются слитно между словами: "@" (собака), например, тифозная@Мэри, "_" (нижнее подчеркивание), "/" (прямая косая черта) и "-" (дефис), например, тифозная-Мэри. ↑
20c. Спецсимволы внутри фразы запроса. Спецсимволы в начале первого слова многословной фразы игнорируются (т.е. запросы "?всем привет" и "всем привет" эквивалентны), кроме короткого и длинного тире, которые меняют логику запроса на альтернативность (т.е. запросы "—tax free", "-tax free" и tax | free практически эквивалентны). Спецсимволы между словами двухсловной фразы заменяются на пробелы (т.е. запросы "мороз#крепчал" и "мороз крепчал" эквивалентны), за исключением следующих символов: " - кавычка прямая, ‘ - одинарная кавычка, ’ - одинарная кавычка, “ - двойная кавычка, ” - двойная кавычка. Такие спецсимволы меняют логику запроса на "искать точные словоформы в любом месте документа" (т.е. запросы "мороз"крепчал" и !мороз && !крепчал практически эквивалентны). Спецсимвол в конце последнего слова многословной фразы игнорируется (запросы "вам шах=" и "вам шах" эквивалентны). ↑21. Поисковая система индексирует файлы следующих специальных форматов (дополнительно к HTML и TXT): PDF, RTF, DOC, XLS, SWF↑
22. Ограничения области поиска:
Все версии корректно выполняют большинство приведенных выше инструкций (кроме некоторых модификаторов слов и оператора мягкости поиска).↑
25. Для дополнительного изучения и тестирования поисковых сервисов Яндекс используйте группу NC 71216.↑
26. Некоторые ошибки поискового сервера Яндекс http://www.yandex.ru.
Введение 1. Адреса форм для ввода поискового запроса 2. Оценка числа проиндексированных документов 3. Доступен командный язык поисковых запросов 4. Фраза 5. Следование на точном расстоянии в словах 6. Следование с диапазоном в словах 7. Смежность в группе слов 8. Смежность в одном предложении 9. Следование на точном расстоянии в предложениях 10. Следование в несимметричной группе соседних предложений 11. Смежность в симметричной группе соседних предложений 12. В одном документе 13. Альтернативность 14. Логический оператор, действующий по умолчанию 15. Логические скобки 16. Регистрозависимость 17. Морфология языков 18. Транслитерация и диакритика 19. Модификаторы слов в запросе 20. Спецсимволы в запросе 20a. Запрещенные в запросе спецсимволы 20b. Спецсимволы – заменители оператора "фраза" 20c. Спецсимволы внутри фразы запроса 21. Индексируемые форматы файлов 22. Возможные ограничения области поиска 23. Дополнительные возможности при поиске 24. Особенности отдельных служб и версий 25. Дополнительные материалы 26. Некоторые ошибки
<<<< | Кузнецов Сергей Валентинович | Исследование рисков и поиск возможностей через Интернет. Введение | Карта сайта ONLINECI.RU | Словарь | Обучение | Консультирование | >>>> |
Впервые опубликовано 28.01.2006, полностью проверено 13.09.2008
Опубликовано по адресу: http://www.onlineci.ru/yandexcd.htm
Дата последнего редактирования 18.08.2021
© Кузнецов Сергей Валентинович