<<<<Кузнецов Сергей ВалентиновичИсследование рисков и поиск возможностей через Интернет. Введение Карта сайта ONLINECI.RU СловарьОбучение Консультирование >>>>

Компактное описание Яндекс www.yandex.ru

Настоящее компактное описание поисковой системы "Яндекс" получено Кузнецовым Сергеем Валентиновичем методом тестирования, актуально по состоянию на дату, указанную в конце этого документа, и содержит описание реально работающих возможностей. Тексты поисковых запросов Яндекс даны цветным курсивом с подчеркиванием. Описания некоторых ошибок и неработающих возможностей, приведенных в фирменной документации производителя, включены в конце настоящего документа.

Введение 1. Адреса форм для ввода поискового запроса 2. Оценка числа проиндексированных документов 3. Доступен командный язык поисковых запросов 4. Фраза 5. Следование на точном расстоянии в словах 6. Следование с диапазоном в словах 7. Смежность в группе слов 8. Смежность в одном предложении 9. Следование на точном расстоянии в предложениях 10. Следование в несимметричной группе соседних предложений 11. Смежность в симметричной группе соседних предложений 12. В одном документе 13. Альтернативность 14. Логический оператор, действующий по умолчанию 15. Логические скобки 16. Регистрозависимость 17. Морфология языков 18. Транслитерация и диакритика 19. Модификаторы слов в запросе 20. Спецсимволы в запросе 20a. Запрещенные в запросе спецсимволы 20b. Спецсимволы – заменители оператора "фраза" 20c. Спецсимволы внутри фразы запроса 21. Индексируемые форматы файлов 22. Возможные ограничения области поиска 23. Дополнительные возможности при поиске 24. Особенности отдельных служб и версий 25. Дополнительные материалы 26. Некоторые ошибки

Введение. Яндекс - одна из крупнейших по числу проиндексированных русскоязычных документов поисковых систем Интернет. Яндекс обладает достаточной функциональностью для прямого поиска по аналогии или от противного решений большинства задач, включая сбор информации по конкретным объектам и подготовки аналитических отчетов с использованием открытой информации русского сегмента Интернет. Поисковая машина Яндекс обеспечивает бесплатный доступ к не более 5% открытых материалов русского сегмента Интернет. Яндекс можно рассматривать как достаточный инструмент для поиска баз данных, подходящих для решения конкретной задачи, и реализации иных непрямых стратегий поиска (Невидимый Интернет). Сервисы Яндекс (см. далее) значительно расширяют возможности поисковой системы. Грамотное использование сервисов Яндекс, включая поисковую систему, заметно и быстро повышает Вашу осведомленность по любым вопросам. По опыту автора в ряде случаев обработки русскоязычной информации, во-первых, служб Яндекс достаточно для подготовки аналитических отчетов, во-вторых, качественное выполнение сложных проектов без использования Яндекс невозможно.

1. Адреса форм для ввода поискового запроса (различные поисковые и прочие сервисы Яндекс)
Главная русскоязычная страница http://www.yandex.ru и аскетический поиск http://ya.ru, ограничение длины запроса на уровне формы - 400 символов, максимальная длина работающего запроса - не более 20 слов. Национальные интерфейсы: англоязычный http://www.yandex.com/, Беларусь http://www.yandex.by/, Казахстан http://www.yandex.kz/, Украина http://www.yandex.ua/. Поиск новостей http://news.yandex.ru/, ограничение длины запроса на уровне формы отсутствует, максимальная длина работающего запроса - не более 20 слов, 9200+ источников новостей. Расш. поиск новостей http://news.yandex.ru/advanced.html, ограничение длины запроса на уровне формы отсутствует, работает с ошибками, максимальная длина работающего запроса - не более 20 слов.
Расширенный поиск http://www.yandex.ru/advanced.html -, ограничение длины запроса на уровне формы отсутствует, работает с ошибками, максимальная длина работающего запроса - до 20 слов. Поиск по блогам (личным дневникам) и форумам http://blogs.yandex.ru/, ограничение длины запроса на уровне формы отсутствует, работает с ошибками, максимальная длина работающего запроса - до 20 слов. Есть возможность искать только по комментариям http://blogs.yandex.ru/search_comments.xml
Поисковый каталог http://yaca.yandex.ru/, ограничение длины запроса на уровне формы отсутствует, работает с ошибками, максимальная длина работающего запроса - до 20 слов. Подписка на новости http://news.yandex.ru/podpiska/login.pl. Лаборатория Яндекс (экспериментальные проекты) http://nano.yandex.ru/ Все сервисы Яндекс http://www.yandex.ru/all_services.html

2. Оценка числа проиндексированных документов 3+ млрд., в том числе 2,4+ млрд. на русском (lang="ru"), 230+ млн. в доменной зоне RU (rhost="ru.*") и 750+ млн. на английском ((!a | !the ! |at) ~~ (lang="ru" | rhost="ru.*")). Приведенные выше оценки завышены в среднем на 40% за счет систематического увеличения числа документов, найденных на отдельном сайте. При индексировании документов счет слов идет от начала предложения.

3. Доступен командный язык поисковых запросов, длина запроса со страницы результатов поиска не должна превышать 20 слов.
Область действия логического оператора (лексический контекст)

Операнд - это слово, фраза или выражение в скобках.

Логический двухместный оператор И (конъюнкция - одновременное присутствие обоих операндов) по умолчанию работает с мягкой логикой

 Логический двухместный оператор НЕ (отрицание, первый операнд присутствует, второй - отсутствует)
4. Фраза (второй операнд следует за первым без разрыва - ячейка 4и; первый операнд присутствует при условии, что за ним отсутствует второй операнд - ячейка 4не) "конкурентных анализов"

(регистрозависимая фраза в двойных кавычках работает без учета морфологии).

 Внутри фразы допускается символ "*", означающий пропуск одного слова, например,

"системно * подход"

Фраза со словоизменениями может быть найдена с использованием оператора следования, например,

+конкурентных /+1 +анализов или +конкурентных &/+1 +анализов (точно работает с морфологией)

конкурентных-анализов

Оператор фраза (слова в кавычках) в запросах с операторами в ряде случаев работает с морфологией! В сложных запросах для фиксации словоформ предпочтительно использовать модификатор "!" (восклицательный знак).

4не конкурентный ~ /+1 среда

конкурентный ~ /+1 (среда | анализ)

конкурентный /+1 -(среда | анализ)

 

5. Следование на точном расстоянии в словах (второй операнд следует за первым - ячейка 5и или не следует за первым - ячейка 5не, при этом разница номеров слов в предложении точно равна заданному числу) налог /+3 стоимость

налог &/+3 стоимость

'"налог * * стоимость" (число звёздочек внутри фразы не ограничено, вместо каждой звездочки может быть любое слово (не спецсимвол), работает без морфологии, звёздочки, не окруженные пробелами или слипшиеся со словами игнорируются), эквивалентные запросы: (!налог /+3 !стоимость) ~~ "налог * * стоимость"

5не качество ~ /-1 +в

качество ~ /-1 +в

 

6. Следование с диапазоном в словах (второй операнд следует за первым - ячейка 6и; или не следует за первым - ячейка 6не; при этом разница номеров слов в предложении лежит в заданном диапазоне) невероятное /(-1 +3) явление

невероятное &/(-1 +3) явление

невероятное &/(-1 3) явление

 

6не неопознанный ~ /(-1 +2) объект

неопознанный ~ /(-1 +2) объект

неопознанный /(-1 +2) -объект

 

7. Смежность в группе слов (оба операнда находятся в группе соседних слов - ячейка 7и; или первый операнд находится, а второй операнд не присутствует в группе соседних слов - ячейка 7не; при этом разница номеров слов в предложении по модулю не превышает заданного числа) бочка /2 мандаринов

бочка &/2 мандаринов

См. ошибки этого оператора

 

7не подлость ~ /2 крупная

подлость ~ /2 крупная

подлость /2 -крупная

 

8. Смежность в одном предложении (оба операнда находятся в любом месте одного предложения - ячейка 8и; первый операнд находится в любом месте предложения при условии, что второй операнд в нем не присутствует - ячейка 8не) (оператор, действующий по умолчанию)

товарищ начальник

+товарищ & +начальник

товарищ &&/0 начальник

 

8не граница ~ россии

граница ~~ /0 россии

 

9. Следование на точном расстоянии в предложениях (оба операнда находятся в двух соседних предложениях - ячейка 9и; первый операнд присутствует, а второй операнд отсутствует - ячейка 9не; при этом разница порядковых номеров этих предложений точно равна заданному числу со знаком) российский &&/-1 гимн

российский && /-1 гимн

 

9не !Толстой ~~ /+2 !Война-+и-мир

"Толстой" ~~ /+2 !Война-+и-мир

 

10. Следование в несимметричной группе соседних предложений (оба операнда находятся в соседних предложениях - ячейка 10и; первый операнд присутствует, а второй не присутствует в соседних предложениях - ячейка 10не; при этом максимальная разница порядковых номеров этих предложений попадает в заданный диапазон) 10и льготы &&/(-1 +5) Чернобыль

льготы && /(-1 +5) Чернобыль

 

10не генерал ~~ /(-1 +2) свадебный

генерал ~~ /(-1 +2) свадебный

 

11. Смежность в симметричной группе соседних предложений (оба операнда находятся в соседних предложениях - ячейка 11и; первый операнд присутствует, а второй не присутствует в группе соседних предложений - ячейка 11не; максимальная разница порядковых номеров этих предложений по модулю не превышает заданного числа) 11и

+определение-понятий +платеж

определение-понятий &&/3 платеж

Работает с ошибками (см. п.26-4)

 

11не

+граница -россия

граница ~~ /3 россия

 

12. Искать в одном документе (операнды присутствуют в любом месте документа - ячейка 12и; первый операнд присутствует, а второй отсутствует - ячейка 12не) 12и (работает с мягкой логикой)

223-фз && вступает-+в-силу

(223-фз && вступает в силу)//6

то же с жесткой логикой

(+223-фз && +вступает-в-силу)

(223-фз && вступает-+в-силу)//1

(223-фз) << (вступает-в-силу) (с выделением в найденных текстах только первого выражения)  

12не законы-шариата ~~ ваххабит

 

13. Альтернативность (неисключающее логическое ИЛИ) - только слова тариф | сбор (ищет с морфологией) – включая фразы "таможенными тарифами" | "акцизного сборами" (ищет без морфологии) и включая выражения (таможенный /+1 тариф) | (акцизный /+1 сбор) (ищет с морфологией). См. ошибки этого оператора.  

14. Логический оператор, действующий по умолчанию - логическое И в контексте одного предложения (ячейка ). Если перед словами используется модификатор "+", лексический контекст применения оператора по умолчанию расширяется до документа, т.е. начинает работать конструкция +приветственное && +слово (ячейка 12и).  

15. Логические скобки - допускаются без ограничения уровня вложенности (+(таможенный | импортный) /+1 +(тариф | пошлина)). Дисбаланс открывающих и закрывающих скобок обрабатывается с ошибками. В случае смешения разнородных логических операторов ошибку вызывает и отсутствие логических скобок.  

16. Регистрозависимость. При поиске по умолчанию не учитывается регистр первой буквы слова. Находить конкретные словоформы, начинающиеся с одной заглавной буквы, можно с модификатором "восклицательный знак" !Налог. При этом нужно учитывать, что в таком случае будут пропущены все словоформы, состоящие только из заглавных букв, например, НАЛОГ. Для примера сравните результаты поиска по запросам (!налог ~~ !НАЛОГ) и (!налог ~~ !Налог).  

17. Морфология языков. Ограничение по языку найденного текста, кроме перечисленных ниже языков, можно установить и для белорусского, но его морфология не учитывается при поиске, т.е. результаты поиска по запросам гадовага и "гадовага" эквивалентны. При индексировании документов и поиске по умолчанию учитывается морфология следующих языков:

Для неизвестных слов и чисел с незначащими нулями слева проводится псевдонормализация (прибабах эквивалентно прибабахом, 499 эквивалентно 000499), при этом для существительных русского языка при поиске Яндекс может различать единственное и множественное число (прибабах не эквивалентно прибабахи). 

18. Транслитерация и диакритика. При индексировании документов и поиске учитывается транслитерация с английского языка на русский для слов, содержащих хотя бы одну русскую букву (самовар эквивалентно сaмовaр). Взаимозаменяемые буквы: a - а, В - В (только прописные), c - с, e - е - ё, g - д (только строчные), k - к, n - п (только строчные), o - о, p - р, u - и (только строчные), x - х, y - у. Диакритические знаки á, à, â, ǎ, ā, č, ë, ï, ř, ž, ά и т.п. в словах запроса в большинстве случаев обрабатываются корректно - návštěvníkům, при этом в полнотекстовом индексе и кэше Яндекс хранит варианты слов без знаков акцентирования (navstevnikum вместо návštěvníkům).  

19. Модификаторы слов в запросе (префиксные операторы Яндекс) пишутся слитно перед словом, например, +Автандил

20. Спецсимволы в запросе. К спецсимволам относятся все знаки на клавиатуре, включая пробел и исключая практически все буквы и цифры (см. далее). Спецсимволы не вносятся в полнотекстовый индекс, поэтому искать спецсимволы в тексте невозможно. Спецсимволы, как правило, задают границы слов (лексических единиц), выступая в роли разделителей. Главный спецсимвол-разделитель - пробел. Отдельные спецсимволы могут уникально обрабатываться интерпретатором запросов конкретной поисковой системы, использоваться в операторах языка запросов или выступать в качестве модификаторов слов, например, "12 месяцев" -12 (подробнее см. далее).

20a. Запрещенные в запросе спецсимволы ("^" (стрелка вверх)) в любом месте запроса вызывают диагностику "Синтаксическая ошибка".

20b. Спецсимволы – заменители оператора "фраза" записываются слитно между словами: "@" (собака), например, тифозная@Мэри, "_" (нижнее подчеркивание), "/" (прямая косая черта) и "-" (дефис), например, тифозная-Мэри.  

20c. Спецсимволы внутри фразы запроса. Спецсимволы в начале первого слова многословной фразы игнорируются (т.е. запросы "?всем привет" и "всем привет" эквивалентны), кроме короткого и длинного тире, которые меняют логику запроса на альтернативность (т.е. запросы "tax free", "-tax free" и tax | free практически эквивалентны). Спецсимволы между словами двухсловной фразы заменяются на пробелы (т.е. запросы "мороз#крепчал" и "мороз крепчал" эквивалентны), за исключением следующих символов: " - кавычка прямая, ‘ - одинарная кавычка, ’ - одинарная кавычка, “ - двойная кавычка, ” - двойная кавычка. Такие спецсимволы меняют логику запроса на "искать точные словоформы в любом месте документа" (т.е. запросы "мороз"крепчал" и !мороз && !крепчал практически эквивалентны). Спецсимвол в конце последнего слова многословной фразы игнорируется (запросы "вам шах=" и "вам шах" эквивалентны).  

21. Поисковая система индексирует файлы следующих специальных форматов (дополнительно к HTML и TXT): PDF, RTF, DOC, XLS, SWF

22. Ограничения области поиска:

23. Дополнительные возможности при поиске: 24. Особенности отдельных служб и версий. Доступны

Все версии корректно выполняют большинство приведенных выше инструкций (кроме некоторых модификаторов слов и оператора мягкости поиска).

25. Для дополнительного изучения и тестирования поисковых сервисов Яндекс используйте группу NC 71216.

26. Некоторые ошибки поискового сервера Яндекс http://www.yandex.ru.

  1. Добавление стоп-слова в запрос с оператором "логическое ИЛИ" (13) в ряде случаев приводит к нулевому или иному нерелевантному результату. Например, добавление стоп-слова +не в начало запроса анальгетик | анальгетический | обезболивающий | аспирин | баралгин | темпалгин | седалгин | седальгин | нурофен | цитрамон | каффетин | кофицил дает нерелевантный результат. Например, добавление стоп-слова +как без модификатора "плюс" в запрос алгоритм | алгоритмический | изыскание | изыскивать | инструктивный | инструкция | испытание | испытать | исследование | исследовать | как дает нулевой результат. Во избежание ошибки такого рода оснащайте короткие словоформы модификатором "плюс" (например, +как), ставьте стоп-слово в конце перечня альтернатив или выделяйте его в отдельный запрос.  .
  2. Оператор "смежность в группе слов" (ячейка ) при значении числа, определяющего объем группы смежных слов одного предложения, более 8, работает некорректно. Сравните результаты запросов налог /4 пошлина, налог /8 пошлина, налог /12 пошлина и налог /16 пошлина. При необходимости расширения объема лексического контекста более 9 смежных слов, используйте оператор "в одном предложении" (ячейка 8и).  .
  3. Дисбаланс логических (круглых) скобок в поисковом запросе дает ошибочный результат, например, сравните (определение | значение) /(+1 +3) (понятие | термин)) и ((определение | значение) /(+1 +3) (понятие | термин)). Просчитайте число открывающих и закрывающих скобок в запросе и внесите исправления с учетом Вашей идеи поиска. Последовательно и отдельно проверяйте каждое выражение в скобках. Набор нового выражения начинайте с набора пары открывающий и закрывающей скобок "()", после чего возвратите курсор назад и вводите слова и операторы внутри новой пары скобок.  .
  4. Оператор "смежность в группе предложений" (п. 11и) при объеме группы более 11 работает некорректно. Сравните результаты поиска по следующим запросам Яндекс: налог &&/0 сша, налог &&/1 сша, налог &&/5 сша, налог &&/10 сша, налог &&/20 сша, налог &&/30 сша. При необходимости поиска в объеме более 11 смежных предложений используйте оператор поиска в документе (п. 12и), например, в данном случае примените поисковый запрос Яндекс налог && сша.
  5. Сборка сложных запросов из коротких кусков с логическими скобками, каждый из которых дает ненулевой результат, зачастую дает ноль документов. В таком случае укорачивайте поисковый запрос путем его разбиения по самой длинной логической скобке.
  6. Отсутствует диагностика ошибки смешения в запросе логических операторов альтернативности (п.13) и конъюнкции (пп. -12и). Во избежание ошибки такого рода везде, где встречается оператор альтернативности, уместно задавайте порядок обработки выражений в поисковом запросе, используя логические скобки (открывающая круглая скобка - выражение - закрывающая круглая скобка). В результате разного порядка исполнения операторов следующие поисковые запросы Яндекс дают совершенно разные результаты:
    • мороженое /2 сливочное | брюле
    • мороженое /2 брюле | сливочное
    • мороженое /2 (брюле | сливочное) 
  7. Отсутствует диагностика некорректности поискового запроса типа "узкий контекст накрывает широкий". В частности, невозможно искать предложение в группе смежных слов. Для каждой конструкции считайте и при возможности указывайте объем лексического контекста и обязательно сравнивайте его с объемом применяемого к этой конструкции оператора. Сравните отличия и объясните результаты следующих запросов Яндекс:
    • ((толоконный & утопить) /4 лоб)//1
    • ((толоконный /4 утопить) & лоб)//1
    • (толоконный /4 утопить & лоб)//1
    • толоконный /4 утопить & лоб
    • толоконный & утопить & лоб  
  8. Отдельные спецсимволы (п.20), записанные слитно с первым словом запроса Яндекс, например ^найдется-всё, интерпретируются некорректно. В результате такого запроса Яндекс получаем ноль документов.
  9. В некоторых случаях на абсолютно корректных поисковых запросах средней сложности Яндекс выдает "Синтаксическая ошибка" вместо "Искомая комбинация слов нигде не встречается". Для получения нормальных результатов уместно снимайте ограничения поискового запроса и/или расширяйте лексический контекст.
  10. Дополнительно см. письмо по горячей линии "Глюки в Яндексе".

Введение 1. Адреса форм для ввода поискового запроса 2. Оценка числа проиндексированных документов 3. Доступен командный язык поисковых запросов 4. Фраза 5. Следование на точном расстоянии в словах 6. Следование с диапазоном в словах 7. Смежность в группе слов 8. Смежность в одном предложении 9. Следование на точном расстоянии в предложениях 10. Следование в несимметричной группе соседних предложений 11. Смежность в симметричной группе соседних предложений 12. В одном документе 13. Альтернативность 14. Логический оператор, действующий по умолчанию 15. Логические скобки 16. Регистрозависимость 17. Морфология языков 18. Транслитерация и диакритика 19. Модификаторы слов в запросе 20. Спецсимволы в запросе 20a. Запрещенные в запросе спецсимволы 20b. Спецсимволы – заменители оператора "фраза" 20c. Спецсимволы внутри фразы запроса 21. Индексируемые форматы файлов 22. Возможные ограничения области поиска 23. Дополнительные возможности при поиске 24. Особенности отдельных служб и версий 25. Дополнительные материалы 26. Некоторые ошибки


<<<<Кузнецов Сергей ВалентиновичИсследование рисков и поиск возможностей через Интернет. Введение Карта сайта ONLINECI.RU СловарьОбучение Консультирование >>>>

Впервые опубликовано 28.01.2006, полностью проверено 13.09.2008

Опубликовано по адресу: http://www.onlineci.ru/yandexcd.htm
Дата последнего редактирования 06.07.2015
© Кузнецов Сергей Валентинович


Сайты (Сергей Кузнецов / Кузнецов С.В.):
Всепроникающее обучение
Невидимый Интернет для бизнеса
Технологии производства баз знаний
Юридические исследования через Интернет
Бесплатные сервисы (Сергей Кузнецов / Кузнецов С.В.):
Поиск рыночных ниш через Яндекс
Выявление проблем через Яндекс
Поиск определений через Яндекс
Прочие генераторы поисковых запросов
Услуги (Сергей Кузнецов / Кузнецов С.В.):
Тематический мониторинг открытых источников
Профессиональный поиск информации
Поиск и мониторинг ниш на рынках
Технологические исследования через Интернет
Очные компьютерные тренинги
Дистанционное обучение
Об авторе: Резюме Сергея Кузнецова
Фотогалерея Сергея Кузнецова
Публикации и работы Сергея Кузнецова
Правила Сергея Кузнецова
Мифы о Сергее Кузнецове
Технологические работы Сергея Кузнецова
В разработке