<<<<

Кузнецов Сергей Валентинович

Исследование рисков и поиск возможностей через Интернет. Введение

Словарь

Обучение

Консультирование

>>>>


Компактное описание Google www.google.ru

Настоящее компактное описание поисковой системы "Google" подготовлено Кузнецовым Сергеем Валентиновичем методом тестирования, актуально по состоянию на дату, указанную в конце этого документа, и содержит описание реально работающих возможностей. Тексты поисковых запросов Google выделены цветным курсивом с подчеркиванием.

1. Адреса форм для ввода поискового запроса 2. Оценка числа проиндексированных документов 3. Командный язык поисковых запросов Google 4. Фраза 5. Следование на выбранном расстоянии 6. Следование с диапазоном 7. Смежность в группе слов 8. В одном документе 9. Альтернативность в запросе Google 10. Оператор Google, действующий по умолчанию 11. Логические скобки 12. Учет регистра слова в запросе Google. 13. Поиск с морфологией. 14. Модификаторы слов в запросе Google 15. Спецсимволы в поисковом запросе Google 15а. - слитно на первой позиции слова 15б. - слитно между словами запроса 15в. - слитно в конце слова запроса 15г. - раздельно 15д. - раздельно внутри фразы 15е. - слитно внутри фразы 15ж. - слитно в начале фразы 15з. - стоящие слитно в конце фразы 16. Поиск файлов с заданными расширениями. 17. Ограничения при поиске с использованием Google 18. Дополнительные возможности поисковой системы Google 19. Версии поисковой системы Google 20. Дальнейшее изучение поисковой системы Google 21. Ошибки поисковой системы Google

1. Адреса форм для ввода поискового запроса (важнейшие поисковые сервисы Google)

ПОИСК (главная страница) http://www.google.ru, длина запроса – не более 32 слов, не считая операторов и терминов после ключевых слов поиска по полям, с учетом ошибок поисковой системы Google рекомендуемая длина русскоязычного запроса - до 150 кириллических символов.

Интерфейс главной страницы локализован для пользователей - носителей следующих 91 языков, диалектов или жаргонов: африкаанс, албанский, амхарский, арабский, армянский, азербайджанский, bahasa (Indonesia), bangla (India), basque, bhojpuri (India), bosnian, breton, bulgarian, byelorussian, catalan, chamorro (Guam), chinese simple, chinese traditional, croatian, cymraeg, czech, danish, eesti, esperanto, faroese, farsi (persian), filipino, frisian (Germany), gaeli scots , gaelic irish, galician, georgian, greek, guarani, hackers, hindi (India), hungarian, icelandic, interlingua, jawa, kannada (India), kurdish, kyrgyz, laothian, latina, latvian, macedonian, malayalam (India), maltese, marathi (India), melayu bahasa, mongolian, nepali, Norwegian, nynorsk (Norway), occitan, oriya (India), pig latin, portuguese, portuguese (Portugal), punjabi (India), romanche, romanian, russian, serbian, serbo-croatian, sesotho, sindhi (India), sinhala, slovak, slovenian, somali, spanish, sundanese (Indonesia), swahili, swedish, tamil, telugu (India), thai, tigrinya, turkish, turkmen, twi, uighur, ukrainian, urdu (India), uzbek, vietnamese, xhosa, yiddish, zulu.

Поиск по блогам (личным дневникам) и форумам http://www.google.ru/blogsearch, нет ограничений длины запроса…

Расширенный поиск http://www.google.ru/advanced_search, длина запроса – не более 32 слов, не считая операторов, эта форма обеспечивает следующие ограничения поиска:

Также доступен поиск похожих документов (URL "подходящей" страницы, работает плохо) или ссылающихся на страницу (URL).

Поиск новостей http://news.google.com/nwshp, 4500 источников, русских источников пока 400 (http://news.google.ru), нет ограничений длины запроса…

Группы (дискуссионные, Usenet) http://groups.google.com/, ограничение длины запроса - 10 слов…

Сервис "Оповещения" или поисковый сторож http://www.google.ru/alerts доставляет по электронной почте новые материалы по запросам Google

Интерфейсы Google для пользователей конкретного языка, диалекта или страны мира см. http://c.asselin.free.fr/french/googleworldwide.htm

Академия Google http://scholar.google.com/ обеспечивает поиск научно-технических материалов, ограничение длины запроса - 256 символов.

Все сервисы Google см. https://www.google.ru/intl/ru/about/products/ и новации в Google Code (https://code.google.com/)

2. Оценка числа проиндексированных Google документов 10000+ млн., вкл. 700+ млн. на русском. Число найденных документов систематически завышается. При индексировании счет слов идет от начала документа.

3. Командный язык поисковых запросов Google. Доступен командный язык поисковых запросов, длина запроса, как правило, не превышает 32 слова (не включая операторов и звездочек).

Область действия логического оператора Google (лексический контекст)

Логический оператор И (конъюнкция)

 Логический двухместный оператор НЕ (отрицание, первое и не второе)

4. Фраза (второй операнд {да/не} следует за первым без разрыва)

"девяносто девять процентов"

+девяносто-девять-процентов

Допустимы конструкции с оператором альтернативности внутри фразы

"девяноста девяти процентов OR процентах"

Дополнительно см. п.9 и 15b

4не

+слово1 -"слово1 слово2"

+лукойл -"ЛУКОЙЛ Оверсиз"

5. Следование на выбранном расстоянии (второй операнд {да/не} следует за первым, разница номеров слов в предложении равна точно заданному числу)

"экономическая * * * безопасность"

Число звездочек внутри фразы задает точное число слов между терминами. Допустимы конструкции с множественным следованием и оператором альтернативности:

"наказан * взлом * сайта OR сервера"

Работает не более 4 звездочек!

5не

+слово1 -"слово1 * * * слово2"

качестве -"в качестве" -"в * качестве"

6. Следование с диапазоном (второй операнд {да/не} следует за первым, разница номеров слов в предложении лежит в заданном диапазоне)

"мониторинг СМИ" OR "мониторинг * СМИ" OR "мониторинг * * СМИ" OR "мониторинг * * * СМИ" OR "мониторинг * * СМИ"

6не

+слово1 -"слово1 * * * слово2" -"слово1 * * * * слово2"

+мониторинг -"мониторинг Интернет" -"мониторинг * Интернет" -"мониторинг * * Интернет" -"мониторинг * * * Интернет"

7. Смежность в группе слов (оба операнда {да/не} находятся в группе соседних слов, разница номеров слов в предложении по модулю не превышает заданного числа)

"деловая разведка" OR "деловая * разведка" OR "деловая * * разведка" OR "разведка деловая" OR "разведка * деловая" OR "разведка * * деловая"

7не

шпионаж -"промышленный шпионаж" -"промышленный * шпионаж" -"промышленный * * шпионаж" -"шпионаж промышленный" -"шпионаж * промышленный" -"шпионаж * * промышленный"

8. В одном документе (операнды {да/не} могут быть в любом месте документа)

+мужчина +шпионаж

+мужчина & +шпионаж

+мужчина AND +шпионаж

8не

+секрет -промышленный

 

9. Альтернативность в запросе Google (логическое неисключающее "ИЛИ" / дизъюнкция) - только слова подслушивание OR прослушка, подслушивание | прослушка или подслушивание|прослушка.

Символ вертикальная черта "|", не окруженный в запросе пробелами, в сложных запросах не всегда работает понятно! Следующие запросы с этим вариантом записи оператора альтернативности интерпретируются по-разному и поэтому дают разные результаты:

  • "промышленный секрет"|"коммерческая тайна" (любое из сочетаний слов "как они даны в запросе" в тексте);

  • промышленный-секрет | коммерческая-тайна (любое из сочетаний слов "как они даны в запросе" в тексте и их слитные написания "промышленныйсекрет" или "коммерческаятайна");

  • промышленный-секрет|коммерческая-тайна (первое слово запроса, за ним, возможно слитно, второе или третье слово запроса, за которым, возможно слитно, четвертое слово запроса). Дополнительно см. п. 15b

Используйте оператор "OR", окруженный пробелами (записывается только ЗАГЛАВНЫМИ БУКВАМИ!).

Возможно использование оператора альтернативности внутри оператора "Фраза" (см. п. 4), например, "девяти процентов OR процентах OR процентами"

10. Оператор Google, действующий по умолчанию - логическое "И" (конъюнкция) в контексте одного документа (ячейка 8и) с добавлением материалов «нестрогого соответствия» (15-80% объема выборки).

11. Логические скобки игнорируются. При интерпретации запроса приоритет имеет оператор логическое "ИЛИ" (дизъюнкция): запросы (таможенный|импортный)(тариф|пошлина), таможенный|(импортный тариф)|пошлина и таможенный|импортный тариф|пошлина эквивалентны.

12. Учет регистра слова в запросе Google. При поиске не учитывается регистр букв слова запроса, результаты поиска по запросам НАЛОГ, Налог и налог эквивалентны.

13. Поиск с морфологией. При индексировании документов и поиске по умолчанию практически не учитывается морфология языков. Используйте генераторы словоформ (NC-1216 для русского языка, NC-224131 для английского языка и NC-224132 для немецкого языка) и оператор альтернативности, например, разведка OR разведкам OR разведками OR разведках OR разведке OR разведки OR разведкой OR разведкою OR разведку OR разведок. При индексировании документов и поиске Google не учитывает в словах транслитерацию и похожие буквы.

14. Модификаторы слов в запросе Google (пишутся слитно перед словом после пробела), например, +кондовый

  • исключение термина / выражения в документе - модификатор "минус": соглашение -"о-разделе". Модификатор "минус" не может стоять перед первым словом запроса!

  • поиск по тегам (меткам) в социальных сетях обеспечивает модификатор - "@" (коммерческое A) термина / слитного выражения в документе: @счастье или @undefined_flying_object

  • синонимы термина (только англоязычные, работает неважно, лучше использовать ресурсы группы NC-22415) - модификатор "тильда" (волнистая горизонтальная черта): ~competitive -competitive -competition

15. Спецсимволы в запросе. К спецсимволам относятся все знаки на клавиатуре, исключая все буквы и цифры. Как правило, спецсимволы не вносятся в полнотекстовый индекс, поэтому находить их в тексте через полнотекстовую поисковую систему невозможно. Отдельные спецсимволы могут использоваться в операторах языка запросов или выступать в качестве модификаторов слов (см. п.14). Спецсимволы в поисковом запросе Google:

15а. стоящие после пробела, оператора или начала запроса слитно перед словом спецсимволы игнорируются, кроме

  • "плюс" в качестве буквы (а не спецсимвола) в начале отдельного слова (а не выражения: фразы или сочетания слов, связанных спецсимволом), например, +Argentum

  • модификатор "-" (минус) слитно перед не первым словом запроса эквивалентен исключению в документе (см. пп. 8не, 14), например, внешнеторговый -контракт

  • модификатор "~" (тильда) слитно перед словом предписывает искать его синонимы (см. п. 14), но работает убого, например, ~tax -tax -taxes -taxing -taxation -"inland revenue" -federal -property -irs или ~налоговая -налоговая -налоговой -налоговую -налоговых

  • модификатор "@" (коммерческое А) слитно перед словом предписывает искать документы с подходящим ключевым словом (тегом) в социальных сетях, в заголовках сообщений и в тексте "как есть, с модификатором", например, @счастье | @happyness

  • аналогичный модификатор "#" (решетка) слитно перед словом предписывает искать документы с подходящим ключевым словом (хэштегом) в социальных сетях, в заголовках сообщений и в тексте "как есть, с модификатором", например, #паровая #швабра

  • знак "$" (американский доллар) перед или после положительного числа или перед их диапазоном ищется как денежный знак ($ или USD), например, $128, 33$ или $113..116

15б. стоящие слитно между словами запроса следующие спецсимволы эквивалентны пробелу: "!", "#", "%", ",", ";", "?", "^", "{", "}", "+", "$", "", "£", "", "¥", "(", ")", "[", "]", "`", "~", "<", ">", "", "*" (экономическая!безопасность эквивалентно экономическая безопасность), кроме нижеперечисленных случаев:

  •  альтернативность - оператор "|", например, налог|стоимость

  •  заменители оператора «фраза»: "-", ".", "/", ":", "@", "\", "=", например, запросы операторы-булевой-алгебры и "операторы булевой алгебры" дают одинаковые результаты и на первый взгляд кажутся эквивалентными. Фраза в кавычках ищется Google в текстах "как есть", а если кавычек нет и слова запроса соединены спецсимволами - заменителями оператора "фраза", в результаты добавляется слитное написание слов запроса. Запрос каб-мин дает заметно больше документов, чем "каб мин" за счет включения в результаты часто встречающегося сложного сокращения "кабмин". Дополнительно см. п. 9;

  • буквы в слове "_" и "&": +r&d или бесчелюстные_остеостраки

  • две точки между целыми неотрицательными числами, означают числовой диапазон, например, 113..116

15в. стоящие слитно в конце слова запроса спецсимволы игнорируются, кроме знаков "$", "+" после цифр, "_" и "&", которые ищутся как буквы, возможно, отдельно стоящие, например, 99$ или Конс+ или tax_ или duty&;

15г. стоящие раздельно в запросе спецсимволы игнорируются, кроме операторов, а также знаков "_" и "&", которые ищутся как однобуквенные слова, например, intelligence & или &;

15д. стоящие слитно или раздельно внутри фразы спецсимволы, кроме знаков звёздочка "*" дополнительно см. п.5, "_", "&", круглых скобок "(" открывающей и ")" закрывающей, игнорируются, например, "булеву алгебру" эквивалентно "булеву%алгебру" или "булеву + алгебру"  и неэквивалентно "булеву * алгебру" или "булеву&алгебру"  или "булеву & алгебру", а "type B (U) F" эквивалентно "type B(U)F" и неэквивалентно "type B U F" или "type BUF".

15ж. стоящие слитно или раздельно в начале фразы спецсимволы игнорируются, кроме знаков "_" и "&", которые ищутся как буквы, возможно, отдельно стоящие, ("булеву алгебру" эквивалентно "=булеву алгебру");

15з. стоящие слитно или раздельно в конце фразы спецсимволы игнорируются, кроме знаков "_" и "&", которые ищутся как буквы, возможно, отдельно стоящие, ("булеву алгебру" эквивалентно "булеву алгебру?").

16. Поиск файлов с заданными расширениями. Поисковая система индексирует и позволяет искать или исключать при поиске файлы с любыми расширениями: Можно искать в файлах с заданным расширением шпионаж filetype:pdf или 7z.exe filetype:CMD | filetype:BAT или исключая файлы с заданным расширением "лукойл оверсиз сервисез" -filetype:htm -filetype:html -filetype:php -filetype:jsp -filetype:js или +журналистское-расследование -filetype:html -filetype:htm. Операторы filetype и ext эквивалентны и позволяют вводить ограничения по любым расширениям имен файлов, пробел между оператором filetype или ext и расширением исключается, операторы могут работать самостоятельно, например, ext:ppt. Допустимы запросы типа:

  • разведка filetype:doc OR filetype:pdf OR filetype:ppt OR filetype:ps OR filetype:rtf OR filetype:xls

  • налог -filetype:doc -filetype:pdf -filetype:ppt -filetype:ps -filetype:rtf -filetype:xls

17. Ограничения при поиске с использованием Google. Реализованы следующие ограничения области поиска:

  • любые страницы заданной доменной зоны: site:ru

  • любые страницы заданного домена второго уровня: site:osint.ru

  • site:*-co.ru
  • любые страницы заданного домена третьего уровня: site:ombudsman.gov.ru

  • site:*ma.com.ru
  • любые страницы заданного домена четвертого уровня: site:www.economy.gov.ru

  • любые страницы, в адресе (URL) или ссылках (href) из которых встречается термин или слитное выражение: inurl:faq или business inurl:index-of-innovation (пишется слитно с оператором))

  • любые страницы, в адресе (URL) или ссылках (href) из которых встречается домен второго уровня: allinurl:osint-ru

  • любые страницы, в адресе (URL) или ссылках (href) из которых находится выражение: allinurl:forgot|lost passwrd|password|login

  • страницы, на которых в тексте ссылок встречается термин (только один): inanchor:нехороший или inanchor:оранжевая*революция (термин или выражение без пробелов записывается слитно с оператором)

  • страницы, на которых в тексте ссылок находится выражение: allinanchor:сбор доказательств (не сочетается с некоторыми операторами)

  • страницы, ссылающиеся на заданный URL (и только него): link:.cnews.ru | link:.rbc.ru или link:abc.ru/index.htm (URL пишется слитно с операндом)

  • страницы, текст которых содержит термин (только один): intext:лояльность или intext:лояльность -intitle:лояльность или intext:"засланный казачок" site:ko.ru (термин или фраза пишется слитно с оператором).

  • страницы, текст которых соответствует выражению: allintext:"конкурентная|бизнес разведка" site:.onlineci.ru

  • страницы, в названии которых присутствует термин (только один): intitle:президент -россии – найдены тексты с термином президент в заголовке, исключая термин "России" в любом поле документа или intitle:президент|премьер или intitle:премьер*министр (термин или слитное выражение пишется слитно с оператором))

  • страницы, в названии которых присутствует выражение: allintitle:"black list" OR "черный список" site:.spb.ru (не сочетается с некоторыми операторами)

  • последняя версия страницы в архиве (кеше) Google cache:news.yandex.ru/index.rss (не сочетается с некоторыми операторами) или cache:news.yandex.ru/index.rss сегодня – то же с выделенным словом "сегодня" или cache:http://news.yandex.ru/index.rss или перейти по ссылке "Сохранено в кеше" со страницы результатов поиска.

  • искать страницы, написанные на определенном языке, можно через страницу "Расширенный поиск" http://www.google.ru/advanced_search или страницу "Языковые инструменты" http://www.google.ru/language_tools или добавив к URL параметр &lr=lang_xx, где xx – индекс языка (en – английский, ru – русский… всего 91 язык)

  • искать страницы определенной страны мира, можно или через страницу "Языковые инструменты" http://www.google.ru/language_tools, или добавив к URL параметр &cr=countryZZ, где ZZ – индекс страны (RU – Россия и др., всего 237 стран);

  • искать новости сайтов определенной страны мира, можно через Новости http://news.google.com: democracy location:russia

  • искать страницы, просмотренные в течение последних дней, недель, месяцев или лет можно через страницу "Расширенный поиск" http://www.google.ru/advanced_search или добавив к URL параметр &as_qdr=d (последние сутки) или &as_qdr=dN (последние N суток) или &as_qdr=w (прошедшая неделя) или &as_qdr=wN (последние N недель) или &as_qdr=m (последний месяц) или &as_qdr=mN (последние N месяцев) или &as_qdr=y (последний год) или &as_qdr=yN (последние N лет). Задавать это ограничение в месяцах и годах большого смысла не имеет, поскольку все страницы Google переиндексирует каждые две недели и почти каждая как-то меняется;

  • искать страницы, измененные в заданном диапазоне дат: Александр-Васильевич daterange:2449718-2453736 (используется юлианский календарь), для преобразования диапазона дат из григорианского календаря в юлианский применяйте следующие конвертеры 1 и 2.

18. Дополнительные возможности поисковой системы Google

19. Версии поисковой системы Google. Доступна

20. Дальнейшее изучение поисковой системы Google. Для дополнительного изучения и тестирования поисковых сервисов Google используйте группу NC-71222. Дополнительную информацию см. http://www.googleguide.com, http://googlerussiablog.blogspot.com/http://google.blogspace.com/, а также новости на русском http://news2.ru/index.php?filter=on&order=all&tag=google, http://www.searchengines.ru/seoblog/archives/ieieneiau_nenoiu/google/.


21. Ошибки поисковой системы Google.
  • Основной поисковый сервис Гугл (http://www.google.ru / http://www.google.com и многие другие) при обработке длинных русскоязычных запросов (более 130 символов) генерирует или страницу об ошибке, или "нормальную с виду" страницу результатов поиска со ссылками, которые сам Гугл считает ошибочными (см. примеры: неверной страницы результатов поиска и неверных ссылок с нормальной страницы результов поиска). В обоих случаях пишется: "414. That’s an error. The requested URL /url... is too large to process. That’s all we know.. Эта ошибка может распространяться как на страницу результатов поиска, так и на ссылки с "нормальной по виду" страницы результатов поиска. Частота возникновения этой ошибки зависит от длины поискового запроса, используемых в запросе символов, используемого обозревателя Интернет и провайдера доступа в Интернет, а также уровня загруженности поисковой системы (точнее, ближайшего дата-центра Гугл) и длины ссылки на найденный материал. В качестве средства обхода этой ошибки рекомендуем и запросы с неанглоязычными символами (русскими, китайскими и т.п.) делать не длиннее 130 знаков и вводить их только через форму расширенного поиска http://www.google.ru/advanced_search.

 

1. Адреса форм для ввода поискового запроса 2. Оценка числа проиндексированных документов 3. Командный язык поисковых запросов Google 4. Фраза 5. Следование на выбранном расстоянии 6. Следование с диапазоном 7. Смежность в группе слов 8. В одном документе 9. Альтернативность в запросе Google 10. Оператор Google, действующий по умолчанию 11. Логические скобки 12. Учет регистра слова в запросе Google. 13. Поиск с морфологией. 14. Модификаторы слов в запросе Google 15. Спецсимволы в поисковом запросе Google 15а. - слитно на первой позиции слова 15б. - слитно между словами запроса 15в. - слитно в конце слова запроса 15г. - раздельно 15д. - раздельно внутри фразы 15е. - слитно внутри фразы 15ж. - слитно в начале фразы 15з. - стоящие слитно в конце фразы 16. Поиск файлов с заданными расширениями. 17. Ограничения при поиске с использованием Google 18. Дополнительные возможности поисковой системы Google 19. Версии поисковой системы Google 20. Дальнейшее изучение поисковой системы Google 21. Ошибки поисковой системы Google


<<<<

Кузнецов Сергей Валентинович

Исследование рисков и поиск возможностей через Интернет. Введение

Словарьь

Обучение

Консультирование

>>>>

Впервые опубликовано 12.10.2006, проверено 08.10.2011

Опубликовано по адресу: http://www.onlineci.ru/googlecd.htm
Дата последнего редактирования 28.11.2015
© Кузнецов Сергей Валентинович


Сайты (Сергей Кузнецов / Кузнецов С.В.):
Всепроникающее обучение
Невидимый Интернет для бизнеса
Технологии производства баз знаний
Юридические исследования через Интернет
Бесплатные сервисы (Сергей Кузнецов / Кузнецов С.В.):
Поиск рыночных ниш через Яндекс
Выявление проблем через Яндекс
Поиск определений через Яндекс
Прочие генераторы поисковых запросов
Услуги (Сергей Кузнецов / Кузнецов С.В.):
Тематический мониторинг открытых источников
Профессиональный поиск информации
Поиск и мониторинг ниш на рынках
Технологические исследования через Интернет
Очные компьютерные тренинги
Дистанционное обучение
Об авторе: Резюме Сергея Кузнецова
Фотогалерея Сергея Кузнецова
Публикации и работы Сергея Кузнецова
Правила Сергея Кузнецова
Мифы о Сергее Кузнецове
Технологические работы Сергея Кузнецова
В разработке