Искусство искать и найти в интернете всё и чуточку больше.

Профессор истории Йельского университета Шерман Кент стал легендой в области анализа разведданных во время своей работы в ЦРУ. Однако всемирную известность ему подарил документ, который назвали “Йельский отчет”. В 1951 году он попросил сотрудников собрать информацию о вооруженных силах Соединенных Штатов, используя только открытые источники данных. Когда отчет представили заказчикам в Пентагоне и Лэнгли он произвел эффект разорвавшейся бомбы – настолько он был точен и глубок. Шерман Кент отмечал: большую часть нужной информации можно получить из открытых источников и 90- 95% всех данных соответствует действительности. Это правило с определенными поправками можно применять эти к интернету. Всемирная сеть состоит из более чем миллиарда сайтов и их количество постоянно растет. Технологии по поиску информации в интернете базируются на том, что ответ на ваш вопрос уже дал кто-то другой. И даже если прямого ответа не существует, то его можно синтезировать из имеющихся данных. Поисковые системы Google, Yandex, Bing и другие сервисы были созданы, чтобы хоть как-то упорядочить вал информации. Несмотря на то, что поисковые системы отличаются друг от друга, принципы их действия одинаковы.

Главный инструмент поисковых систем специальные программы, поисковые роботы или crawler. Краулеры приходят на сайт и считают все текстовую и графическую информацию, которую находят на странице после чего сохраняют эту информацию в хранилищах поисковой системы. Этот процесс называется индексацией. Затем краулеры переходят на другие страницы по ссылкам, которые они обнаружили в тексте и также индексируют, и так до бесконечности. Однако сейчас интернет разрастается с большей скоростью, чем есть ресурсов у поисковых систем. Поэтому есть такие сайты и страницы, которые не были проиндексированы поисковиками, потому что на них не ведет ни одна ссылка, либо потому что crawler ещё не успел добраться до конкретной страницы, либо потому что администратор сайта с помощью файла robots.txt запретил индексировать отдельные страницы.

Совокупность страниц сайта, которые не попали в хранилище поисковых систем называется “невидимый интернет”.

Совокупность страниц сайта, которые не попали в хранилище поисковых систем называется “невидимый интернет”. Это означает, что используя поисковые сервисы данную информацию найти невозможно. Однако это не значит, что до неё нельзя добраться другими способами. Расширенный поиск Advanced Search позволяет значительно повысить эффективность работы с данными. Использовать его функции можно на специальной странице расширенного поиска или с помощью специальных слов операторов поиска, которые пишут в поисковой строке вместе с ключевыми словами. На специальной странице расширенного поиска Google можно использовать простой поиск без операторов, поиск по конкретным словосочетанием. Также можно задать формат файлов, которые вас интересуют, ограничить поиск Гугла по определенному сайту или же по определённой области сайта, выбрать период времени, который нас интересует. Поиск по словосочетанию помогает найти конкретную фразу, где ключевые слова идут подряд. Например если вы ищете название фирмы или заголовок статьи в поисковой строке, введённая вами фраза будет в кавычках. Оператор очень облегчает поиск, убирая ненужные мусорные ссылки. Точно также оператор помогает искать номера телефонов с различными вариантами написания или же адреса электронной почты.

Комплексный поиск без слов помогает исключить из поисковой выдачи ненужные результаты. В поисковой строке он выглядит как оператор минус перед тем словом, которое вы хотите исключить. Например если вы ищете человека по имени и фамилии и приблизительно знаете место его проживания Вы можете исключить другие локации и получить результаты уже без них. Логический оператор или английское слово or помогает сэкономить время и получить все результаты. Если у вас есть несколько вариантов написания ключевого слова, которые надо проверить на странице результатов поисковой выдачи есть специальное меню, в котором также можно выбрать инструменты поиска, которые присутствуют и на странице расширенного поиска. Самым полезным инструментом является выбор периода, за который мы хотим получить результат.

Выбрав определенный период в прошлом в поисковой выдаче мы получаем публикации из этого периода. Минус данного метода в том, что иногда Google выдаёт результаты старых страницы, на которых есть проиндексированные ключевые слова, которые мы ищем. Поиск по определенному домену или сайту нацеливает поисковую систему на конкретную область интересную нам. Так работает оператор Google сайт – он может ограничить поиск по сайтам доменной зоны если нас интересуют только с сайта определенной страны (например .ru, .ua или .com). Также можно искать в доменной зоне второго уровня (.gov.ua), например только на государственных сайтах или же на конкретном сайте, а можно произвести поиск и по какой-то части сайта – скопировать её url-адрес. Например я говорю Гуглу, что хочу найти название компании “Prime-mc Partners limited” на сайте https://www.documentcloud.org/, который является хранилищем документов для журналистов по всему миру. В результате я вижу два проиндексированных документа, которые могу посмотреть. Ещё один оператор поиска File Type помогает найти ключевые слова проиндексированные на страницах файлов определенного формата, например форматов PDF.

Если мы добавим к нему ограничение поиска по определенному сайту, то сможем получить документы хранящиеся в открытой части сервера например Центральной избирательной комиссии. Другими полезными форматами оператора поиска являются файлы XLS электронных таблиц, в них хранят базы данных и финансовые документы, файлы Doc текстовые документы и файлы презентации Microsoft Word ppt. Расширение файлов можно также дополнять и корректировать вручную прямо в поисковой строке.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *