Профессиональный поиск в Интернете

       

Планирование поисковой процедуры.


Трудоемкие поисковые работы, связанные с масштабным сбором информации из Сети, нуждаются в планировании. Ошибочная логика построения запроса, неоптимизированная последовательность применения инструментов, попытка форсировать поиск - все это не просто затягивает получение результата на дни и даже недели, но может поставить под вопрос смысл всей поисковой кампании.

Рис. 4. Изменение числа заиндекированных на май 1999 года документов (правый столбец) в процентах от их общего количества в Паутине по отношению к апрелю 1998 года (левый столбец) для различных поисковых машин: 1-AltaVista, 2-Northern Light, 3 - HotBot , 4- Excite, 5- Lycos, 6- Infoseek, 7- WebCrawler (по материалам Science magazine и Forrester Research)

Несмотря на постоянный рост индексов поисковых систем, оценки показывают, что увеличение общего числа документов в WWW за последний год с 320 до 550 миллионов в целом ухудшило картину доступности информации. Из гистораммы на рис.4 следует, что доля документов, захваченная отдельным индексом значительно упала и не превышает 30 процентов. Отсюда ясно, что только применение совокупности поисковых машин, способно дать полноценную информационную картину для поисковых задач, при решении которых существенна полнота поиска.

Тем не менее независимо от характера задачи, непродуманное метание от одного поискового сервиса к другому существенно увеличивает время получения результата.

Остановимся на нескольких важных моментах, связанных с планированием и первыми шагами поисковой процедуры.

Начинать обычно приходится со всестороннего лексического анализа информации, подлежащей поиску. Необходимо получить из любого источника прецедент подробного и грамотного описания исследуемого вопроса. Таким источником вполне может стать как узко специальный справочник, так и электронная энциклопедия общего профиля. На основе изученного материала необходимо сформировать максимально широкий набор ключевых слов в виде отдельных терминов, словосочетаний, профессиональной лексики и клише, при необходимости - и на нескольких языках. Заранее стоит побеспокоиться о потенциальной возможности уточнения поискового запроса - редких словах, возможно, названий

и фамилий, тесно связанных c проблемой. Желательно также предвидеть,

какие из выбранных терминов, могут привнести в отклик поисковых систем нерелевантные документы. После накопления этого багажа можно перейти к получению предварительной информации из Сети.

Основная задача этой фазы работы - преломить проблему через призму Интернета, который является не только носителем технологий, но и традиций, и собственной этики. Сетевая лексика, сленг и написание общеупотребительных слов здесь могут отличаться от общепринятых.

Довольно трудно, например, догадаться, что появление огромного количества англоязычных электронных текстов литературных произведений в Сети связано с именем сетевого проекта "Gutenberg". Или что название операционной системы OS/2 допускает два вида написания - "OS/2" и "OS2". Одно неловкое движение - и десятки тысяч полезных документов выпадают из поля зрения.

Рейтинги потенциальных поставщиков нужной информации в обычной жизни и в электронном пространстве также могут существенно отличаться. В этой связи возможно, одно из главных положений, которое должно привлекать заказчика поисковых работ в Сети - это присутствие в ней совершенно уникальных источников,

не допускаемых или неконкурентных на традиционном рынке информации. При поиске в Сети заметную роль начинает играть видение психологического портрета поставщика информации, к чертам которого могут проявлять чувствительность поисковые инструменты.

Прецедент существования в Сети необходимых данных лучше всего найти в известном каталоге, поддерживающем поиск по ключевым словам. В целом при решении простых, "любительских" задач уровня "погода в Сочи" или "карта метро Рима" каталог может быть более быстрым источником получения информации, чем на автоматический индекс и при больших гарантиях достоверности.

После лексического анализа информации наступает технологический этап. Выбор информационного поля Сети и поисковых инструментов производится на основе подходов, изложенных нами ранее.

Используются тестовые запросы из 1-2 ключевых слов или фразы, затем анализируется количественный отклик. Содержательный анализ данных позволяет корректировать запросы по релевантности отклика. В этой работе могут применяться и метапоисковые, и крупные автономные системы. В результате тестирования выясняются наиболее представительные источники информации, после чего следует уточнить последовательность применения поисковых инструментов. На этом этап планирования завершается.

В заключение отметим, что в особенности для задачи сбора информации из Сети сегодня заметно возрастает роль региональных и специализированных поисковых сервисов. Использование глобальных индексов не для прямого поиска нужных сведений, а для локализации этих поисковых инструментов нередко позволяет в сжатые сроки форсировать поисковую кампанию.



Содержание раздела