Профессиональный поиск в Интернете



         

Глобальные поисковые машины WWW: тонкая настройка. - часть 2


Поисковая машинаAltaVistaExciteHotBotInfoSeekLycosNorthern LightWeb Crawler

Показатели индексирования

Особенности поисковых языков

Размер индекса в млн. документов1505511045501402
Скорость индексирования, документов в день10 млн3 млндо 10 млнНет данныхот 6 до 10 млнболее 3 млнНет данных
Время регистрации1-2 дня2 недели2 недели2 дня2-3 недели2-4 недели2 недели
Полная глубина индексированияДаНетДаНетНетДаНет
Полная поддержка фреймовДаНетНетНетНетДаНет
Закрытые паролем узлыДаНетДаНетНетНетНет
Учет частоты обновленияДаНетНетДаНетНетНет
Поиск по доменуДаНетДаДаДаНетНет
Поиск по URLДаНетНетДаДаДаНет
Учет регистраДаНетЧастичноДаНетЧастичноНет
Поиск по заголовкуДаНетДаДаДаДаНет
Использование маски "*"ДаНетДаНетНетДаНет
Поддержка NEAR и его ширина10 словНетНетНет25 словНет2 слова
Поддержка кириллицыДаНетНетДаДаДаНет

Таблица 1. Сравнительные показатели глобальных поисковых машин общего назначения. Сетевые адреса поисковых машин строятся на базе их имен по шаблону www.имя.com (двусложные имена пишутся слитно)

Начнем с особенностей индексирования. Большой объем индекса, безусловно, выглядит как разумный аргумент при выборе поисковой системы. Однако он далеко не единственный. Любые начальные сведения о характере информации, служащей предметом поиска, делают задачу выбора более тонкой. Например, если нас интересуют сведения, которые могли поступить в Сеть только за последнюю неделю, то следует предпочесть поисковые машины с высокой скоростью индексирования и минимальным временем регистрации, через которое документ по представлению автора появляется в индексе.

Для ускорения сканирования узла робот поисковой машины может ограничивать глубину его индексирования. WebCrawler, например, вообще сканирует только домашнюю страницу сайта. В результате даже такой крупный индекс как Excite может оказаться непригодным для поиска данных, которые в типичных случаях принято размещать в глубине узла.

Из трех крупнейших конкурирующих индексов AltaVista, Northern Light и HotBot у последнего есть серьезные проблемы со сканированием узлов, содержащих фреймы. Отсюда следует, что при масштабном сборе информации из Сети HotBot во избежание потерь можно использовать только как систему, дополнительную к двум первым.

Нередко разработчики коммерческих узлов закрывают под пароль доступ к материалам сайта. Заинтересованные тем не менее в рекламе, они часто прибегают к возможности открыть доступ к их ресурсам роботам поисковых систем. Из таблицы видно, что только два индекса корректно работают с закрытами узлами.

Таким образом, при поиске информации, которая потенциально является продаваемой, их применение обязательно.

Роботы поисковых систем, сканирующие Сеть, могут увязывать частоту своих повторных посещений уже зарегистрированного узла со скоростью обновления его материалов (AltaVista, InfoSeek). Эта черта полезна при поиске сведений, которым присуще частое обновление, например, новостей.

В нижнем блоке таблицы выделены возможности поисковых языков отдельных систем, которые также допускают специфичное применение.

Так, ключевые слова, входящие в доменное имя узла, сегодня широко используются при поиске всевозможных компаний. Если есть начальные сведения о терминах, которые могут быть включены в названия каталогов или файлов - носителей релевантной информации, то следует использовать поисковые машины, поддерживающие поиск по URL. Даже такая казалось бы незначительная деталь как учет регистра при построении запроса в определенных ситуациях становится крайне полезной. Например, при сборе сведений о Турции (Turkey) системы, которые фиксируют при индексировании регистр каждой буквы слова, позволяют легко избавиться от документов с термином turkey (индюк).

Поиск по заголовку страницы (элемент title) достаточно эффективно применяется, когда разыскиваются организации, особенно с двусложным длинным названием. Односложное название обычно входит в имя домена или в URL как есть, а многосложное формирует аббревиатуру. По домену или URL их легче всего и оказывается локализовать. Название же компании из двух слов, например, American Cybernetics, не позволяет точно угадать имя сервера (ни www.americancybernetics.com, ни www.ac.com не являются верными). Поэтому в синтаксисе AltaVista запрос

title:"American Cybernetics" является наиболее эффективным. Ясно, что лидеры некоторых опросов - поисковые службы Excite или WebCrawler выглядят здесь несостоятельными.

Следует помнить, что одноименные операторы в разных поисковых системах могут иметь неодинаковые свойства. Оператор близости NEAR иллюстрирует этот факт. На запрос типа "термин_1 NEAR термин_2" откликнутся документы, заиндексированные роботами AltaVista, Lycos или WebCrawler, если заданные термины присутствуют в документах в пределах определенной близости друг к другу, неодинаковой для разных систем (см. таблицу). Разницу в интерпретации оператора NEAR можно тонко использовать при поиске.

Еще одно замечание необходимо сделать о возможности "теневой" профилизации глобальных поисковых машин. Чисто технические особенности работы сервиса могут спровоцировать увеличение доли одной тематики информации перед другой. В результате равные по объему индексы могут давать неодинаковый отклик по отдельным запросам, что следует учитывать при планировании поиска. Существует ли такой крен в каждом конкретном случае выясняется с помощью тестовых запросов.

Разумеется, исчерпывающий сравнительный анализ даже всего семи поисковых систем выходит за рамки одной статьи. Более важная задача автору виделась в том, чтобы обозначить общий подход к проблеме выбора поискового инструмента на основе детального анализа его возможностей. Полезно отметить, что обычно поисковые сервера разделяют интерфейс для ввода запросов на "простой" и "расширенный" (advanced, power). Все необходимые для профессиональной работы с системой возможности скрыты в "расширенном" интерфейсе, и именно с него стоит начинать знакомство с любой новой для себя поисковой машиной.

В целом нетрудно видеть, что борьба за глобальное лидерство разворачивается между тремя наиболее крупными поисковыми системами AltaVista, HotBot и Northern Light .

Еще два года назад трудно было себе представить, что первенство AltaVista кто-то сможет оспорить. Казалось бы, что с течением времени соперничать с гигантом становится все труднее.Однако в 1998 году к лидеру заметно приблизился HotBot, а нынешний год отмечен скандальными заявлениями разработчиков Northern Light о том, что индекс этой системы является самым крупным в Сети. Действительно, невероятный скачок индекса Northern Light от 67 млн. документов по данным прошлого года до нынешних 140 млн. говорит о том, что вся борьба еще впереди. Разница в объеме индексов этой тройки при достаточно большом количестве нюансов его определения не настолько значительна, чтобы быть принципиальной. Более важно то, что соперничество систем способствует развитию индивидуальности каждой из них.

AltaVista отличается, пожалуй, самым изысканным и гибким языком запросов, требующим однако специального изучения. Но он того стоит. Посмотрите, например, как изящно выглядит запрос на получение электронных текстов Джека Лондона с какого-либо нерусского сервера.

(url:etext) and text:(Jack near London) and not (text:(city or capital) or domain:ru)




Содержание  Назад  Вперед