Профессиональный поиск в Интернете



       На сайте http://www.diplomukr.kiev.ua продажа аттестатов. | хризолит обычный минерал? |   

Проблема N 2: язык поисковых запросов


Ситуация может осложниться тем, что на поисковом сервере вы не найдете исчерпывающего описания того, как работают операторы языка запросов.

Даже на уже зрелых, не первый год работающих ИПС, с этим можно столкнуться. Рассмотрим на примере AltaVista, как это может стать источником определенных проблем.

Несмотря на недавнее появление графического фильтра (см. рис.2), многие пользователи системы продолжают эксплуатировать прозрачный по своей природе оператор image, позволяющий находить в индексе графические файлы. На этот счет справка AltaVista исчерпывает себя тем, что рекомендует ввести в шаблон запрос, в котором вслед за указанным оператором должно следовать имя или часть имени искомого файла. Таким образом, для поиска файла с изображением акрополя следует задать запрос в виде image: acropolis.

Рис.2 Шаблон простого поиска AltaVista (www.altavista.com) с фильтрами и меню выбора языка поиска.

Увеличит ли наши шансы на успех, знание того, как реально отрабатывает оператор image? Если посмотреть на откликнувшиеся документы, а затем на их HTML-источник, то легко убедиться, что в каждом из них в месте вставки графического образа присутствует элемент <IMG>. Внутри него в качестве обязательного атрибута стоит URL, с которого собственно и извлекается сам файл:

<IMG SRC="http://www.citforum.ru/buildings/acropolis.gif">

Фактически же Web-страница дает отклик, если ключевое слово входит не только в имя файла, но и в название любого каталога и в доменное имя сервера, содержащихся в URL элемента <IMG>. То есть документ, включающий в себя приведенную выше строку, откликнулся бы и на запрос image:buildings. Следовательно, поиск по имени каталога, которое так же как и имя файла несет смысловую нагрузку, позволяет получить графические данные, которые нельзя извлечь в первом случае. Предположим, что Web-мастер неосторожно назвал искомый файл acr1.gif, но разумно положил его в каталог buildings.Тогда по запросу image:buildings могут откликнуться релевантные документы с изображением акрополя, вставленным в Web-страницу с помощью строки:

<IMG SRC="http://www.citforum.ru/buildings/acr1.gif">

В расширенном поиске AltaVista используются логические операторы и скобки. Однако на сервере ничего не говорится о том, допустимо ли их применять внутри специальных полей поиска, таких как поле image. Уже заведомо зарегистрированный в индексе графический файл, найденный ранее, можно использовать для проверки работоспособности отдельных поисковых запросов. Так, если предположить, что файл с URL из последнего примера существует, то

тестовый запрос в виде image:( buildings AND acr1) должен дать корректный ненулевой отклик, и, таким образом, подтвердить, что комбинирование операторов допустимо. На практике это действительно возможно.

Хотелось бы еще раз подчеркнуть, что речь здесь идет не о порочности отдельных поисковых систем, а о конструктивном подходе к разрешению возникающих вопросов. При этом нередки и ситуации, которые предугадать крайне сложно.

Если, скажем, на той же AltaVista организовать поиск по ключевому слову "президент" (оно специально выбрано в качестве тестового как довольно распространенное), легко убедиться, что отклик зависит от двух факторов: какой язык выбран в меню шаблона (см. рис.2 справа вверху) - русский (Russian) или любой (any language), а также какая русская кодировка установлена в меню браузера. Результаты поиска приведены в таблице 1.




Содержание  Назад  Вперед