| new-generation@usa.net | (718) 434-0900 | January 28, 1999 | Issue 4 |
|
В НОМЕРЕ: |
ВИРТУАЛЬНАЯ ИГОЛКА В СТОГЕ ВИРТУАЛЬНОГО СЕНА
Каждая из этих систем содержит гигантские базы данных с ссылками на разные сайты. Пользователь вводит одно или несколько ключевых слов (keywords) и получает, как правило, 20 ссылок с короткими описаниями и названиями сайтов, где эти слова найдены. Если ни одна из них его не интересует, можно запросить следующие 20, и так до тех пор, пока keywords продолжают встречаться. Но базы данных не безразмерны, они могут содержать только очень короткое описание сайтов и список из нескольких десятков ключевых слов для каждого. Поэтому имейте в виду - результаты поиска всегда неполные.
Search engines отличаются друг от друга устройством. Два основных типа - это так называемый META Search и Search by Topic - поиск по разделам. Принципиальное отличие - META Search индексирует все сайты подряд, используя для этого особое описание каждой страницы, оставленное авторами, или просто первые несколько параграфов текста, если описание отсутствует. Search by Topic сначала осуществляет внутренний поиск категории страниц, которая вам нужна, а уже потом ищет среди страниц только в тех категориях, что вы выбрали. На практике основные категории содержат подкатегории, те, в свою очередь, еще более специализированные разделы, и т.д. Одна и та же страница может фигурировать сразу в нескольких разделах, если соответствует каждому из них.
Конечно, второй способ поиска гораздо удобнее и быстрее. Но искать для каждой страницы соответствующую категорию, создавать новые, обновлять уже созданные - дело довольно трудоемкое. А если к тому же проверять содержание каждой новой страницы и решать, в какой раздел ее внести... Именно так устроен поиск Yahoo и многие другие. Понятно, они не содержат столько информации, сколько есть в системах META Search, куда ее вводить гораздо проще - кинуть ссылку и описание в общую кучу. Вносят свои страницы в базы данных обычно сами авторы. В то же время в системах META информации больше. Почему?
Участие человека им не требуется. Программа вполне способна выбрать кусок текста, адрес (URL) и вписать это в нужный файл. Это и происходит: spiders ("пауки") бродят по Всемирной Паутине самостоятельно, индексируя сайты и переходя по ссылкам на одних страницах к следующим. Поэтому META Search'и обычно знают не только то, что содержится на "главной странице" сайта, но и на других. Однако установить нужную категорию спайдер не способен, и поэтому Yahoo и другие каталоги (системы, ведущие поиск по категориям) их не используют.
Spider был разработан в Lycos. Однако, не обращая внимания на патент, другие компании создали собственные версии этой программы и уже несколько лет ее применяют. Запускают собственные спайдеры-индексаторы и американские спецслужбы, правда, результатами поиска они обычно не делятся. Например, "пауки" DIA (Defense Intelligence Agency, Pentagon) бороздят просторы киберпространства в поиске информации о террористах, экстремистских группировках, наркодельцах. Сайты, где обнаружен предмет поиска, автоматически вносятся в базу данных. Позже сотрудники DIA внимательно их изучают, нередко устанавливая при этом новые факты о старых знакомых.
Даже каталоги часто содержат слишком много ссылок на заданную тему, и это существенно затрудняет поиск. Например, если задать Yahoo keyword "newspaper", вы обнаружите список из 4835 ссылкок и 30 разделов. А если поискать слово "newspaper" на Altavista? Не поверите, 3301487 matches! Конечно, просмотреть такое количество страниц один человек навряд ли способен, а иначе, как ему определить, какая из них нужна? Для этого существуют search options – параметры поиска. Разные engines пользуются разными обозначениями, подробности о которых обычно доступны на том же сайте. Некоторые обозначения стали универсальными и используются большинством систем. Например, если до и после keyword'a поставить кавычки, engine будет искать только заданную комбинацию больших и маленьких букв (без кавычек заглавные буквы игнорируются). А если взять в кавычки целое выражение, вы найдете страницы с таким словосочетанием, а не с любыми комбинациями заданных слов.
Если engine вам не позволяет выбрать между режимами "Show all matches" и "Show exact matches only", чем больше keywords вы введете, тем больше страниц, где содержится хоть одно из них, будет найдено. А мы добиваемся обратного... В таких ситуациях помогает знак плюс, значение которого противоположно значению минуса. Вы найдете только страницы с теми словами и выражениями, перед которыми стоит плюс. Те из них, где встречаются остальные keywords (без плюса), будут в списке первыми. Поиск "John Clinton", "New York" на Альтависте выдал 2729311 результатов, +"John Clinton", "New York", -"Bill", -president - только 514. Уже несколько лет разрабатываются самообучающиеся поисковые системы. Они запоминают свои предыдущие задания и те ссылки из выданных списков, которые люди выбирают наиболее часто. Если им задать похожее задание во второй раз, более популярные ссылки окажутся в списке первыми. Существуют ли другие способы расположить результаты в удобном порядке, ведь именно эта функция постепенно приобретает первоочередное значение? Таких способов множество, но вы о них, к сожалению, не найдете много подробностей. Владельцы поисковых систем умеют хранить свои секреты.
|
||