NEW GENERATION

new-generation@usa.net (718) 434-0900 January 28, 1999 Issue 4
  В НОМЕРЕ:
*Шаббатон "Ахейну"
*Year in Review
*World Online
*Израиль на проводе
*The True Story
*Кругом одни евреи
*Тусовка в Боропарке
*Sports Section
*Студенческий юмор
  ВИРТУАЛЬНАЯ ИГОЛКА В СТОГЕ  
  ВИРТУАЛЬНОГО СЕНА  

В прошлый раз мы остановились на том, что domain'ов уже зарегистрировано много миллионов, почти каждый содержит как минимум один host (www), и каждый host может вмещать в себя сотни, тысячи, а иногда и сотни тысяч сайтов и отдельных страниц. Общее количество информации в Сети растет в геометрической прогрессии и удваивается каждые несколько месяцев. При этом на Интернете царит анархия, и любой желающий может создать сайт, посвященный любой теме. В таком хаосе отыскать нужную вам информацию непросто, и становится сложнее день ото дня. Тут на помощь приходят поисковые системы - search engines.

Каждая из этих систем содержит гигантские базы данных с ссылками на разные сайты. Пользователь вводит одно или несколько ключевых слов (keywords) и получает, как правило, 20 ссылок с короткими описаниями и названиями сайтов, где эти слова найдены. Если ни одна из них его не интересует, можно запросить следующие 20, и так до тех пор, пока keywords продолжают встречаться. Но базы данных не безразмерны, они могут содержать только очень короткое описание сайтов и список из нескольких десятков ключевых слов для каждого. Поэтому имейте в виду - результаты поиска всегда неполные.

Search engines отличаются друг от друга устройством. Два основных типа - это так называемый META Search и Search by Topic - поиск по разделам. Принципиальное отличие - META Search индексирует все сайты подряд, используя для этого особое описание каждой страницы, оставленное авторами, или просто первые несколько параграфов текста, если описание отсутствует. Search by Topic сначала осуществляет внутренний поиск категории страниц, которая вам нужна, а уже потом ищет среди страниц только в тех категориях, что вы выбрали. На практике основные категории содержат подкатегории, те, в свою очередь, еще более специализированные разделы, и т.д. Одна и та же страница может фигурировать сразу в нескольких разделах, если соответствует каждому из них.

Конечно, второй способ поиска гораздо удобнее и быстрее. Но искать для каждой страницы соответствующую категорию, создавать новые, обновлять уже созданные - дело довольно трудоемкое. А если к тому же проверять содержание каждой новой страницы и решать, в какой раздел ее внести... Именно так устроен поиск Yahoo и многие другие. Понятно, они не содержат столько информации, сколько есть в системах META Search, куда ее вводить гораздо проще - кинуть ссылку и описание в общую кучу. Вносят свои страницы в базы данных обычно сами авторы. В то же время в системах META информации больше. Почему?

Участие человека им не требуется. Программа вполне способна выбрать кусок текста, адрес (URL) и вписать это в нужный файл. Это и происходит: spiders ("пауки") бродят по Всемирной Паутине самостоятельно, индексируя сайты и переходя по ссылкам на одних страницах к следующим. Поэтому META Search'и обычно знают не только то, что содержится на "главной странице" сайта, но и на других. Однако установить нужную категорию спайдер не способен, и поэтому Yahoo и другие каталоги (системы, ведущие поиск по категориям) их не используют.

Spider был разработан в Lycos. Однако, не обращая внимания на патент, другие компании создали собственные версии этой программы и уже несколько лет ее применяют. Запускают собственные спайдеры-индексаторы и американские спецслужбы, правда, результатами поиска они обычно не делятся. Например, "пауки" DIA (Defense Intelligence Agency, Pentagon) бороздят просторы киберпространства в поиске информации о террористах, экстремистских группировках, наркодельцах. Сайты, где обнаружен предмет поиска, автоматически вносятся в базу данных. Позже сотрудники DIA внимательно их изучают, нередко устанавливая при этом новые факты о старых знакомых.

Даже каталоги часто содержат слишком много ссылок на заданную тему, и это существенно затрудняет поиск. Например, если задать Yahoo keyword "newspaper", вы обнаружите список из 4835 ссылкок и 30 разделов. А если поискать слово "newspaper" на Altavista? Не поверите, 3301487 matches! Конечно, просмотреть такое количество страниц один человек навряд ли способен, а иначе, как ему определить, какая из них нужна?

Ответ очевиден: надо задать дополнительные ключевые слова. Тогда большая часть ненужной информации отсеется. Ищем на Альтависте "russian newspaper", получаем 1347 ссылок. Все равно многовато. Одной человеческой жизни для того, чтобы все просмотреть, уже достаточно, но поспать в эту ночь не придется. Как бы сформулировать задачу точнее, чтобы "искалка" (мы еще и не таких словей придумаем) поняла, чего от нее хотят?

Для этого существуют search options – параметры поиска. Разные engines пользуются разными обозначениями, подробности о которых обычно доступны на том же сайте. Некоторые обозначения стали универсальными и используются большинством систем. Например, если до и после keyword'a поставить кавычки, engine будет искать только заданную комбинацию больших и маленьких букв (без кавычек заглавные буквы игнорируются). А если взять в кавычки целое выражение, вы найдете страницы с таким словосочетанием, а не с любыми комбинациями заданных слов.

Допустим, вы ищете знакомого по имени John Clinton. А находите постоянно статьи о Билле... Как бы от него избавиться? Совсем нетрудно: поищите "John Clinton", -"Bill", -president. Знак минус перед словом означает, что сайты, где оно обнаружено, вас не интересуют даже в том случае, если прочие keywords на них встречаются. Такие страницы в список найденных результатов не войдут.

Если engine вам не позволяет выбрать между режимами "Show all matches" и "Show exact matches only", чем больше keywords вы введете, тем больше страниц, где содержится хоть одно из них, будет найдено. А мы добиваемся обратного... В таких ситуациях помогает знак плюс, значение которого противоположно значению минуса. Вы найдете только страницы с теми словами и выражениями, перед которыми стоит плюс. Те из них, где встречаются остальные keywords (без плюса), будут в списке первыми. Поиск "John Clinton", "New York" на Альтависте выдал 2729311 результатов, +"John Clinton", "New York", -"Bill", -president - только 514.

Уже несколько лет разрабатываются самообучающиеся поисковые системы. Они запоминают свои предыдущие задания и те ссылки из выданных списков, которые люди выбирают наиболее часто. Если им задать похожее задание во второй раз, более популярные ссылки окажутся в списке первыми. Существуют ли другие способы расположить результаты в удобном порядке, ведь именно эта функция постепенно приобретает первоочередное значение? Таких способов множество, но вы о них, к сожалению, не найдете много подробностей. Владельцы поисковых систем умеют хранить свои секреты.


Женя Вайнштейн
eugene@new-generation.com