Loading
severi

Немного о том, как работает поиск в интернете

Мы настолько привыкли к интернету и к тому, что написав в поисковике нужное слово можно найти любую информацию, что воспринимаем это как должное. Однако, каких-то пару десятков лет назад это можно было сделать только руками, записавшись в библиотеку обследовав кучу словарей и энциклопедий. Как интернет-поисковики находят всю эту информацию за доли секунды? Откуда они ее вообще берут? Эти и некоторые другие вопросы решаться прямо в этой статье.

Разумеется, поисковиков существует множество, как говориться не Google’ом единым. Среди них полно известных поисковых машин: Яндекс, Microsoft Bing, Yahoo, Duck Duck Go и, конечно же, Спутник. Однако, общие принципы работы у них идентичны, поэтому давайте с ними разбираться. Но прежде, немного истории.

Немного истории

Самой первой компьютерной программой для поиска в Интернете, была программа Арчи. Она была создана в 1990 году несколькими студентами, изучающими информатику в университете Макгилла в Монреале. Программа скачивала списки всех файлов со всех доступных серверов и строила базу данных, в которой можно было выполнять поиск по именам файлов. Однако, программа Арчи не индексировала содержание этих файлов, так как объём данных был настолько мал, что всё можно было легко найти вручную.

Первой полнотекстовой индексирующей ресурсы при помощи робота поисковой системой, стала система «WebCrawler», запущенная в 1994 году. Она позволяла пользователям искать по любым словам, расположенным на любой веб-странице — с тех пор это стало стандартом для большинства поисковых систем. Кроме того, это был первый поисковик, получивший широкое распространение.

Вскоре появилось множество других конкурирующих поисковых машин. В некотором смысле они конкурировали с популярными интернет-каталогами, такими как «Yahoo!». Но поисковые возможности каталогов ограничивались поиском по самим каталогам, а не по текстам веб-страниц. Позже каталоги объединялись или снабжались поисковыми роботами с целью улучшения поиска.

В 1996 году компания Netscape хотела заключить эксклюзивную сделку с одной из поисковых систем, сделав её поисковой системой по умолчанию в своем веб-браузере Netscape. Это вызвало настолько большой интерес, что Netscape заключила контракт сразу с пятью крупнейшими на тот момент поисковыми системами (Yahoo!, Magellan, Lycos, Infoseek и Excite). За несколько миллионов долларов США в год они по очереди показывались на поисковой странице Netscape.

Google взял на вооружение идею продажи ключевых слов в 1998 году, будучи маленькой компанией, обеспечивающей работу поисковой системы goto.com. Этот шаг ознаменовал для поисковых систем переход от соревнований друг с другом к одному из самых выгодных коммерческих предприятий в Интернете. Поисковые системы стали продавать первые места в результатах поиска отдельным компаниям. Поисковая система Гугла добилась высокого положения благодаря хорошим результатам поиска с помощью собственного алгоритма PageRank. К слову, слева на право — Google в конце 90х и в наши дни:
00s

Основные моменты работы поискового движка

Тремя ключевыми процессами, которые позволяют поисковой системе выдавать наиболее соответствующие поисковым запросам результаты, являются следующие:

  • Сканирование
  • Индексирование
  • Обработка и предоставление результатов
  • Сканирование

    Сканирование — это процесс, во время которого роботы обнаруживают новые и обновленные страницы для добавления в свою базу. Движок использует огромное количество компьютеров, чтобы извлечь (или «просканировать») миллиарды страниц в Интернете.

    Программа, которая делает выборку, известна как робот, бот или паук (потому что работает в Сети). Бот использует алгоритмический процесс: компьютерные программы, определяют какие сайты сканировать и как часто, сколько страниц проиндексировать из каждого сайта.

    Процесс сканирования начинается со списка URL-адресов веб-страниц, полученных от предыдущего сканирования и дополненных данными карты сайта, предоставляемыми вебмастерами. Когда паук посещает каждый из этих сайтов, он обнаруживает ссылки на другие страницы и добавляет их в список страниц, подлежащих сканированию.

    Новые сайты со временем переходят в статус существующих, «мертвые» (т.е. не ведущие никуда) ссылки выявляются и данные используется для обновления индекса (базы данных). С комерческой точки зрения на примере Google плата за то, чтобы сканировать чей-то сайт чаще не принимается: они предпочитают держать отдельно поисковый сервис от своих приносящих доход услуг AdWords.

    Индексация

    Индексация – процесс обработки роботом каждой из страниц, на которую он заходит, в целях формирования массивных баз данных из всех слов, которые он распознает и расположения этих слов на каждой из страниц. Кроме того, поисковик обрабатывает информацию, расположенную в ключевых тегах и атрибутах, таких как title тегах и атрибутах alt.

    Боты могут обрабатывать многие, но не все типы контента. Например, они не могут обрабатывать содержание некоторых насыщенных мультимедийных файлов или динамических страниц.

    Обработка

    Обработка наступает в момент, когда пользователь вводит поисковый запрос, тогда поисковая система заходит в свою базу данных (индекс) для подбора наиболее соответствующих запросу страниц и возвращается с результатами, которые являются наиболее соответствующими для пользователей.

    Соответствие определяется с помощью более, чем 200 факторов, одним из которых является, к примеру, PageRank (для Google). PageRank — это мера важности страницы на основе входящих ссылок с других страниц. Проще говоря, каждая ссылка на страницу одного сайта с другого, добавляет PageRank первому сайту.

    Однако, не все ссылки равны: поисковые систему работают над улучшением условий работы путем выявления спам-ссылок и других методов, которые негативно влияют на результаты поиска. Лучшими ссылками считаются те, которые даны, основываясь на качестве контента.

    Для того, чтобы сайт занял хорошее место в результатах поиска страницы, поисковая машина должна безпрепятственно и верно сканировать и индексировать этот сайт. Многие поисковики создают специальные справочные сервисы для вебмастеров могут помочь избежать распространенных ошибок и повысить рейтинг сайта.

    Функции, характерные для известных у нас Яндекса и, конечно, Google «Возможно, вы имели в виду» и «Автозаполнение» завершают неполный запрос, исправляя ошибки и предлагая варианты популярных запросов. Как и в результатах поиска, ключевые слова, используемые этими функциями, поступают веб-сканеров и автоматических систем поиска. Такие подсказки отображаются только в том случае, если, по мнению поисковой машины, они могут помочь пользователю. Если сайт имеет высокий рейтинг в результатах поиска по ключевому слову, значит алгоритмы Google определили, что его содержание хорошо соответствует запросу.

    Поисковики в Росии и в мире

    По данным различных исследовательских групп, можно сделать следующие интересные выводы о соотношении сил средств поиска на рынке:

    dolja_poiskovyh_sistem1
    На территории России, ситуация конечно же выглядит иначе:
    search-graph
    Разумеется от страны к стране самая популярная поисковая машина различаться. В Китае, например, в этом плане нет ничего популярнее Baidu. Хотя правильней сказать что в Китае вообще нет поисковиков кроме Baidu (отсюда и такая доля на рынке). У нас в стране на господствующем положении находится Яндекс (пока Спутник набирается сил, конечно же). Что не удивительно, благодаря такой-то рекламе:


    привет от Yandex’а из нулевых