Каждый из нас, задумывался в своей жизни, как работают поисковые системы интернета (поисковики), которыми мы пользуемся. В самом начале мне хотелось бы подробно рассказать, на чем базируется работа поисковых машин, а также систематизировать категории поиска так, как это делают поисковые машины.
Я считаю это важным, потому что как только вы поймете, что такое поисковые машины и как они работают, вам станет ясно, как происходит поиск и как его результаты появляются на странице при указании определенного ключевого слова. Таким образом, вы сможете действовать рационально и создавать Оптимизированные вебстраницы, которые будут внесены в базу данных ПМ, и понять, для чего необходима оптимизация в целом. Некоторые сведения из этой главы носят сугубо технический или научный характер. В основном здесь я старался описывать общие принципы, но включал также и некоторые детали, которые вас несомненно заинтересуют и способствуют дальнейшему изучению рассматриваемых вопросов.
Поисковые системы состоят из пяти отдельных программных компонентов.
• Система выдачи результатов (Search engine results engine) — извлекает результаты поиска из базы данных.
• Паук (Spider) — это программа, которая скачивает веб-страницы. Она работает точно так же, как ваш браузер, когда вы соединяетесь с вебсайтом и загружаете страницу То же действие (скачивание) вы можете наблюдать, когда просматриваете некоторую страницу, выбирая опцию “просмотр HTML-кода” в своем браузере.
• Краулер (Crawler)— программа, которая автоматически проходит по
всем ссылкам, найденным на странице, и выделяет их. Его задача — определять, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще не известных поисковой системе
• Индексатор (Indexer)— разделяет страницу на части и анализирует их. Такие элементы, как заголовки страниц, заголовки в тексте страницы, ссылки, собственно текст и его структурные элементы, элементы BOLD, ITALIC и др., вычленяются и анализируются отдельно.
• База данных (Database) — хранилище всех данных, которые поисковая система скачивает и анализирует. Она часто требует значительных ресурсов.
Неверно считать, что поисковые системы интернета ищут сайт сразу, как только вы ввели ключевое слово в запросе. Это — чистой воды миф, что поисковые машины просматривают весь Интернет в поисках нужного запроса. Поиск осуществляется только в пределах собственной базы данных ПМ (индекса). И конечно, объем и новизна сведений определяется тем, как часто обновляется база данных.
Крупные поисковые системы, индексируют информацию подобно каталогу в библиотеке. Храня большой объем информации, они должны уметь быстро находить требуемые документы по заданным ключевым словам или фразам. Но самих веб-страниц еще больше, чем непосредственно данных о них. Интернет в целом не имеет никакой четкой структуры, и объединяет множество весьма разнообразных по содержанию и авторскому оформлению сайтов. Это делает почти невозможным для поисковой машины применение стандартных методов, используемых в управлении базой данных и в обычном информационном поиске.
Поисковые алгоритмы (математические методы программирования, сортирующие найденные результаты) каждого из поисковых сервисов уникальны. В этом можно убедиться, введя ключевое слово или фразу, например, в поисковую систему www.yandex.ru и запомнив результаты, а затем повторив то же самое на www.rambler.ru или www.google.ru. В различных поисковых машинах вы всегда получите разную информацию. Учитывая этот факт, к различным поисковым службам следует применять индивидуальный подход.
Популярный поисковик Google — самая крупная поисковая машина в мире (с базой данных из нескольких миллиардов файлов) — охватывает лишь малую долю данных, содержащихся во всей мировой веб-сети. Не следует забывать, что Веб растет быстрыми темпами. Исследование, выполненное в 2000 г [Lyman, Varian и др.], обнаружило приблизительно 7,5 млн. страниц, добавляемых каждый день. Таким образом, невозможно представить, что какая-либо поисковая машина будет когда-нибудь иметь ежедневно обновляемые данные обо всех сайтах сети.
Можно ещё очень долго говорить о то что такое поисковые системы интернета, но думаю это информации уже более чем достаточно чтобы сложить примерно впечателение о размахе поисковых монстров