Некоторые важные вопросы
Какие слова индексирует поисковая машина?
Что такое (Стоп-слова) - (Механизм ранжирования) - (Непот-фильтр. С чем его едят)
Как мы уже говорили, для индексации слов на страницах поисковику нужно знать,
что именно считается словом.
Что такое слово
Например, слова с дефисом (красно-синий, что-нибудь) — это одно слово или два? А числа — это тоже слова или они выбрасываются как «мусор»? А слова на другом языке — выбрасывать или оставлять? Что делать с комбинацией букв и цифр (с названиями моделей электроники, например)? Индексируются ли адреса электронной почты, интернет-адреса и даты, и если да, то как?
Все эти вопросы решаются разработчиками каждой поисковой машины по-своему. Более того, нам здесь нет смысла пытаться точно указать правила выделения слов для «Янлекса» или Google — они могут меняться хоть раз в месяц, с каждым вводом «в бой» очередной версии поискового механизма. Гораздо проще это проверять самостоятельно, когда требуется.
Как проверить
Вы можете легко сами проверить, как разработчики «Яндекса», Google или «Рамблера» обрабатывают, например, слова с дефисом или числа — достаточно ввести в поисковик такой запрос и посмотреть, что именно найдет и как покажет поисковая машина. Поскольку найденные слова показываются и подсвечиваются в цитатах (аннотациях) страниц, будет сразу видно, как хранятся слова в индексе данного поисковика
Разделители
Конечно. поисковики не индексируют всякие служебные символы, так называемые разделители — пробелы, знаки препинания, а также различные теги и др. конструкции языка HTML. Например, если ввести в «Яндекс» или Google запрос из одной точки (.). они откажутся искать по такому запросу, а «Яндекс» еще и сообщит о синтаксической ошибке. Действительно, точка есть в любом тексте, так что искать ее нет смысла. ла и накладно по затратам серверной мощности.
Стоп-слова
А есть лп «ненужные слова», которые поисковики не индексируют вовсе?
Поисковый индекс представляет собой пусть хорошо упакованную, максимально сжатую, вывернутую «наизнанку», но все же копию всех страниц Интернета, известных поисковику. А поисковики стремятся получить данные о максимально большем количестве страниц, то есть в идеале поисковый индекс должен представлять собой копию всего Интернета, а это огромный объем данных.
Поэтому раньше поисковые машины старались экономить место на дисках и время работы сервера и отбрасывали при индексации некоторые неважные, служебные слова, так называемые стоп-слова, например предлоги, союзы, числа. сокращения и т. п. Отбрасывали они также и цифры.
Индексация баз данных
Очень часто сайты с большим объемом данных хранят свои страницы в какой-либо базе данных (например, MySQL или Microsoft SQL Server). Это гораздо удобнее для хранения и обновления сайта, поскольку база данных позволяет легко добавлять, модифицировать и удалять информацию.
Как поисковики обращаются с такими сайтами, могут ли они их индексировать?
Ответ тут простой: если страницы сайта выдаются из базы данных при переходе по ссылкам внутри сайта, то поисковику в принципе все равно, откуда они берутся при подобном переходе. Находится ли страница на сайте или генерируется динамически при переходе по ссылке - для индексации неважно. А вот если для получения страницы пользователь должен обязательно ввести какой-то запрос к базе данных, то поисковик таких страниц просто "не видит".
Поясним вышесказанное на примере. Допустим, у вас есть онлайновая энциклопедия по фильмам и актерам, содержащая 100 тысяч статей в алфавитном порядке. Конечно, хранить и редактировать такое количество страниц "россыпью", в виде HTML-файлов, крайне неудобно. Поэтому статьи энциклопедии будут, скорее всего, храниться в базе данных, где их достаточно просто свести в одну таблицу и хранить в нескольких файлах базы данных.
Пусть теперь вы подали свой сайт на индексацию в поисковиках. Если у вас на сайте будет полное оглавление статей энциклопедии, в виде иерархического оглавления (скажем, по буквам алфавита) или в виде простого линейного списка заголовков статей, то поисковик пройдет по этому оглавлению, как по обычным ссылкам, и проиндексирует всю вашу энциклопедию. Сделает он это, скорее всего, не сразу, а в несколько проходов (так как статей много), но в конце концов все статьи энциклопедии попадут в индекс.
Если же у автора сайта не хватило сил и времени сделать такое оглавление для доступа к отдельным статьям энциклопедии (а это большая работа - сделать 100 тысяч аккуратных ссылок в том или ином виде), то пользователь сможет найти статью только с помощью поиска в базе данных по ключевым словам, входящим в заголовок или тело статьи. Такие средства есть практически в любой базе данных, и вебмастера ими активно пользуются.
Но поисковик - не пользователь, он ведь не будет специально перебирать и подставлять все слова русского языка в окошко для поиска на вашем сайте! Он зайдет на страницу поиска, ссылок на статьи энциклопедии не обнаружит и отправится дальше индексировать Интернет по своему расписанию. Окошко поиска, так называемая форма поиска, не является ссылкой на другие страницы и интереса у поисковика не вызовет. Следовательно, в данном случае он проиндексирует только одну страницу - страницу поиска по энциклопедии, а сама энциклопедия останется для него невидимой.
Таким образом, при создании сайта нужно помнить, что поисковик индексирует на вашем сайте только то, на что есть гипертекстовая ссылка. Большие базы данных с единственным способом доступа к их содержимому в виде окна поиска - для поисковика невидимы. Таких баз в Интернете много, именно поэтому говорят о "глубинном Интернете", который невидим поисковикам и который больше видимого в десятки или даже сотни раз.
Как работают поисковые машины
Поисковый запрос принимается и проверяется на наличие специфических команд и ошибок (в случае ошибок, как правило, предлагается правильный или наиболее подходящий вариант). По поисковому запросу подбираются страницы из индекса и выводятся в порядке релевантности. Запрашивается список текущих рекламных объявлений, удовлетворяющих поисковому запросу, и выводится в блоке рекламы.
Поисковые машины имеют 3 основные составляющие:
Поисковый робот
Поисковый робот - это специальная программа (называемая также "пауком"), которая обходит сеть и собирает информацию о новых страницах, передавая ее впоследствии в базу данных (индекс).
Индекс
Индекс представляет собой базу данных, которая содержит копию каждой найденной страницы. Обновление базы происходит каждый раз, когда поисковый робот находит новые страницы.
Механизм ранжирования
Механизм ранжирования - это программа, которая определяет релевантность страницы (степень соответствия) поисковому запросу на основе семантического анализа документа, плотности и соответствия ключевых слов, ссылок с других Интернет-ресурсов и других параметров. От релевантности страницы зависит ее место при выводе результатов поиска.
Процесс обработки поискового запроса происходит следующим образом:
Поисковый запрос принимается и проверяется на наличие специфических команд и ошибок (в случае ошибок, как правило, предлагается правильный или наиболее подходящий вариант).
По поисковому запросу подбираются страницы из индекса и выводятся в порядке релевантности.
Запрашивается список текущих рекламных объявлений, удовлетворяющих поисковому запросу, и выводится в блоке рекламы.
Поисковики фильтруют ссылки
Непот - это нелегальная "взаимовыручка" среди оптимизаторов сайтов. Например, веб-ресурс А поставил ссылку на сайт Б по дружбе или за деньги, а тот в ответ разместил ссылку на свой сайт. В результате оба ресурса стали "более весомыми". Скажите, что это кольцевой линкообмен? Это не так. При кольцевом обмене, прежде всего, учитывается контент - сайты обмениваются ссылками, потому что считают, что они ведут на ресурсы с актуальным и интересным наполнением. При непот-обмене владельцы сайтов просто договариваются разместить друг на друга ссылки, что нужно им только для "накачивания" релевантности в поисковой системе.
Непот - это нелегальная "взаимовыручка" среди оптимизаторов сайтов. Например, веб-ресурс А поставил ссылку на сайт Б по дружбе или за деньги, а тот в ответ разместил ссылку на свой сайт. В результате оба ресурса стали "более весомыми". Скажите, что это кольцевой линкообмен? Это не так. При кольцевом обмене, прежде всего, учитывается контент - сайты обмениваются ссылками, потому что считают, что они ведут на ресурсы с актуальным и интересным наполнением. При непот-обмене владельцы сайтов просто договариваются разместить друг на друга ссылки, что нужно им только для "накачивания" релевантности в поисковой системе.
Не мудрено, что непот воспринимается поисковыми машинами, как одна из разновидностей спама. Для борьбы с этим явлением Яндекс начал применять непот-фильтры.
Непот-фильтр. С чем его едят
Фильтрами оптимизаторы называют любые алгоритмы, противодействующие спаму и накруткам факторов ранжирования. Непот-фильтр - это санкция, налагаемая на веб-ресурсы, которые ссылаются на другие ресурсы с целью помочь их продвижению в поисковой системе.
Подавляя "накрутку", поисковые системы улучшают качество поиска. Борьба с непот-спамом полезна и для владельцев сайтов. Фильтры заставляют их улучшать контент, устраняют соблазн заняться спам-деятельностью, которая бесполезна для посетителей сайта и замусоривает Рунет.
Точного списка признаков отнесения сайтов к непоту нет. Вопрос о применении фильтра к тому или иному сайту в каждом случае решает модератор поисковой системы. Но главными критериями, по которым поисковые машины устанавливают непот-ссылку, являются:
1) нетематичность,
2) массовость,
3) дублированность,
4) размещение блоками.
Как вы можете узнать, что был наложен непот-фильтр?
Фильтр накладывается поисковой системой автоматически. Это значительно понижает влияние ссылок, к которым была применена санкция. Снятие непот-фильтра происходит также автоматически при удалении причины, по которой фильтр был применен к сайту.
Итак
Принципы работы непот-фильтр изучены оптимизаторами ещё недостаточно хорошо. Мнения у большинства специалистов в той или иной степени различаются. Например, до сих пор не известен полный список критериев, в соответсвии с которыми накладывается непот; как поисковая машина может распознать честную ссылку от той, которая поставлена для накрутки веса сайта? Ясно только одно - этот вопрос многих волнует и не остаётся без внимания.
Надеюсь что кому то эта статья поможет