Как работают поисковые агенты — КиберПедия 

Общие условия выбора системы дренажа: Система дренажа выбирается в зависимости от характера защищаемого...

История развития пистолетов-пулеметов: Предпосылкой для возникновения пистолетов-пулеметов послужила давняя тенденция тяготения винтовок...

Как работают поисковые агенты

2022-10-05 107
Как работают поисковые агенты 0.00 из 5.00 0 оценок
Заказать работу

Поисковый агент – это программа, периодически сканирующая всю Сеть и проверяющая, есть ли по тому или иному адресу Web-страница. Если страница есть, агент проверяет ее HTML-код, извлекает из него интернет-адреса, ведущие на другие Web-страницы. Также он извлекает ее название и пытается извлечь описание и набор ключевых слов, если они есть, после чего заносит все это в базу данных поисковика (или, как говорят опытные интернетчики, выполняет индексирование). Далее он обращается к Web-страницам, находящимся по найденным на текущей странице адресам, и проделывает с ними то же самое.

Поисковые агенты, как правило, пишутся на заказ очень опытными и знающими программистами. Хороший поисковый агент – настоящее произведение программистского искусства. Он должен отсекать несуществующие адреса, правильно опознавать HTML-теги, "интеллектуально" создавать описания и при этом быстро работать. Сами понимаете: Сеть велика, а времени всегда не хватает…

Вообще, проанализировать HTML-код – задача не очень сложная. В самом деле, название страницы помещается внутри тега <TITLE> в секции заголовка <HEAD>, а интернет-адреса других страниц с большой долей вероятности следует искать в тегах<А> и <AREA>. Написать программу, извлекающую такую информацию, для опытного программиста – пара пустяков.

Сложность здесь совсем в другом.

Давайте вспомним, какие данные помещаются в базу данных поисковой машины, и классического поисковика, и каталога. Кроме адреса и названия страницы, это еще и краткое описание и набор ключевых слов. А откуда их взять?

Проанализировать текст, помещенный на Web-странице? А как? Как обычная программа, даже очень сложная и подающая признаки легкого "интеллекта", узнает, какое из многих сотен, а то и тысяч слов текста страницы можно использовать как ключевое? Как она "ужмет" многокилобайтовый текст в краткое описание из 200 символов (такое ограничение на размер текста описания накладывают многие каталоги)? Как при этом выбрать нужную информацию и выжать всю "воду"?

Нет, это задача непроста даже для человека-модератора. Что уж требовать от программы…

Да, но как-то нужно выбирать из текста страниц необходимую информацию!

Как раз для этого и предназначены метатеги HTML. Именно с их помощью можно представить в HTML-коде информацию, которая не будет предназначена человеку, а исключительно программам. Человек ее даже не увидит (если, конечно, не станет специально для этого просматривать HTML-код).

Конечно, поисковые агенты пользуются для добычи информации не только метатегами. Они также проверяют текст страницы, причем, в зависимости от тега, в котором находится этот текст, они придают ему разное значение. Также они сравнивают, какие данные находятся в метатегах и основном тексте страницы, и на основании результатов этого сравнения делают определенные выводы. Уже говорилось, что хороший поисковый агент – это настоящее произведение программистского искусства, несущее в себе частицу его создателя.

А теперь все же обратимся к метатегам.

Метатеги

Метатег – это особый тег HTML, предназначенный для помещения в код Web-страницы информации о ней самой. Эта информация используется, в основном, программами – поисковыми агентами, Web-обозревателями и. возможно, Web-редакторами – и никак не отображается в окне Web-обозревателя.

С помощью метатегов в код Web-страницы можно поместить следующую информацию:

· краткое описание страницы;

· набор ключевых слов;

· интернет-адрес страницы, на которую будет выполнен переход по истечении некоего промежутка времени (задержка перед перенаправлением на другую Web-страницу);

· базовый адрес, от которого будут отсчитываться все относительные адреса (об абсолютных и относительных интернет-адресах см. главу 6);

· "родственную связь" между двумя страницами и тип этой "связи";

· текстовую кодировку страницы;

· некоторые другие данные, создаваемые и используемые, в основном, специальными программами, например популярнейшим Web-редактором Microsoft FrontPage.

Как видите, метатеги позволяют сделать весьма много.

Все метатеги помещаются в секции HTML-заголовка (тег <HEAD>) Web-страницы. Большинство из них создается с помощью одинарного тега <МЕТА> и трех его атрибутов. Тип метатега задается атрибутом NAME или НТТР-EQUIV, а сами данные – атрибутом CONTENT. Ниже приведен пример метатега, задающего текстовую кодировку.

<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=windows-1251">

Этот фрагмент взят из HTML-кода страницы default.htm нашего первого сайта Sample site 1.

А следующий метатег задает набор ключевых слов, которые могут быть использованы поисковым агентом:

<META NAME="keywords" CONTENT="музыка,аудио,MP3">

И не только могут быть, но и используются! Поисковые агенты всегда проверяют содержимое метатегов страниц, чтобы найти нужную для занесения в базу данных информацию. И, "подсовывая" им определенное содержимое, можно делать свой сайт более популярным.

Вот это и есть пассивная интернет-реклама.

Начинающие Web-дизайнеры часто пренебрегают метатегами, недооценивают их важность. И зря. Метатеги – мощный инструмент в руках знающего специалиста; пользуясь ими, он может сделать на какое-то время популярным даже совершенно провальный интернет-проект. И наоборот, неудачные метатеги могут "убить" даже очень перспективный сайт. Конечно, это крайние случаи, но…

Давайте же поговорим о пассивной интернет-рекламе и о более активном ее использовании.

Пассивная интернет-реклама

Специалисты по интернет-рекламе уже давно знают, что одни ключевые слова пользуются на поисковых машинах большей, а другие – меньшей популярностью. В самом деле, если вы зайдете на сайт поисковой машины, зачастую на первой же странице будет присутствовать список самых популярных слов, набираемых в поле ввода запроса. На русскоязычных поисковых машинах это, прежде всего, "работа", "музыка", "аудио", "МР3", вездесущие "секс" и "порно" и т. д. и т. п.

Почему так происходит? Вроде бы слов в языке много, а список популярнейших ключевых слов практически не меняется со временем и почти одинаков для любого языка. А все это из-за того, что люди ищут в Сети примерно одно и то же, называя искомое одними и теми же словами. И это правильно: больше шансов найти "музыку", а не "гармоничное сочетание звуков, производимое с использованием особых инструментов". А уж поисками лучшей работы занимаются фактически все, за исключением тех, кто на ней уже работает.

Но шутки в сторону. Выходит, что набор популярнейших ключевых слов совсем невелик. И, поместив все популярнейшие ключевые слова в метатег:

<META NAME="keywords" CONTENT="музыка,аудио,MP3,работа,секс,анекдот">

…можно поднять популярность своей Web-странички, даже если на ней нет и намека на музыку в формате МР3 (или, как правильно, MPEG 1, уровень 3) или анекдоты про секс вместо работы. Так это или не так?

Так-то оно так. Да не совсем.

Безусловно, создав удачный набор ключевых слов в метатеге, можно повысить популярность своей страницы или сайта. Но только при том условии, что содержимое этой страницы будет соответствовать ключевым словам.

Когда-то, во времена "глупых" поисковых агентов такие фокусы проходили. Но не сейчас. Поисковые агенты стали не в пример "умнее". Помните, что они, вдобавок к метатегам, проверяют еще и само содержимое страниц, причем учитывают еще и тег, с помощью которого отформатирован тот или иной текст. "Обмануть" такого поискового агента почти так же сложно, как победить агента 007.

Прежде всего, ключевые слова, которые вы перечислили в метатеге, должны также присутствовать в описании страницы. А описание страницы создается с помощью другого метатега:

<META NAME="description" CONTENT="Крутая страничка о музыке и аудио в формате MP3,

работе, сексе с анекдотами обо всем этом">

Далее, все перечисленные вами ключевые слова должны присутствовать в названии страницы, задаваемом с помощью тега <TITLE>.

<TITLE>Крутая страничка о музыке и аудио в формате MP3, работе, сексе с анекдотами обо всем этом</TITLE>

Хорошо, если все эти ключевые слова будут встречаться также и в заголовках, созданных с помощью тегов <H1>,…, <H6>. Причем, чем больше уровень заголовка, тем большим весом будут обладать ключевые слова. Например, заголовок первого уровня:

<H1>Музыка и прочее</H1>

…имеет больший вес в глазах поискового агента, чем заголовок шестого уровня:

<H6>Семья, работа и прочая досадная ерунда</H6>

И наконец, нужно, чтобы ключевые слова присутствовали и в обычном тексте:

<P>К вопросу о музыке в формате MP3. Анекдоты об этом до сих пор тревожат международную общественность. Наша работа состоит в том, чтобы свести их к минимуму.</P>

Теперь нужно дать ответ еще на один важный вопрос. Нужно ли помещать метатеги с описаниями и ключевыми словами на всех страницах сайта или достаточно будет только его главной страницы? Вообще, лучше, если каждая страница сайта будет иметь полный набор метатегов; в этом случае поисковый агент сможет занести в базу данных все страницы сайта. И, когда посетитель производит поиск по какому-либо ключевому слову, поисковая машина может выдать ссылку прямо на нужную страницу. Но иногда набором метатегов снабжают только главную страницу сайта, что вполне оправдано для сайтов "для своих", не стремящихся к особой популярности.

В свете вышесказанного, в крайне невыгодном положении оказываются страницы, вообще не содержащие никакого текста. Прежде всего, это наборы фреймов, в которых находится только набор тегов, описывающих различные фреймы и их содержимое. Поэтому в страницах наборов фреймов приходится создавать фиктивное содержимое с помощью парного тега <NOFRAMES>, где и перечислять необходимые ключевые слова. Или, что даже лучше, помещать набор ключевых слов в комментарий.

Как видите, чтобы сделать свою страничку популярной, используя методы пассивной интернет-рекламы, нужно хорошо постараться. Придется не только расставить везде соответствующие метатеги, но и серьезно поработать над содержимым страниц, чтобы ненавязчиво разместить в нем ключевые слова. Иногда для этого даже приходится переделывать весь сайт.

И все же положительный результат не гарантирован. Как сказал кто-то, половина средств, потраченных на рекламу, выброшены на ветер. Знать бы только, какая половина…

К тому же, различные поисковые агенты трактуют информацию, помещенную на Web-страницу, по-разному. Одни тщательно проверяют и метатеги, и содержимое, выискивая соответствия между заявленным и действительным. Другие ограничиваются метатегами, да и то не всеми. Существует даже особая профессия – специалист по поисковым системам. Такие специалисты специально переделывают страницы так, чтобы их "заметил" тот или иной поисковый агент. Таких специалистов во всем мире очень немного (как и профессиональных "искальщиков" информации в Интернете), и ценятся они очень дорого.

Теперь самое время сказать о "черной рекламе", недобросовестных способах "раскрутки" сайтов. Заключаются они в том, что в коде страницы создается набор ключевых слов, совершенно не соответствующих ее содержанию. Кроме того, с помощью специальных приемов на странице также создается особое "скрытое", не видимое посетителям содержимое, призванное "обмануть" поискового агента.

Как можно создать такое содержимое? Например, с помощью тега комментария:

<!-- <TITLE>Крутая страничка о музыке и аудио в формате МР3, работе с анекдотами обо всем этом</TITLE> -->

<TITLE>Руководство по разведению суматранских тараканов</TITLE>

Как видите, с помощью тега комментария здесь создается второе, невидимое название. Также можно поместить на страницу дополнительный невидимый текст, "согласующийся" с ключевыми словами:

<!-- <H1>Музыка и прочее</H1> -->

<H1>Ваши тараканы</H1>

<!-- <P>К вопросу о музыке в формате МР3. Анекдоты об этом до сих пор тревожат международную общественность. Наша работа состоит в том, чтобы свести их к минимуму.</P> -->

<P>Чтобы ваши тараканы были здоровыми, они должны хорошо питаться. Лучшее питание для породистых тараканов - хлебные крошки Pedigree Pal.</P>

Конечно, это чистейшей воды жульничество. И, как и любое жульничество, оно рассчитано на получение сиюминутного эффекта. Если вы серьезно работаете над своим интернет-представительством, никогда так не делайте.


Поделиться с друзьями:

Общие условия выбора системы дренажа: Система дренажа выбирается в зависимости от характера защищаемого...

Археология об основании Рима: Новые раскопки проясняют и такой острый дискуссионный вопрос, как дата самого возникновения Рима...

История создания датчика движения: Первый прибор для обнаружения движения был изобретен немецким физиком Генрихом Герцем...

История развития хранилищ для нефти: Первые склады нефти появились в XVII веке. Они представляли собой землянные ямы-амбара глубиной 4…5 м...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.033 с.