Как выбрать поисковую машину — КиберПедия 

Археология об основании Рима: Новые раскопки проясняют и такой острый дискуссионный вопрос, как дата самого возникновения Рима...

Автоматическое растормаживание колес: Тормозные устройства колес предназначены для уменьше­ния длины пробега и улучшения маневрирования ВС при...

Как выбрать поисковую машину

2017-08-24 221
Как выбрать поисковую машину 0.00 из 5.00 0 оценок
Заказать работу

При поиске в Интернет важны две составляющие - полнота (ничего не потеряно) и точность (не найдено ничего лишнего). Обычно это все называют одним словом - релевантность, то есть соответствие ответа вопросу.

1. Охват и глубина

Под охватом имеется в виду объем базы поисковой машины: который измеряется тремя показателями - общим объемом проиндексированной информации, количеством уникальных серверов и количеством уникальных документов. Под глубиной понимается - существует ли ограничение на количество страниц или на глубину вложенности директорий на одном сервере.

Как проверить:

Некоторые машины пишут на своем сайте статистику робота. Но можно проверить и самому - надо задать несколько поисковых запросов, состоящих из одного слова (чтобы исключить влияние языка запросов, в том числе - различного трактования пробела), и при этом смотреть на статистику результатов, выдаваемую машиной - обычно в начале списка указано, сколько всего было найдено документов. Помимо того, что слова должны быть из разных областей, хорошо еще взять слова разных "весов" - редкие, "средние" и "тяжелые" (частотные), и сравнить количество найденного. Тяжелые слова, в частности, тестируют полнотекстовость (индексацию всех слов документа) поисковой машины.

Глубину хождения робота проверить сложнее - для этого надо взять какие-то сайты, например, с разветвленной структурой архивов, и проверить, проиндексированы ли документы, на которые можно попасть только, например, за 6 переходов по ссылкам.

2. Скорость обхода и актуальность ссылок

Скорость обхода Сети показывает, насколько быстро происходит индексация свеже-добавленного ресурса и насколько быстро обновляется информация в базе. Важным показателем качества поисковой машины (ее робота) является не только "захват" новых территорий: но и отслеживание состояния уже охваченных. Сервера исчезают и появляются, страницы на них обновляются. Ссылки, которые выдает поисковая машина в списке найденного, должны, во-первых, существовать, и, во-вторых, их содержание должно соответствовать запросу.

Как проверить:

Объективную информацию можно получить, проанализировав логи серверов - робот поисковой машины представляется обычно именем своей машины (или похожим образом), так что можно увидеть, как часто он бывает на сервере, сколько страниц просматривает и т.д. К сожалению, обычно для изучения бывает доступен лог только своего сайта, поэтому остается экспериментальный способ.

Для определения скорости обхода надо создать где-нибудь страничку текста, добавить ее в поисковики и посмотреть, как быстро она начнет находиться. Или изменить уже имеющуюся страничку. Для определения актуальности ссылок - проверить документы хотя бы на первой странице списка найденного по нескольким запросам. Сообщение "NotFound" свидетельствует о том, что документ более не существует.

3. Качество поиска (субъективный показатель)

Каждая поисковая машина имеет свои алгоритм сортировки результатов поиска. Чем ближе к началу списка оказывается нужный вам документ, тем лучше работает релевантность.

Как проверить:

Только путем эксперимента. Рекомендуется для сравнения делать запросы разной длины. Можно также использовать язык запросов, при этом те, кому неохота читать описание, могут воспользоваться развернутой страницей запроса ("расширенный поиск" в Апорте и Яндексе, "детальный запрос" в Рамблере - варианты перевода на русский язык "advancedsearch").

Кроме релевантности, существуют важные пользовательские характеристики.

1. Скорость поиска

Если поисковая машина отвечает медленно, работать с ней неэффективно. Стоит добавить, что видимая пользователю скорость зависит не только от самой поисковой машины, но и от Интернет-каналов.

Как проверить:

Путем эксперимента - надо поискать запросы разной длины, разной <тяжести> слов и в разное время суток (загрузка серверов существенно неравномерна по суткам, пик - около трех-четырех часов дня).

2. Поисковые возможности (работа с языком документа, язык запросов)

Еще один пункт сравнения - что именно и как поисковая машина вносит в индекс. Полнотекстовая поисковая машина индексирует все слова видимого пользователю текста. Наличие морфологии дает возможность находить искомые слова во всех склонениях или спряжениях. Кроме этого, в языке HTML существуют тэги, которые также могут обрабатываться поисковой машиной (заголовки, ссылки, подписи к картинкам и т.д.).

Язык запросов в виде стандартных логических операторов (И, ИЛИ, НЕ) есть практически у всех машин. Некоторые умеют искать словосочетания или слова на заданном расстоянии - это часто важно для получения разумного результата. Дополнительной возможностью является поиск в зонах документа - заголовках, ссылках, ключевых словах (META KEYWORDS) и т.д. Дополнительная возможность языка запросов - естественно-языковый запрос, который не требует знания операторов.

Как проверить:

Обычно эта информация публикуется на сервере поисковой машины (в Help'е). Тем не менее, рекомендуется проверить на реальных запросах, поскольку иногда желаемое выдается за действительное.

3. Дополнительные удобства. Это - дополнительные возможности, которые предоставляет пользователям поисковая машина. Сюда входит всевозможные варианты поиска (специализированные страницы, поиск похожих документов, ограничение области поиска), и список найденных серверов, и поиск по датам и серверам, и удобный интерфейс поисковой машины, и возможность его персонализации.

Как проверить: Информация может быть частично опубликована на сервере поисковой машины, но лучше всего попробовать самому поработать с этими возможностями.

Понятно, что предложенная исследовательская программа займет некоторое время. Кроме этого, поисковые машины, как и весь Интернет, не стоят на месте. Но "искалка" - одно из средств работы, поэтому стоит уделить ее выбору некоторое внимание - по крайней мере, не меньшее, чем организации рабочего места.

Проверяйте орфографию

Если поиск не нашел ни одного документа, то вы, возможно, допустили орфографическую ошибку в написании слова. Проверьте правильность написания. Если вы использовали при поиске несколько слов, то посмотрите на количество каждого из слов в найденных документах (перед их списком после фразы "Результат поиска"). Какое-то из слов не встречается ни разу? Скорее всего, его вы и написали неверно.

Используйте синонимы

Если список найденных страниц слишком мал или не содержит полезных страниц, попробуйте изменить слово. Например, вместо "рефераты" возможно больше подойдет "курсовые работы" или "сочинения". Попробуйте задать для поиска три-четыре слова-синонима сразу. Для этого перечислите их через вертикальную черту (|). Тогда будут найдены страницы, где встречается хотя бы одно из них. Например, вместо "фотографии" попробуйте "фотографии | фото | фотоснимки".

Ищите больше, чем по одному слову

Слово "психология" или "продукты" дадут при поиске поодиночке большое число бессмысленных ссылок. Добавьте одно или два ключевых слова, связанных с искомой темой. Например, "психология Юнга" или "продажа и покупка продовольствия". Рекомендуем также сужать область вашего вопроса. Если вы интересуетесь автомобилями ГАЗа, то запросы "автомобиль Волга" или "автомобиль ГАЗ" выдадут более подходящие документы, чем "легковые автомобили".

Не пишите большими буквами

Начиная слово с большой буквы, вы не найдете слов, написанных с маленькой буквы, если это слово не первое в предложении. Поэтому не набирайте обычные слова с Большой Буквы, даже если с них начинается ваш вопрос Яндексу. Заглавные буквы в запросе рекомендуется использовать только в именах собственных. Например, "группа Черный кофе", "телепередача Здоровье".

Найти похожие документы

Если один из найденных документов ближе к искомой теме, чем остальные, нажмите на ссылку "найти похожие документы". Ссылка расположена под краткими описаниями найденных документов. Поисковая система проанализирует страницу и найдет документы, похожие на тот, что вы указали. Но если эта страница была стерта с сервера, а поисковая система еще не успела удалить ее из базы, то вы получите сообщение "Запрошенный документ не найден".

Используйте знаки "+" и "-"

Чтобы исключить документы, где встречается определенное слово, поставьте перед ним знак минуса. И наоборот, чтобы определенное слово обязательно присутствовало в документе, поставьте перед ним плюс. Обратите внимание, что между словом и знаком плюс-минус не должно быть пробела. Например, если вам нужно описание Парижа, а не предложения многочисленных турагентств, имеет смысл задать такой запрос "путеводитель по парижу -агентство-тур". Плюс стоит использовать в том случае, когда нужно найти так называемые стоп-слова (наиболее частотные слова русского языка, в основном это местоимения, предлоги, частицы). Чтобы найти цитату из Гамлета, надо задать запрос "+быть или +не быть".

Попробуйте использовать язык запросов

С помощью специальных знаков можно сделать запрос более точным. Например, необходимо указать, каких слов не должно быть в документе, или что два слова должны идти подряд, а не просто оба встречаться в документе.

 


Поделиться с друзьями:

Двойное оплодотворение у цветковых растений: Оплодотворение - это процесс слияния мужской и женской половых клеток с образованием зиготы...

Кормораздатчик мобильный электрифицированный: схема и процесс работы устройства...

Организация стока поверхностных вод: Наибольшее количество влаги на земном шаре испаряется с поверхности морей и океанов (88‰)...

Индивидуальные очистные сооружения: К классу индивидуальных очистных сооружений относят сооружения, пропускная способность которых...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.014 с.