Задача аннотирования текстов — КиберПедия 

Историки об Елизавете Петровне: Елизавета попала между двумя встречными культурными течениями, воспитывалась среди новых европейских веяний и преданий...

Археология об основании Рима: Новые раскопки проясняют и такой острый дискуссионный вопрос, как дата самого возникновения Рима...

Задача аннотирования текстов

2021-04-18 169
Задача аннотирования текстов 0.00 из 5.00 0 оценок
Заказать работу

Задача аннотирования документов является актуальной для любых хранилищ информации: от библиотек до интернет-порталов. Аннотирование требуется также и конкретному человеку, например, для быстрого ознакомления с ин­тересующей его публикацией или с подборкой статей по одной тематике.

В настоящее время наиболее распространено ручное аннотирование, к досто­инствам которого можно отнести, безусловно, высокое качество составления аннотации — ее "осмысленность". Типичные недостатки ручной системы ан­нотирования — высокие материальные затраты и присущая ей низкая ско­рость.

Хорошее аннотирование предполагает содержание в аннотации предложений, представляющих максимальное количество тем, представленных в докумен­те, при минимальной избыточности.

Процесс аннотирования распадается на три этапа:

· Анализ исходного текста.

· Определение его характерных фрагментов.

· Формирование соответствующего вывода.

Выделяют два основных подхода к автоматическому аннотированию тексто­вых документов:

Извлечение — предполагает выделение наиболее важных фрагментов (ча­ще всего это предложения) из исходного текста и соединение их в анно­тацию.

Обобщение — предполагает использование предварительно разработан­ных грамматик естественных языков, тезаурусы, онтологические справоч­ники и др., на основании которых выполняется переформулирование ис­ходного текста и его обобщение.

В подходе, основанном на извлечении фрагментов методом сопоставления шаблонов, выделяют наиболее лексически и статистически значимые части. В результате аннотация в данном случае создается простым соединением вы­бранных фрагментов.

В большинстве методов, основанных на данном подходе, используются весо­вые коэффициенты, вычисляемые для каждого фрагмента. Вычисления вы­полняются в соответствии с такими характеристиками, как расположение фрагмента в тексте, частота появления, частота использования в ключевых предложениях, а также показатели статистической значимости.

Общий вид формулы вычисления веса фрагмента текста U выглядит следующим обра­зом:

Weight(U) = Location(U) + KeyPhrase(U) + StatTerm(U) + AddTerm(U).

Весовой коэффициент расположения (Location) в данной модели зависит от того, где во всем тексте или в отдельно взятом параграфе появляется данный фрагмент — в начале, в середине или в конце, а также используется ли он в ключевых разделах, например, во вводной части или в заключении.

Ключевые фразы представляют собой лексические резюмирующие конструк­ции, такие как "в заключение", "в данной статье", "согласно результатам ана­лиза" и т. д. Весовой коэффициент ключевой фразы (KeyPhrase) может зави­сеть также и от принятого в данной предметной области оценочного термина, например, "отличный" (наивысший коэффициент) или "малозначащий" (зна­чительно меньший коэффициент).

Кроме того, при назначении весовых коэффициентов в этой модели учитыва­ется показатель статистической важности (StatTerm). Статистическая важ­ность вычисляется на основании данных, полученных в результате анализа автоматической индексации, при которой вычисляются весовые коэффициен­ты лексем.

И наконец, эта модель предполагает просмотр терминов в фрагменте текста и определение его весового коэффициента в соответствии с дополнительным наличием терминов (AddTerm) — появляются ли они также в заголовке, в колонтитуле, в первом параграфе и в пользовательском запросе. Выделение приоритетных терминов, наиболее точно отражающих интересы пользовате­ля, — это один из путей настроить аннотацию на конкретного человека или группу.

В подходе обобщения для подготовки аннотации требуются мощные вычис­лительные ресурсы для систем обработки естественных языков (NLP — Natural Language Processing), в том числе грамматики и словари для синтак­сического разбора и генерации естественно-языковых конструкций. Кроме того, для реализации этого метода нужны некие онтологические справочни­ки, отражающие соображения здравого смысла, и понятия, ориентированные на предметную область, для принятия решений во время анализа и определе­ния наиболее важной информации. Данный подход предполагает использова­ние двух основных типов методов.

Первый тип опирается на традиционный лингвистический метод синтаксиче­ского разбора предложений. В этом методе применяется также семантическая информация для аннотирования деревьев разбора. Процедуры сравнения ма­нипулируют непосредственно деревьями с целью удаления и перегруппиров­ки частей, например, путем сокращения ветвей на основании некоторых структурных критериев, таких как скобки или встроенные условные или под­чиненные предложения. После такой процедуры дерево разбора существенно упрощается, становясь, по существу, структурной "выжимкой" исходного текста.

Второй тип методов аннотирования опирается на понимание естественного языка. Синтаксический разбор также входит составной частью в такие мето­ды анализа, но деревья разбора в этом случае не порождаются. Напротив, формируются концептуальные структуры, отражающие всю исходную ин­формацию, которая аккумулируется в текстовой базе знаний. В качестве структур могут быть использованы формулы логики предикатов или такие представления, как семантическая сеть или набор фреймов. Примером может служить шаблон банковских транзакций (заранее определенное событие), в котором перечисляются организации и лица, принимающие в нем участие, дата, объем перечисляемых средств, тип транзакции и т. д.

Подход, основанный на извлечении фрагментов, легко настраивается для об­работки больших объемов информации. Из-за того что работа таких методов основана на выборке отдельных фрагментов, предложений или фраз, текст аннотации, как правило, лишен связности. С другой стороны, такой подход выдает более сложные аннотации, которые нередко содержат информацию, дополняющую исходный текст. Так как он опирается на формальное пред­ставление информации в документе, то его можно настроить на достаточно высокую степень сжатия, например, для рассылки сообщений на мобильные устройства.

Подход, основанный на обобщении и предполагающий опору на знания, как правило, требует полноценных источников знаний. Это является серьезным препятствием для его широкого распространения. Поэтому разработчики средств автоматического аннотирования все больше склоняются к гибридным системам, а исследователям все более успешно удается объединять статисти­ческие методы и методы, основанные на знаниях.

 

Web mining

Web Mining – еще одна технология извлечения знаний, которая представляет собой использование методов и алгоритмов Data Mining для поиска и нахождения знаний и зависимостей в материалах сети Интернет.

Эта технология развивается на пересечении извлечения знаний из баз данных, эффективного поиска информации, искусственного интеллекта, машинного обучения и обработки естественных языков.

В Интернете содержится неизмеримое множество знаний и информации. Такое обилие часто создает сложности при поиске необходимой информации. Подобного рода проблемы могут иметь различный характер, например:

1.Пользователь не всегда в состоянии сразу найти необходимые ему источники электронной информации, так как не все ссылки ведут туда, куда указано, а не проиндексированную поисковыми системами информацию таким способом и вовсе невозможно найти.

2.Найдя множество информации, пользователь часто испытывает сложности с тем, чтобы извлечь из нее полезные знания и понять их.

3.Когда речь идет об изучении информации о потребителях, возникает необходимость предоставлять им те сведения, которые им интересны – например, давать пользователю подсказки при выборе нужного товара.

Всё это приводит к необходимости каких-то специальных технологий для извлечения полезных знаний из сети Интернет. Технология Web Mining может успешно служить этим целям.

Рассмотрим основные этапы использования Web Mining:

1.Вводный этап (input) – получение сырых данных из источников, которые используются для анализа. Это могут быть логи серверов, электронные документы и так далее.

2.Предварительная обработка (preprocessing) – предоставление данных в той форме, которая нужна для построения той или иной модели.

3.Этап моделирования (pattern discovery).

4.Анализ полученной модели (pattern analysis) – интерпретация полученных результатов.

Таковы общие стадии, которые всегда необходимо пройти для Web Mining анализа, но конкретные процедуры, которые будут совершаться на каждой стадии, будут зависеть от поставленной задачи.

По типу решаемых задач выделяются различные разновидности технологии Web Mining:

анализ использования веб-ресурсов,

извлечение веб- структур,

извлечение веб-контента.

Анализ использования веб-ресурсов – это извлечение данных из логов веб- серверов для понимания предпочтений пользователей тех или иных ресурсов сети Интернет. При таком анализе важно тщательно подбирать и предварительно обрабатывать данные. Узнав, как и когда пользователь открывает те или иные электронные страницы, можно понять его предпочтения и проанализировать общие тенденции использования того или иного сайта, чтобы затем при необходимости его оптимизировать.

Извлечение веб структур – анализирует взаимосвязи между веб- страницами, рассматривая связи между ними. Полученные таким образом модели можно использовать, чтобы разбивать веб-ресурсы по категориям, находить между ними сходства и различия. Такая работа может быть предварительным этапом для извлечения веб-контента.

Извлечение веб-контента – анализ содержание электронных документов, путем нахождения схожих по смыслу слов и их количеств, чтобы провести классификацию либо кластеризацию и сгруппировать документы по смысловой близости. Такая работа может проводиться для оптимизации поиска проиндексированных документов.

Глобально, цели использования технологии Web Mining сводятся к поиску необходимой информации и знаний, невзирая на несовершенства поисковых систем; анализ структур сегментов сети, то есть структуры ссылок между разными страницами и сайтами в конкретном сетевом сегменты (например, используется для анализа цитирования различных авторов); выявлению знаний из веб-ресурсов – поиск ключевых слов, общих тем и так далее; персонализации информации – создание веб-систем, которые адаптируются под предпочтения пользователя, например, предложение схожих с уже купленными товаров; обнаружение шаблонов в поведении пользователей, чтобы спрогнозировать следующие его действия и использовать полученные знания для дальнейшей оптимизации сайта.

Итак, технология Web Mining может решать в управлении знаниями и бизнес-аналитике такие конкретные задачи:

1.Описание пользователей сайта. 2

.Описание покупателей в Интернет-магазинов.

3.Описание типичных сессий посещений сайта и навигационных траекторий пользователей.

4.Описание групп и сегментов посетителей.

5.Поиск зависимостей при использовании сайта и его услуг.

 

Рассмотрим удачный практический пример использования технологии Web Mining. Компания Google использовала этот подход, чтобы понять, ожидают ли пользователи всемирной сети наступления экономического кризиса. В сотрудничества с профессором экономики Университета Калифорнии в Беркли Х. Варианом специалисты компании создали инструмент Google Correlate, предназначенный для отслеживания статистики запросов в поисковой системе, чтобы наложить полученные результаты на реальные экономические данные. Выяснилось, что динамика определенных запросов почти полностью совпадает с динамикой экономических величин – то есть, ее можно использовать для прогнозирования.

Иллюстрацией этой закономерности послужил поисковый запрос «Пособие по безработице» - выяснилось, что его динамика в Google совпадает с динамикой числа заявлений, подаваемых в службы занятости США. Инструмент позволяет пользователям загружать собственные данные, а затем ищет поисковые запросы со схожей динамикой. Издание Forbes решило воспользоваться им, чтобы построить прогноз экономической активности в России. Был взят экономический показатель «промышленное производство». Оказалось, что его динамика связана с поисковыми запросами пользователей о кредитах. Статистика запросов о кредитовании равно или слегка опережает реальную статистику производства.

 


Поделиться с друзьями:

Семя – орган полового размножения и расселения растений: наружи у семян имеется плотный покров – кожура...

Таксономические единицы (категории) растений: Каждая система классификации состоит из определённых соподчиненных друг другу...

Поперечные профили набережных и береговой полосы: На городских территориях берегоукрепление проектируют с учетом технических и экономических требований, но особое значение придают эстетическим...

Историки об Елизавете Петровне: Елизавета попала между двумя встречными культурными течениями, воспитывалась среди новых европейских веяний и преданий...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.026 с.