Семантические процессоры и хитроумное извлечение фактов — КиберПедия 

Двойное оплодотворение у цветковых растений: Оплодотворение - это процесс слияния мужской и женской половых клеток с образованием зиготы...

История создания датчика движения: Первый прибор для обнаружения движения был изобретен немецким физиком Генрихом Герцем...

Семантические процессоры и хитроумное извлечение фактов

2020-08-21 127
Семантические процессоры и хитроумное извлечение фактов 0.00 из 5.00 0 оценок
Заказать работу

В настоящее время методы контент-анализа применяются к обширным текстам, с активным использованием специализированных программных средств.

Контент-анализу, ориентированному на понимание скрытой (латентной) позиции автора текста, в настоящее время противостоят схемы выявления фактов.

Что же такое факт в этой схеме? Для примера: если распознать в тексте, что произошла покупка акций, то автоматически должен быть построен стандартный набор сообщений — ответов на вопросы, кто покупатель, кто продавец, кто эмитент, сколько продано, каковы последствия. Существующие программные пакеты требуют указания, кто из трех действующих лиц является конкурентом. Досье могут быть построены только по одному из трех перечисленных выше действующих лиц.

Теперь можно определить, что же при таком подходе является фактом. Это не самое простое понятие в контент -анализе. Для того чтобы нечто было признано фактом, должен быть определен объект анализа. Если объект — фирма-конкурент, то ее одновременно следует признать и субъектом, то есть активным действующим лицом. Объект должен быть задан некоторым синонимическим рядом. И «Роман Абрамович», и «владелец Челси» и даже «главный чукотский футболист» должны автоматически преобразовываться в «руководство компании Сибнефть». Объектами мониторинга могут быть как персоны, так и организации. Должна быть построена система соответствий между теми и другими, причем систему эту, равно как и набор синонимов, следует постоянно актуализировать.

Чтобы избежать потока ненужной информации, определяются атрибуты объекта мониторинга, то есть те виды деятельности, которые в наибольшей мере интересуют конкурентную разведку.

В первых проектах сорокалетней давности (вспомните упоминавшийся анализ газет по упоминанию USA) выделялся только объект, а то, что говорилось о нем, анализировалось методом выдергивания нужных сообщений из беспорядочной их кучи. Сейчас другие времена, естественный интеллект в упадке, но зато крепчает интеллект искусственный. Одно из направлений исследований по искусственному интеллекту — так называемые семантические процессоры. Я в большей степени знаком с разработками в этой области, которые велись сначала в Вычислительном центре Сибирского отделения АН СССР, а теперь продолжаются в Российском НИИ искусственного интеллекта[17].

Другое направление разработки отечественных семантических процессоров представлено разработками компании «Гарант-Парк-Интернет», работающей в области компьютерной лингвистики[18]. На базе этих разработок, в частности, создана интеллектуальная программа RCO Fact Extractor, которая находит в тексте описания фактов заданного типа. Несколько программ семантического анализа, такие как Native Minds, noHold, FlexAnswer, Banter Inc., разработаны вне лингвистических процессоров[19].

Но прежде чем описывать работу семантического процессора того или иного типа, следует точно определить то, что в данной постановке считается фактом. По полушутливому определению Эйнштейна, прямая линия есть ось вращения абсолютно твердого тела. Точно так же и в семантическом контент-анализе факт есть выявленное в тексте событие, в котором замешан наблюдаемый объект по заранее зафиксированному атрибуту, то есть виду деятельности. Конкретизацией атрибута является тип факта, то есть конкретное действие, к которому имеет отношение объект наблюдения. Иногда тип факта называют значением атрибута. Пример типа факта из тех, что упоминались выше, — приобретение акций. Такова частная конкретизация атрибута «купля-продажа собственности». Один и тот же факт, относящийся к одному и тому же объекту мониторинга, может иметь отношение не к одному, а к нескольким его атрибутам.

Основная часть семантических процессоров строится как обучаемые системы. Если им показано (обычно на десятке примеров), какие наблюдать объекты, какие атрибуты этих объектов интересны для мониторинга, то специальная программа-настройщик построит шаблоны фактов каждого из исследуемых типов. В этом шаблоне, иногда называемом лингвистическим описанием факта (ЛОФ), или семантической сетью, указана полная его структура. Скажем, если вернуться к ситуации купли-продажи акций, то там должны быть три фигуранта: покупатель, продавец и эмитент плюс характеристики проданного или купленного пакета. По этому шаблону восстанавливается позиция объекта мониторинга в шаблоне (семантической сети): кто продавец или покупатель.

Собственно мониторинг состоит в том, что найденные факты, сгруппированные по атрибутам объектов, собираются в досье. Досье постоянно обновляется и служит хорошим сырьем для быстрого написания справки или отчета. Если упростить описание работы семантических процессоров, то можно сказать, что они выполняют единственную функцию. У них заготовлены вопросы анкеты, задача их — проверить, является ли данная часть текста (речи, выступления) ответом на какой-нибудь вопрос этой анкеты. К этой основной функции добавляются вспомогательные — как составить саму анкету и какими способами проверять. Прогресс в этой сфере настолько быстрый, что обе вспомогательные функции совершенствуются практически ежедневно. Но существо дела не меняется.

Появляются и новые вспомогательные функции. В частности, явное продвижение отмечается в выявлении семантических связей между предложениями. Это позволяет совершенно по-новому трактовать любой текст, практически полностью игнорируя синтаксис в той части, когда он не касается семантики.


Поделиться с друзьями:

Адаптации растений и животных к жизни в горах: Большое значение для жизни организмов в горах имеют степень расчленения, крутизна и экспозиционные различия склонов...

Археология об основании Рима: Новые раскопки проясняют и такой острый дискуссионный вопрос, как дата самого возникновения Рима...

Типы оградительных сооружений в морском порту: По расположению оградительных сооружений в плане различают волноломы, обе оконечности...

История развития хранилищ для нефти: Первые склады нефти появились в XVII веке. Они представляли собой землянные ямы-амбара глубиной 4…5 м...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.007 с.