Двойное оплодотворение у цветковых растений: Оплодотворение - это процесс слияния мужской и женской половых клеток с образованием зиготы...
История создания датчика движения: Первый прибор для обнаружения движения был изобретен немецким физиком Генрихом Герцем...
Топ:
Выпускная квалификационная работа: Основная часть ВКР, как правило, состоит из двух-трех глав, каждая из которых, в свою очередь...
Комплексной системы оценки состояния охраны труда на производственном объекте (КСОТ-П): Цели и задачи Комплексной системы оценки состояния охраны труда и определению факторов рисков по охране труда...
Генеалогическое древо Султанов Османской империи: Османские правители, вначале, будучи еще бейлербеями Анатолии, женились на дочерях византийских императоров...
Интересное:
Искусственное повышение поверхности территории: Варианты искусственного повышения поверхности территории необходимо выбирать на основе анализа следующих характеристик защищаемой территории...
Принципы управления денежными потоками: одним из методов контроля за состоянием денежной наличности является...
Влияние предпринимательской среды на эффективное функционирование предприятия: Предпринимательская среда – это совокупность внешних и внутренних факторов, оказывающих влияние на функционирование фирмы...
Дисциплины:
2020-08-21 | 127 |
5.00
из
|
Заказать работу |
|
|
В настоящее время методы контент-анализа применяются к обширным текстам, с активным использованием специализированных программных средств.
Контент-анализу, ориентированному на понимание скрытой (латентной) позиции автора текста, в настоящее время противостоят схемы выявления фактов.
Что же такое факт в этой схеме? Для примера: если распознать в тексте, что произошла покупка акций, то автоматически должен быть построен стандартный набор сообщений — ответов на вопросы, кто покупатель, кто продавец, кто эмитент, сколько продано, каковы последствия. Существующие программные пакеты требуют указания, кто из трех действующих лиц является конкурентом. Досье могут быть построены только по одному из трех перечисленных выше действующих лиц.
Теперь можно определить, что же при таком подходе является фактом. Это не самое простое понятие в контент -анализе. Для того чтобы нечто было признано фактом, должен быть определен объект анализа. Если объект — фирма-конкурент, то ее одновременно следует признать и субъектом, то есть активным действующим лицом. Объект должен быть задан некоторым синонимическим рядом. И «Роман Абрамович», и «владелец Челси» и даже «главный чукотский футболист» должны автоматически преобразовываться в «руководство компании Сибнефть». Объектами мониторинга могут быть как персоны, так и организации. Должна быть построена система соответствий между теми и другими, причем систему эту, равно как и набор синонимов, следует постоянно актуализировать.
Чтобы избежать потока ненужной информации, определяются атрибуты объекта мониторинга, то есть те виды деятельности, которые в наибольшей мере интересуют конкурентную разведку.
|
В первых проектах сорокалетней давности (вспомните упоминавшийся анализ газет по упоминанию USA) выделялся только объект, а то, что говорилось о нем, анализировалось методом выдергивания нужных сообщений из беспорядочной их кучи. Сейчас другие времена, естественный интеллект в упадке, но зато крепчает интеллект искусственный. Одно из направлений исследований по искусственному интеллекту — так называемые семантические процессоры. Я в большей степени знаком с разработками в этой области, которые велись сначала в Вычислительном центре Сибирского отделения АН СССР, а теперь продолжаются в Российском НИИ искусственного интеллекта[17].
Другое направление разработки отечественных семантических процессоров представлено разработками компании «Гарант-Парк-Интернет», работающей в области компьютерной лингвистики[18]. На базе этих разработок, в частности, создана интеллектуальная программа RCO Fact Extractor, которая находит в тексте описания фактов заданного типа. Несколько программ семантического анализа, такие как Native Minds, noHold, FlexAnswer, Banter Inc., разработаны вне лингвистических процессоров[19].
Но прежде чем описывать работу семантического процессора того или иного типа, следует точно определить то, что в данной постановке считается фактом. По полушутливому определению Эйнштейна, прямая линия есть ось вращения абсолютно твердого тела. Точно так же и в семантическом контент-анализе факт есть выявленное в тексте событие, в котором замешан наблюдаемый объект по заранее зафиксированному атрибуту, то есть виду деятельности. Конкретизацией атрибута является тип факта, то есть конкретное действие, к которому имеет отношение объект наблюдения. Иногда тип факта называют значением атрибута. Пример типа факта из тех, что упоминались выше, — приобретение акций. Такова частная конкретизация атрибута «купля-продажа собственности». Один и тот же факт, относящийся к одному и тому же объекту мониторинга, может иметь отношение не к одному, а к нескольким его атрибутам.
|
Основная часть семантических процессоров строится как обучаемые системы. Если им показано (обычно на десятке примеров), какие наблюдать объекты, какие атрибуты этих объектов интересны для мониторинга, то специальная программа-настройщик построит шаблоны фактов каждого из исследуемых типов. В этом шаблоне, иногда называемом лингвистическим описанием факта (ЛОФ), или семантической сетью, указана полная его структура. Скажем, если вернуться к ситуации купли-продажи акций, то там должны быть три фигуранта: покупатель, продавец и эмитент плюс характеристики проданного или купленного пакета. По этому шаблону восстанавливается позиция объекта мониторинга в шаблоне (семантической сети): кто продавец или покупатель.
Собственно мониторинг состоит в том, что найденные факты, сгруппированные по атрибутам объектов, собираются в досье. Досье постоянно обновляется и служит хорошим сырьем для быстрого написания справки или отчета. Если упростить описание работы семантических процессоров, то можно сказать, что они выполняют единственную функцию. У них заготовлены вопросы анкеты, задача их — проверить, является ли данная часть текста (речи, выступления) ответом на какой-нибудь вопрос этой анкеты. К этой основной функции добавляются вспомогательные — как составить саму анкету и какими способами проверять. Прогресс в этой сфере настолько быстрый, что обе вспомогательные функции совершенствуются практически ежедневно. Но существо дела не меняется.
Появляются и новые вспомогательные функции. В частности, явное продвижение отмечается в выявлении семантических связей между предложениями. Это позволяет совершенно по-новому трактовать любой текст, практически полностью игнорируя синтаксис в той части, когда он не касается семантики.
|
|
Адаптации растений и животных к жизни в горах: Большое значение для жизни организмов в горах имеют степень расчленения, крутизна и экспозиционные различия склонов...
Археология об основании Рима: Новые раскопки проясняют и такой острый дискуссионный вопрос, как дата самого возникновения Рима...
Типы оградительных сооружений в морском порту: По расположению оградительных сооружений в плане различают волноломы, обе оконечности...
История развития хранилищ для нефти: Первые склады нефти появились в XVII веке. Они представляли собой землянные ямы-амбара глубиной 4…5 м...
© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!