Различные модели ошибок опечаточников — КиберПедия 

Двойное оплодотворение у цветковых растений: Оплодотворение - это процесс слияния мужской и женской половых клеток с образованием зиготы...

Биохимия спиртового брожения: Основу технологии получения пива составляет спиртовое брожение, - при котором сахар превращается...

Различные модели ошибок опечаточников

2020-04-01 226
Различные модели ошибок опечаточников 0.00 из 5.00 0 оценок
Заказать работу

 

Одно из первых упоминаний о проблематике исправления орфографических ошибок можно найти в работе Дамеро [1]. В ней коррекция ошибок предполагает поиск проверяемого слова в эталонном словаре и в случае, если слово отсутствует в словаре, то предлагаются близкие варианты.

В случае поиска по Web для коррекции ошибок в запросах вариант ручной проверки малоэффективен, поэтому используется статистическая языковая модель на основе запросов пользователей. Данный подход прост, но недостаточно эффективен. Отмечается, что если данные содержат опечатки, то опечаточник не будет их исправлять. Эрик Брилл и Роберт Мур предлагают решить эту проблему с помощью более сложной модели ошибок.

Варианты с использованием модели ошибок описаны в работах Цобеля и Дарта[2][3]. В них описывается, что модель ошибок учитывает несколько параметров: статистические данные о реальных опечатках, фонетическую близость слов, а так же близость на клавиатуре. Они также проводили сравнение алгоритмов анализа строк по произношению, и отметили, что этот вариант, плохо подходит для общей задачи коррекции опечаток.

Помимо модели ошибок хорошим средством повышения качества работы опечаточника является использование контекста. Суть метода заключается в анализе слов используемых по-соседству с проверяемым. Но для построения контекстной расширенной модели требуются значительные объемы данных.

Несмотря на наличие расширенной модели языка и достаточно полной и точной модели ошибок, остаются слова с опечаткой, которые не могут исправиться, так как их рейтинг в модели языка слишком велик и модель ошибок не может это компенсировать. А так же слова с более чем одной ошибкой, которые часто исправляются на слова с одной опечаткой. С точки зрения быстродействия сложно и малоэффективно создавать модель ошибок, которая бы покрывала эти проблемные места.

Большинство русских программ проверки орфографии исправляют только однобуквенные опечатки, потому что многобуквенные составляют не более нескольких процентов от их общего количества: как правило, встречаются лишь опечатки типа "баблики с муком". Нежелание разработчиков закладывать в свои программы поиск многобуквенных опечаток объясняется гибкостью русского языка по сравнению с английским, из-за чего список подсказок на русское слово с двумя опечатками получается недопустимо велико.

Исходя из всего этого, можно сделать вывод, что создать универсальную модель ошибок, являющуюся наилучшей в любой ситуации, создать не удается. Во всех вариантах имеются свои плюсы и минусы.

 

Используемая схема работы

 

При проведении данной работы использовалась следующая схема работы опечаточника:

 

Используемые данные

Входные данные

Представляют собой тестовую выборку, представленную в текстовом файле.

Входной файл (он же тестовая выборка).

Формат:_1 [\t correct_11, correct_12]_2 [\t correct_21, correct_22]

Здесь: word - слово с ошибкой или опечаткой. Далее по желанию через табуляцию указываются варианты исправления (варианты исправления между собой разделяются ","), тогда в автоматической выдаче пометятся те слова, которые совпали с вариантами исправления, указанными вручную.

Пример записи во входном файле:

Безплатно бесплатно

Параметры опечаточника

Текстовый файл, содержащий параметры, влияющие на качество работы опечаточника.

Параметры

Описание параметров с их значениями по умолчанию:

lev=0.165

максимальное (пороговое) значение расстояния Левенштейна, при котором одно слово считается исправлением другого.

len_1=4_2=7_1=0.2_2=0.3_3=0.4

Коэффициенты фильтрации. Пусть L - длина исправляемого слова, K - коэффициент, участвующий в фильтрации, тогда при

L < len_1 K = coeff_1;_1 < L < len_2K = coeff_2;> len_2K = coeff_3.

limit=5

Максимальное количество подсказок в выходном файле для одного исправляемого слова. Неявно влияет на порядок выдачи, то есть и на то, какая подсказка будет стоять на первом месте. Предположим, что limit == 5, это значит, что из списка наилучших подсказок мы возьмем только первые 5 штук, которые затем подвергаются заключительной сортировке. Если вариант, указанный человеком как правильный, будет стоять в этом списке на 6 месте, то мы правильный вариант теряем. Если бы мы указали limit = 6, то в выдаче появился бы правильный вариант.

log _ arg =2.0

Коэффициент, участвующий в вычислении порогового значения количества исправлений для слова. Пороговое значение количества исправлений вычисляется как логарифм по основанию log_arg от длины входного слова.

filter=all

Фильтрация выдачи подсказок. Принимает следующие значения:- оставляем все варианты;- фильтрация по правилу треугольника;_dist - откидываются далекие от первой подсказки варианты;- включаются обе сортировки сразу.

sort=count_freq

Финальная сортировка. Принимет следующие значения:_freq - сортировка по количеству исправлений в слове, в рамках одинакового количества - по частоте;- сортировка по типу опечасток в слове;_freq - сортировка по по расстоянию Левенштейна, в рамках одинакового расстояния - по частоте.

Словарная база

База слов, которую использует опечаточник.

Выходные данные

Все выходные данные записываются в два выходных файла.

)   Выходной файл с подробным описанием результатов для всех слов

Формат выходного файла:

word_1 \t time_1 \t etalon

lev_dist_11 \t correct_11 \t [N_11,M_11]_dist_12 \t correct_12 \t [N_12,M_12]

Здесь:_1 - обрабатываемое слово с ошибкой или опечаткой,_1 - время, потраченное на получение исправлений слова word_1,- вариант исправления, выбранный человеком,_dist_11 - расстояние Левенштейна между word_1 и correct_11,_11 - вариант исправления word_1,

[N_11,M_11] - проставляется, если вариант исправления совпадает с вариантом, указанным вручную (эталоном). N_11 - номер варианта в списке, указанным человеком, M_11 - номер варианта в автоматическом списке.

Выходной файл с общим описанием результатов для эксперимента:- параметры опечаточника

Time - время работы опечаточника- количество слов в эксперименте: all -- right -- [1,1] -- [1,2] -- [1,3]

Где

all - общее количество слов предложенных опечаточником

right - количество слов совпавших с выбором пользователей

[1,1] - количество слов, поставленных опечаточником и пользователем на первое место

[1,2] - количество слов, поставленных пользователем на первое место, а опечаточником на второе

[1,3] - количество слов, поставленных пользователем на первое место, а опечаточником на третье

 

Принцип работы данной схемы

 

На вход подается входной файл. Опечаточник последовательно проверяет каждое слово (при этом используются параметры, записанные в соответствующем файле и словарная база). Результаты записываются в соответствующие выходные файлы.

Постановка задачи

 

Главная цель работы: нахождение таких параметров опечаточника, при которых достигается наилучшая эффективность его работы.

Основными показателями эффективности работы опечаточника являются:

)   Полнота

Данная характеристика определяется в первую очередь количеством слов в выборке, которые как пользователем, так и опечаточником были поставлены на первое место при исправлении опечаток.

)   Время работы

Данная характеристика определяется временем, затраченным опечаточником на исправление опечаток.

 


Поделиться с друзьями:

Эмиссия газов от очистных сооружений канализации: В последние годы внимание мирового сообщества сосредоточено на экологических проблемах...

Особенности сооружения опор в сложных условиях: Сооружение ВЛ в районах с суровыми климатическими и тяжелыми геологическими условиями...

Наброски и зарисовки растений, плодов, цветов: Освоить конструктивное построение структуры дерева через зарисовки отдельных деревьев, группы деревьев...

Поперечные профили набережных и береговой полосы: На городских территориях берегоукрепление проектируют с учетом технических и экономических требований, но особое значение придают эстетическим...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.014 с.