Автоматизированный ввод документов — КиберПедия 

Семя – орган полового размножения и расселения растений: наружи у семян имеется плотный покров – кожура...

История создания датчика движения: Первый прибор для обнаружения движения был изобретен немецким физиком Генрихом Герцем...

Автоматизированный ввод документов

2017-10-11 332
Автоматизированный ввод документов 0.00 из 5.00 0 оценок
Заказать работу

Автоматизированный ввод документов является актуальным для широкого круга пользователей (офисы компаний, учебные, государственные, военные учреждения, банки и т.д.).

Можно выделить несколько основных видов документов:

1. «Гладкие» тексты (тексты без графических иллюстраций и таблиц).

2. Документы со сложной структурой и графическими иллюстрациями (включая логотипы и подписи).

3. Таблицы.

4. Документы, напечатанные на гербовом фоне (например, паспорт, приложение к дипломному проекту - выписка, ценные бумаги и т.д.).

5. Стандартные формы (банковские, налоговые, страховые декларации).

6. Документы с нестандартным расположением полей (визитные карточки).

7. Документы с печатными рукописными символами (handprinting) - символы вписываются от руки в выделенных полях по нанесенной пунктиром сетке.

8. Рукописные документы.

Кроме того, документы могут отличаться по полиграфическому исполнению и иметь различное качество:

- высокое (книги, журналы, документы, напечатанные с использованием лазерной техники);

- среднее (документы, напечатанные с использованием струйных принтеров и плоттеров);

- низкое (архивные документы).

 

Перед обработкой документ необходимо ввести в компьютер. Это делается при помощи сканеров и OCR-технологий (Optical Character Recognition - «оптическое распознавание символов»).

Тексты, графика и таблицы

Российские OCR - системы довольно успешно справляются как с «гладкими» текстами, так со структурированными документами.

Системы имеют автофрагментаторы, разбивающие страницу на текстовые и графические блоки. Алгоритмы автоподбора яркости позволяют работать с произвольным (и даже переменным) фоном документа. Качество распознавания вполне достаточно для большинства практических задач такого рода.

OCR-системы могут распознавать и вводить таблицы. При этом таблицу в дальнейшем можно сохранить в одном из известных табличных форматов (*.dbf, *.xls, *.rtf).

Ценные бумаги

Система StockTiger, разработанная фирмой Cognitive Technologies, представляет из себя совокупность программной и аппаратной части: системы распознавания и роликового сканера, в автоподатчик которого помещается пачка ценных бумаг.

В этой системе была устранена довольно сложная система отделения полезной текстовой информации от гербового фона бумаги. Вообще снять фон можно либо установкой цветового фильтра в сканирующее устройство, либо программными методами. В силу того, что у ценных бумаг гербовый фон неоднороден (имеет различную цветовую гамму), задача решалась программными средствами.

При таком подходе удалось добиться практически абсолютной точности ввода номеров ценных бумаг.

Стандартные формы

Стандартные формы используются в сферах, связанных с массовым обслуживанием клиентов. Для удобства обработки таких форм, информация, содержащая ответ на один и тот же вопрос, на разных документах заносится в фиксированное, по отношению к границам документа, поле. Для стандартной формы характерны одинаковый размер документов и фиксированное положение линий разграфки.

В связи с массовостью использования форм существует высокая потребность в автоматизации их ввода и обработки. Однако стандартные формы относятся к тому типу документов, которые довольно сложно поддаются распознаванию. Дело в том, что клиенты при заполнении формы, как правило, не утруждают себя качественным написанием печатных символов, причем полезная текстовая информация часто попадает на линии разграфки. Кроме того, стандартные формы могут быть заполнены с помощью печатной машинки, матричного принтера или быть повторной ксерокопией.

Примером работы OCR с бланками является система оптического распознавания налоговых деклараций граждан. Она предназначается для потокового автоматизированного ввода налоговых деклараций в централизованную базу данных учета налогоплательщиков - Государственный реестр физических лиц.

Налоговая декларация представляет собой несколько бланков формата А4, отпечатанных типографским способом с фиксированным расположением разграфки. Бланк содержит множество полей - фамилия, имя, отчество, адрес, паспортные данные, суммы доходов и отчислений. Потребность автоматического ввода карт объясняется большим объемом (равным количеству налогоплательщиков, умноженным на число листов налоговой декларации) и сжатыми (два - три месяца) сроками обработки этого информационного потока.

До реализации системы вводом налоговых деклараций занимались непосредственно инспекторы. В день один сотрудник вводил не более 50 документов, при этом процент ошибок в выходных документах был значителен.

При работе системы, состоящей из компьютера Power Macintosh, снабженного устройством автоматической подачи документов, запускается процесс сканирования и распознавания документов. По его завершению оператор получает таблицу, каждая строка которой соответствует одному введенному бланку, а каждый столбец - полю бланка. Если у системы есть сомнение в точности распознанного символа, то данное поле подсвечивается. Параллельно показывается фрагмент изображения проверяемого поля. Таким образом, отпадает необходимость ручной работы с самим документом. По завершении редактирования результатов распознавания система экспортирует введенные данные в формат централизованной базы данных. При этом система делает не более одной ошибки на бланк.

Визитные карточки

Визитные карточки не поддаются стандартизации, поскольку их поля могут иметь абсолютно произвольное расположение и ориентацию. Тем не менее системы ввода визиток существуют не только за рубежом, но и на российском рынке. Таковым является совместный продукт Cognitive Technologies и Inter Corporations - Business Card Wizard.

Эта программа позволяет вводить визитки, содержащие текст на русском и английском языках. После сканирования интеллектуальный алгоритм идентифицирует поля (определяет, в каком поле находится название организации, в каком фамилия, в каком адрес и т.д.), проводит их распознавание и отображает результаты (распознанный и готовый для редактирования текст и изображение). База данных позволяет осуществить операции сортировки, поиска, фильтрации и т.д. Business Card Wizard имеет широкий спектр дополнительных возможностей, например, позволяет автоматически дозваниваться по телефонному номеру, указанному в визитной карточке.

Системы распознавания рукописных текстов находятся в стадии разработки опытных образцов.


Поделиться с друзьями:

Своеобразие русской архитектуры: Основной материал – дерево – быстрота постройки, но недолговечность и необходимость деления...

История развития хранилищ для нефти: Первые склады нефти появились в XVII веке. Они представляли собой землянные ямы-амбара глубиной 4…5 м...

Наброски и зарисовки растений, плодов, цветов: Освоить конструктивное построение структуры дерева через зарисовки отдельных деревьев, группы деревьев...

Архитектура электронного правительства: Единая архитектура – это методологический подход при создании системы управления государства, который строится...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.012 с.