Методы компьютеризации лексикографических работ — КиберПедия 

История развития пистолетов-пулеметов: Предпосылкой для возникновения пистолетов-пулеметов послужила давняя тенденция тяготения винтовок...

Состав сооружений: решетки и песколовки: Решетки – это первое устройство в схеме очистных сооружений. Они представляют...

Методы компьютеризации лексикографических работ

2017-10-16 439
Методы компьютеризации лексикографических работ 0.00 из 5.00 0 оценок
Заказать работу

МЕТОДИЧЕСКИЕ УКАЗАНИЯ

для самостоятельной работы

по дисциплине

«Компьютерный сервис переводчика и компьютерная лексикография»

(для студентов специальности «Перевод»)

 

 

УТВЕРЖДЕНО

на заседании кафедры теории и практики перевода

германских и романских языков

Протокол № 9 от 29.06.2017

 

 

Луганск 2017


 

УДК 811.112.2 ' 25(072)

 

Методические указания для самостоятельной работы по дисциплине «Компьютерный сервис переводчика и компьютерная лексикография» (для студентов специальности «Перевод») / Состав.: Д.Ю. Усков. – Луганск: изд-во ЛГУ им. В. Даля, 2017. –35 с.

 

Приведенные материалы, необходимы студентам для самостоятельной работы студентов специальности «Перевод» по дисциплине «Компьютерный сервис переводчика и компьютерная лексикография». Составлено в соответствии с программой курса «Компьютерный сервис переводчика и компьютерная лексикография».

Издание содержит необходимый для студентов минимум теоретического материала по дисциплине, а также ряд текстов для перевода на практических занятиях с применением систем автоматизированного перевода и электронных словарей. Задания способствуют расширению знаний по дисциплине, развитию навыков работы с системами автоматизированного перевода и электронными словарями.

 

 

Составитель: Д.Ю. Усков

 

 

Ответств. за выпуск А.С. Клименко

 

 

Рецензент Т.Г. Гуковская


ПРЕДИСЛОВИЕ

Преимущества компьютеризации в лексикографии очевидны: компьютер может быстро предоставить доступ к обширному словнику, цитатному материалу, быстро дать информацию о многозначном слове и т.д. Специальные компьютерные программы обработки текста позволяют хранить и обрабатывать большие массивы словарной и текстовой информации, а также могут использоваться для создания одно- и многоязычных словарей, конкордансов, контекстологических и прочих современных словарей.

Актуальность вопросов развития компьютерной лексикографии не вызывает сегодня сомнений. Растет социальная значимость словарей: ведь они не только фиксируют совокупность знаний, которыми располагает современное общество, но и служат надежным инструментом научного познания. За компьютерной лексикографией большое будущее, и результатами разработок в этой области смогут пользоваться не только ученые-лингвисты, но и школьники, студенты, а также люди самых различных профессий.

Данные методические указания предназначены для использования при изучении дисциплины «Компьютерный сервис переводчика и компьютерная лексикография», которая предусматривает ознакомление студентов специальности «Перевод и переводоведение» с современными электронными словарями и системами машинного перевода, а также разнообразными он-лайн ресурсами, которые могут быть полезными в переводческой деятельности. Кроме того, знания, приобретенные в процессе изучения данной дисциплины, и умение использования электронных словарей, тезаурусов и он-лайн ресурсов могут быть использованы на практических занятиях по профессионально-ориентированным дисциплинам, таких как «Практический курс перевода с основного иностранного языка», «Перевод научно-технической литературы», «Перевод социально-экономической литературы», «Перевод официально-деловой документации» и пр.

ТЕМА 1

АВТОМАТИЗАЦИЯ ЛЕКСИКОГРАФИИ

Задачи, стоящие перед современной лингвистикой, выдвинули на первый план использование компьютерной техники для автоматической обработки текстов. Здесь можно выделить такие направления как:

· лингвистическое обеспечение информационных систем разных типов;

· машинный перевод; разработка систем, понимающих естественный язык (лингвистические задачи в системах искусственного интеллекта);

· разработка систем использования информации, содержащейся в звуковом речевом сигнале и др.

Внедрение электронно-вычислительной техники в различные отрасли науки и сферы жизнедеятельности человека способствует появлению новых направлений прикладной лингвистики. Ю.Н. Марчук уже в 1970-е годы писал о возможностях применения компьютера для учебной лексикографии. Действительно, компьютер может выполнять такие задачи, как упорядочение по алфавиту введенных в него лексических единиц, приписывание каждой из них частоты встречаемости и многие более сложные работы, на которые лексикографам приходится затрачивать очень много времени и труда. Задача использования современных компьютерных технологий в лексикографии остается по-прежнему актуальной и требует детального изучения. Современные вычислительные средства дают возможность автоматизировать лексикографическую работу практически на всех этапах – от выбора цитат до редактирования словаря и его печати. Автоматизация рутинных процедур, широкое распространение компьютерных программ повышают производительность труда отдельного лексикографа. В результате этого в рамках лексикографии сформировалось новое направление – компьютерная лексикография, включающая в себя создание автоматических словарей, а также разработку программ поддержки лексикографических работ.

В научной литературе можно обнаружить ряд терминов для обозначения лексикографирования на машинных носителях: компьютерная лексикография, вычислительная лексикография, машинная лексикография, автоматическая лексикография и автоматизированная лексикография. Термин «компьютерная лексикография» теперь наиболее употребим.

Компьютерная лексикография сегодня представляет собой: во-первых, быстро развивающуюся отрасль компьютерной индустрии, главным образом из-за того, что «ословаривание» научного знания является одним из основных способов его проявления и распространения; во-вторых, прикладную научную дисциплину в языкознании, изучающую методы, технологию и отдельные приемы использования компьютерной техники в теории и практике составления словарей.

Компьютерная лексикография как таковая, подобно лексикографии, может быть разделена на теоретическую и практическую. Первый раздел включает теорию компьютерной лексикографии и рассматривает такие темы, как типы компьютерных словарей, их конструирование, выработку правил компьютерного лексикографирования и др. Второй раздел имеет дело непосредственно с практическим воплощением теоретических исследований, т.е. созданием компьютерных словарей и баз данных.

К основным направлениям компьютерной лексикографии можно отнести:

1) автоматическое получение из текста с помощью компьютерных средств различных словарей (частотных, терминологических, конкордансов и т.д:);

2) теоретические и практические аспекты составления компьютерных словарей для систем обработки естественного языка (Natural Language Processing);

3) создание и эксплуатация словарей, являющихся машинными версиями традиционных словарей.

Первое и второе направления занимаются разработкой программ поддержки лексикографических работ.

В лексикографической практике широко пользуются компьютерными технологиями обработки лексического материала. Такие технологии представляют собой алгоритмы осуществления операций преобразования данных, которыми пользуется лексикограф в процессе своей деятельности. Основными компонентами компьютерной обработки текста являются компьютерные средства, включая сам компьютер и программное обеспечение, позволяющие вводить и запоминать текстовые данные, изменять их в процессе работы лексикографа и выводить результаты как в виде копий на традиционном бумажном носителе, так и в «электронном» виде на магнитных, магнитооптических и оптических (лазерных) носителях информации. Благодаря усовершенствованию инструментария практической лексикографии, создатели словарей теперь имеют возможность выбирать форму носителя своего произведения: традиционный бумажный или цифровой.

В настоящее время весьма актуальным является ввод на машинные носители известных словарей и справочников и создание на их базе новых словарей. Перевод в машинную форму ранее опубликованных книжных словарей позволяет «разложить по полочкам» содержимое каждого из них. Только на этой основе и можно осуществить эффективный контроль полноты и последовательности заполнения полей в статьях словаря, а также эффективно использовать и контролировать информацию в последующей лексикографической работе над новыми версиями данного словаря (в том числе в виде получения различных аспектуальных проекций словаря, его конверсий и т.п.).

Одной из важных задач лексикографии является также создание комплексных автоматизированных лексикографических систем. Во-первых, это может быть объединение в едином программном комплексе возможностей получения различных словарей по тексту (на основе использования лексических, морфологических, морфемных, фразеологических, синтаксических и иных анализаторов) и подкачки этой информации в основной словарь, содержащийся в словарной подсистеме. Во-вторых, имеется в виду обратное "опрокидывание" выбранных характеристик некоторого внешнего словаря на лексический и иной материал текста с целью дополнительной разметки текста и анализа полученных в нем соотношений различных типов разметки в интересах более глубокого проникновения в структуру и содержание текста. Все это дает возможность получения из компьютерного словаря разноаспектной информации.

Компьютерная лексикография является дисциплиной переходного периода – перехода от существовавшей в течение многих десятилетий традиционно ручной и рукописной лексикографической практики к новым безбумажным информационным технологиям. В среде профессионалов-лингвистов уже сейчас известно множество программных разработок для построения глоссариев, словников, словоуказателей, конкордансов и других профессиональных компонент результатов лексикографической деятельности.

 


ТЕМА 2

ТЕМА 3

ЭЛЕКТРОННЫЕ СЛОВАРИ

Электронный (автоматический) словарь – это словарь в специальном машинном формате, функционирующий как часть программного обеспечения компьютера. Сегодня широко распространяются электронные версии самых различных словарей. В отличие от традиционных словарей электронный словарь наряду с текстом и графическими изображениями может содержать весь спектр медиаобъектов, включая видео- и анимационные фрагменты, звук, музыку и прочее.

Все электронные словари можно разделить на два типа:

1. автоматические словари конечного пользователя (о них и пойдет речь в данном разделе);

2. автоматические словари для программ обработки текста (это информационно-поисковые тезаурусы, частотные словари, рубрикаторы, классификаторы, словари морфологического анализа; словари для машинного перевода), которые включают подробную информацию о морфологических, синтаксических и семантических особенностях функционирования слова. Количество зон словарных статей в таких словарях варьируется от 1 до 100. Каждая зона содержит особый тип словарной информации: лемма, грамматическая информация или стилистические пометы, зоны значения и толкования. В электронных словарях количество зон больше, чем в обычных бумажных.

Важной особенностью электронного словаря является его гипертекстовое устройство. Ссылки, внедренные в слова, фразы или рисунки, позволяют пользователю выбрать текст или рисунок и немедленно вывести на экран связанные с ним сведения и мультимедийные материалы. Взаимоотношения между компонентами словарной статьи не являются линейными. Словарная статья имеет четкую логическую структуру с иерархическими связями между элементами. Каждая информационная категория занимает здесь строго фиксированное место – так называемую «зону». Пользователь, проявляя интерес к той или иной информации, запрашивает определенный параметр и получает доступ к отдельным фрагментам статьи. В соответствии с запросом активизируется лишь отдельно взятая зона, поэтому нет необходимости просматривать всю статью. Следовательно, создатели электронного словаря могут предусмотреть довольно большое количество словарных входов, позволяющее пользователю легко и быстро получать любую необходимую ему информацию, а проблемы алфавитного расположения словарных статей для массового пользователя не имеют принципиального значения.

Электронные словари имеют серьезные преимущества по сравнению со своими бумажными аналогами, что проявляется в быстром росте соответствующего рынка. Электронный словарь принципиально может обойти ключевое противоречие книжной лексикографии: чем больше информации предлагает словарь, чем больше развит его научный аппарат, тем сложнее им пользоваться. Поэтому классические словари разделяются на две категории. Первая – популярные, относительно удобные, но довольно простые. Вторая – обстоятельные академические издания, не всегда позволяющие быстро получить искомую информацию. Современные электронные словари не только значительно превосходят по объему книжные, но и находят искомое слово или словосочетание за несколько секунд.

При этом речь не идет об автоматическом выборе переводного эквивалента (если мы говорим о переводном словаре). Словарный ответ может давать весьма разнообразную информацию о слове или словосочетании, а не просто переводное соответствие, предполагает активный выбор пользователя из нескольких возможных хорошо обоснованных альтернатив. Электронный словарь может быть дву- и более направленным, то есть позволять переводить слова в обоих направлениях и даже с одного языка на другой при посредстве третьего.

Большую роль играет также фактор доступности. Далеко не в каждом крупном российском городе можно найти бумажные издания больших иностранных словарей. При этом существует значительное число бесплатных Интернет-проектов (как отечественных, так и зарубежных), представляющих разнообразные лексикографические материалы. Второй и не менее важный аспект доступности – ценовой: большинство отечественных словарей, распространяемых на CD/DVD-ROM, стоят значительно дешевле своих бумажных аналогов. Привлекательными факторами для пользователя являются также интерактивность современных электронных словарей, их актуальность, обновляемость, удобный для пользователя интерфейс.

Фактически многие словари, которые сформировались в языковой атмосфере середины прошлого века, сильно устарели. Появляются новые отрасли производства, науки, бизнеса, культуры. В обычную разговорную речь приходят новые слова, термины, устойчивые словосочетания. В них не указаны современные значения старых слов, а многие новые слова просто отсутствуют, так как бумажные словари слишком долго готовятся. Электронные словари могут оперативно обновляться.

Но, конечно, самое главное преимущество хороших электронных словарей – одновременный поиск не только по названию словарной статьи, но и по всему огромному объему толкований словника, что не представляется возможным в бумажном варианте. Такой поиск создает многомерный портрет слова, при этом из глубин словарной статьи извлекаются конкретные примеры его использования и устойчивые выражения, в которых слово встречается. Очень важно, что электронные словари используют последние достижения лексикографии. Каждое значение в электронном словаре сопровождается синонимами, антонимами, примерами употребления, лингвистической информацией. Удобно то, что, не выходя из основной статьи, можно открыть окна синонимов, антонимов и т. д. и изучать их одновременно.

Однако разработка электронных словарных баз, так же как и создание бумажных словарей, является трудоемким делом, а лицензирование готовых словарей обходится очень дорого.

На сегодняшний день в России получили широкое распространение электронные словари разных издательств: Lingvo (ABBYY Software House), Мультилекс (МедиаЛингва), Polyglossum (ЭТС – "Электронные и традиционные словари"), Контекст (Ин-форматик), PROMT (ПРОМТ) и многие другие. Эти словари в большой степени универсальны, но вместе с тем каждый из них тяготеет к определённой нише.

Два самых известных электронных словаря – Lingvo компании Abbyy и МультиЛекс, разработанный фирмой МедиаЛингва. Специалисты, создающие эти словари, исповедуют разные взгляды на принципы электронной лексикографии. Компания МедиаЛингва придерживается при разработке словарей МультиЛекс стратегии, которая заключается в создании цифровых копий известных книжных изданий. В основе электронных словарей от этой компании лежат авторитетные современные словари ведущих издательств России. Словари МультиЛекс – это усовершенствованные копии своих печатных оригиналов. В них последовательно воспроизводится содержание печатных словарей, включая предисловия авторов оригинальных изданий и сопутствующие справочные материалы. В качестве объёма словника указывается объём словника оригинала. В распоряжении пользователей имеются мощные и разнообразные средства поиска (распознавание слов и выражений во всех грамматических формах, поиск идиом, выражений, примеров употребления, алфавитный поиск с подсказкой). При работе со словарями МультиЛекс предоставляется точная и полная словарная информация (транскрипция, отраслевые и стилистические пометы, ударения, толкования, примеры).

Подход МедиаЛингва имеет и недостатки, так как жесткая привязка к бумажному прототипу не дает возможности исправлять и дополнять электронный словарь, а тем более изменять структуру построения словарной статьи. Традиционные словари довольно серьезно отстают от языковой реальности – обычно это не менее десяти лет. А электронные словари можно пополнять чуть ли не ежедневно.

По другому пути пошла компания Abbyy. Основу Lingvo составляет электронный словарь собственной разработки. Каждая новая версия Lingvo дополняется актуальной лексикой, и в ней исправляются найденные ошибки и неточности. Таким образом, благодаря лексикографическим исследованиям англо-русский словарь фирмы Abbyy близок к языковой практике. Словари "Lingvo" не являются точными копиями бумажных аналогов. Так, в качестве источников для подготовки экономического словаря "LingvoEconomics" указаны семь словарей различных авторов. Продукты линейки Abbyy Lingvo давно пользуются заслуженной популярностью у пользователей благодаря полноте и современности лексической базы, удобству в работе, быстроте поиска.

Электронные словари не только содержат транскрипцию, но и могут произносить слова. Здесь тоже существует два подхода. В МультиЛекс встроен синтезатор звука и произносятся все слова. Однако полностью доверять такому подходу, не контролируя его по транскрипции, опасно. Синтезатор может неправильно поставить ударение или вообще исказить произношение слова. В Abbyy Lingvo основную лексику озвучивает диктор с оксфордским произношением, считающимся для английского языка классическим.

Базы данных "Polyglossum" формируются из единого источника с выпускаемыми издательством бумажными словарями и снабжены развитой системой индексации данных, позволяющей вести полнотекстовый поиск в любом направлении. Объём словарей указывается в «терминах», что учитывает особенности и новые возможности электронных версий словарей. Количество «терминов» равно количеству уникальных словарных входов. Устойчивые сочетания, идиомы и т.д. считаются единым целым, а варианты перевода – отдельными вхождениями. Среди словарей "Polyglossum" есть бумажные словари, переведённые в электронный формат без права внесения изменений. Имеются бумажные словари, в отношении которых издательство ЭТС имеет права на дальнейшее развитие (обновление, внесение поправок и толкований), а также издание в любой форме. Есть электронные словари, не имеющие бумажных аналогов. Словари "Polyglossum" являются отличным рабочим инструментом профессионального технического переводчика, инженера, учёного. Издательство ЭТС – безусловный лидер по количеству, разнообразию и точности отраслевых и технических словарей. Спектр языков словарей ЭТС явно ориентирован на страны северной Европы, имеющие тесные связи с Россией.

Электронные словари "Контекст" подготавливаются и пополняются лексикографическим отделом компании "Информатик" по материалам печатных и авторских словарей. Они организованы так, чтобы работа с ними была максимально быстрой и удобной.

Основу каждой статьи составляет множество синонимичных слов или словосочетаний на двух языках. Каждый из синонимов рассматривается как единица, которая может служить ключевым словом для поиска. Синонимы могут быть снабжены пометами (часть речи, транскрипция и т.п.). Статья может содержать примеры переводов фраз, также рассматриваемых в качестве поисковых единиц. Объём словарей подсчитывается в поисковых единицах, приходящихся на синонимы, и не включает в себя примеры, хотя по примерам также ведётся поиск. "Контекст" удобен для иностранцев, изучающих русский язык; благодаря распознаванию вводимых слов в любой форме он хорош для получения справки без отвлечения от основного занятия, но в первую очередь его аудиторией считаются переводчики. Основными достоинствами "Контекста" с точки зрения перевода можно считать достаточно большой набор тематических словарей, поиск словосочетаний в любой форме и возможность показать список переводов всех фраз с интересующим словом в словаре.

Различные словари используют совершенно разные подходы и, соответственно, методы представления словарных данных. В результате объёмы включённых в них словарей указаны разными способами: в словарных статьях, поисковых терминах или "единицах". "Статья" соответствует обыкновенной словарной статье при алфавитном поиске (как в бумажном словаре). Однако количество словарных статей как показатель объёма – величина весьма обманчивая. На практике значимым оказывается то количество возможных вопросов, на которые в словаре содержатся ответы.

На сегодняшний день в магазинах, специализирующихся на продаже программного обеспечения, можно найти целый ряд словарей и энциклопедий на компакт-дисках. Конечно, словари и энциклопедии широко представлены и в российском Интернете – от крупных проектов до не менее интересных тематических словарей, созданных и пополняемых энтузиастами.

Один из самых популярных порталов онлайн-словарей в российской Сети – ИПС Яndex. Словари (http://slovari.yandex.ru/). Портал осуществляет перевод как на, так и с английского, немецкого, французского, итальянского, испанского, украинского языков. Помимо словарей общей лексики, предлагаются справочники медицинские, юридические, технические и многие другие. Портал очень прост и удобен в использовании.

Портал Mail.ru (http://multilex.mail.ru/) представляет словари на семи языках. Онлайн-справочники включают в себя как общую лексику, так и медицинскую, экономическую, а также словари терминов нефтяной, газовой отраслей, солнечной энергетики и другие отраслевые словари.

Существуют онлайн-словари и на ИПС Rambler – Словари (http://www.rambler.ru/dict/). Выбор языков на портале пока небольшой: английский и немецкий.

Сейчас все более популярными становятся электронные словари на карманных персональных компьютерах (SlovoED/Multilex, Abbyy Lingvo, Pocket Context, Absolute Word Roadlingua, Diet, VVS Словарь, Pocket Multitran, Pocket Promt и т.д.).

 


ТЕМА 4

ТЕМА 5

ТЕКСТЫ ДЛЯ ПЕРЕВОДА

МЕТОДИЧЕСКИЕ УКАЗАНИЯ

для самостоятельной работы

по дисциплине

«Компьютерный сервис переводчика и компьютерная лексикография»

(для студентов специальности «Перевод»)

 

 

УТВЕРЖДЕНО

на заседании кафедры теории и практики перевода

германских и романских языков

Протокол № 9 от 29.06.2017

 

 

Луганск 2017


 

УДК 811.112.2 ' 25(072)

 

Методические указания для самостоятельной работы по дисциплине «Компьютерный сервис переводчика и компьютерная лексикография» (для студентов специальности «Перевод») / Состав.: Д.Ю. Усков. – Луганск: изд-во ЛГУ им. В. Даля, 2017. –35 с.

 

Приведенные материалы, необходимы студентам для самостоятельной работы студентов специальности «Перевод» по дисциплине «Компьютерный сервис переводчика и компьютерная лексикография». Составлено в соответствии с программой курса «Компьютерный сервис переводчика и компьютерная лексикография».

Издание содержит необходимый для студентов минимум теоретического материала по дисциплине, а также ряд текстов для перевода на практических занятиях с применением систем автоматизированного перевода и электронных словарей. Задания способствуют расширению знаний по дисциплине, развитию навыков работы с системами автоматизированного перевода и электронными словарями.

 

 

Составитель: Д.Ю. Усков

 

 

Ответств. за выпуск А.С. Клименко

 

 

Рецензент Т.Г. Гуковская


ПРЕДИСЛОВИЕ

Преимущества компьютеризации в лексикографии очевидны: компьютер может быстро предоставить доступ к обширному словнику, цитатному материалу, быстро дать информацию о многозначном слове и т.д. Специальные компьютерные программы обработки текста позволяют хранить и обрабатывать большие массивы словарной и текстовой информации, а также могут использоваться для создания одно- и многоязычных словарей, конкордансов, контекстологических и прочих современных словарей.

Актуальность вопросов развития компьютерной лексикографии не вызывает сегодня сомнений. Растет социальная значимость словарей: ведь они не только фиксируют совокупность знаний, которыми располагает современное общество, но и служат надежным инструментом научного познания. За компьютерной лексикографией большое будущее, и результатами разработок в этой области смогут пользоваться не только ученые-лингвисты, но и школьники, студенты, а также люди самых различных профессий.

Данные методические указания предназначены для использования при изучении дисциплины «Компьютерный сервис переводчика и компьютерная лексикография», которая предусматривает ознакомление студентов специальности «Перевод и переводоведение» с современными электронными словарями и системами машинного перевода, а также разнообразными он-лайн ресурсами, которые могут быть полезными в переводческой деятельности. Кроме того, знания, приобретенные в процессе изучения данной дисциплины, и умение использования электронных словарей, тезаурусов и он-лайн ресурсов могут быть использованы на практических занятиях по профессионально-ориентированным дисциплинам, таких как «Практический курс перевода с основного иностранного языка», «Перевод научно-технической литературы», «Перевод социально-экономической литературы», «Перевод официально-деловой документации» и пр.

ТЕМА 1

АВТОМАТИЗАЦИЯ ЛЕКСИКОГРАФИИ

Задачи, стоящие перед современной лингвистикой, выдвинули на первый план использование компьютерной техники для автоматической обработки текстов. Здесь можно выделить такие направления как:

· лингвистическое обеспечение информационных систем разных типов;

· машинный перевод; разработка систем, понимающих естественный язык (лингвистические задачи в системах искусственного интеллекта);

· разработка систем использования информации, содержащейся в звуковом речевом сигнале и др.

Внедрение электронно-вычислительной техники в различные отрасли науки и сферы жизнедеятельности человека способствует появлению новых направлений прикладной лингвистики. Ю.Н. Марчук уже в 1970-е годы писал о возможностях применения компьютера для учебной лексикографии. Действительно, компьютер может выполнять такие задачи, как упорядочение по алфавиту введенных в него лексических единиц, приписывание каждой из них частоты встречаемости и многие более сложные работы, на которые лексикографам приходится затрачивать очень много времени и труда. Задача использования современных компьютерных технологий в лексикографии остается по-прежнему актуальной и требует детального изучения. Современные вычислительные средства дают возможность автоматизировать лексикографическую работу практически на всех этапах – от выбора цитат до редактирования словаря и его печати. Автоматизация рутинных процедур, широкое распространение компьютерных программ повышают производительность труда отдельного лексикографа. В результате этого в рамках лексикографии сформировалось новое направление – компьютерная лексикография, включающая в себя создание автоматических словарей, а также разработку программ поддержки лексикографических работ.

В научной литературе можно обнаружить ряд терминов для обозначения лексикографирования на машинных носителях: компьютерная лексикография, вычислительная лексикография, машинная лексикография, автоматическая лексикография и автоматизированная лексикография. Термин «компьютерная лексикография» теперь наиболее употребим.

Компьютерная лексикография сегодня представляет собой: во-первых, быстро развивающуюся отрасль компьютерной индустрии, главным образом из-за того, что «ословаривание» научного знания является одним из основных способов его проявления и распространения; во-вторых, прикладную научную дисциплину в языкознании, изучающую методы, технологию и отдельные приемы использования компьютерной техники в теории и практике составления словарей.

Компьютерная лексикография как таковая, подобно лексикографии, может быть разделена на теоретическую и практическую. Первый раздел включает теорию компьютерной лексикографии и рассматривает такие темы, как типы компьютерных словарей, их конструирование, выработку правил компьютерного лексикографирования и др. Второй раздел имеет дело непосредственно с практическим воплощением теоретических исследований, т.е. созданием компьютерных словарей и баз данных.

К основным направлениям компьютерной лексикографии можно отнести:

1) автоматическое получение из текста с помощью компьютерных средств различных словарей (частотных, терминологических, конкордансов и т.д:);

2) теоретические и практические аспекты составления компьютерных словарей для систем обработки естественного языка (Natural Language Processing);

3) создание и эксплуатация словарей, являющихся машинными версиями традиционных словарей.

Первое и второе направления занимаются разработкой программ поддержки лексикографических работ.

В лексикографической практике широко пользуются компьютерными технологиями обработки лексического материала. Такие технологии представляют собой алгоритмы осуществления операций преобразования данных, которыми пользуется лексикограф в процессе своей деятельности. Основными компонентами компьютерной обработки текста являются компьютерные средства, включая сам компьютер и программное обеспечение, позволяющие вводить и запоминать текстовые данные, изменять их в процессе работы лексикографа и выводить результаты как в виде копий на традиционном бумажном носителе, так и в «электронном» виде на магнитных, магнитооптических и оптических (лазерных) носителях информации. Благодаря усовершенствованию инструментария практической лексикографии, создатели словарей теперь имеют возможность выбирать форму носителя своего произведения: традиционный бумажный или цифровой.

В настоящее время весьма актуальным является ввод на машинные носители известных словарей и справочников и создание на их базе новых словарей. Перевод в машинную форму ранее опубликованных книжных словарей позволяет «разложить по полочкам» содержимое каждого из них. Только на этой основе и можно осуществить эффективный контроль полноты и последовательности заполнения полей в статьях словаря, а также эффективно использовать и контролировать информацию в последующей лексикографической работе над новыми версиями данного словаря (в том числе в виде получения различных аспектуальных проекций словаря, его конверсий и т.п.).

Одной из важных задач лексикографии является также создание комплексных автоматизированных лексикографических систем. Во-первых, это может быть объединение в едином программном комплексе возможностей получения различных словарей по тексту (на основе использования лексических, морфологических, морфемных, фразеологических, синтаксических и иных анализаторов) и подкачки этой информации в основной словарь, содержащийся в словарной подсистеме. Во-вторых, имеется в виду обратное "опрокидывание" выбранных характеристик некоторого внешнего словаря на лексический и иной материал текста с целью дополнительной разметки текста и анализа полученных в нем соотношений различных типов разметки в интересах более глубокого проникновения в структуру и содержание текста. Все это дает возможность получения из компьютерного словаря разноаспектной информации.

Компьютерная лексикография является дисциплиной переходного периода – перехода от существовавшей в течение многих десятилетий традиционно ручной и рукописной лексикографической практики к новым безбумажным информационным технологиям. В среде профессионалов-лингвистов уже сейчас известно множество программных разработок для построения глоссариев, словников, словоуказателей, конкордансов и других профессиональных компонент результатов лексикографической деятельности.

 


ТЕМА 2

МЕТОДЫ КОМПЬЮТЕРИЗАЦИИ ЛЕКСИКОГРАФИЧЕСКИХ РАБОТ

Лексикографическая технология включает следующий набор основных процедур: отбор источников, анализ текстов, составление словников и словоуказателей, анализ словоупотреблений, составление полных или частичных конкордансов, т.е. «расписывание» текста источника по выбранным словам или выписывание из текста иллюстративных примеров использования отобранных слов, составление словарных статей, компоновка словаря.

В традиционной лексикографической технологии названные процедуры реализуются путем создания так называемых лексикографических картотек (библиографических описаний источников, словников и словоуказателей, цитат, словарных статей и т.п.). Как научная дисциплина лексикография в настоящее время находится под сильным воздействием новых методов обработки информации. Меняется инструментарий науки, создаются новые словарные технологии, изменяется содержание труда лексикографа. Постепенно традиционные методы заменяются компьютерной обработкой лексикографических данных.

4) Традиционная технология создания словаря выглядит так:

5) Формирование словника словаря

6) Поиск примеров и формирование картотеки примеров

7) Написание словарных статей

8) Создание рукописи словаря

9) Перепечатка рукописи

10) Редактирование словарных статей

11) Авторская доработка

12) Перепечатка рукописи

13) Корректура

14) Перепечатка рукописи

15) Набор, верстка словаря

16) Корректура

17) Печать словаря

18) Словарь.

Компьютерная технология создания словаря включает в себя следующее:

1) Формирование корпуса текстов

2) (Создание словника)

3) Автоматическое формирование корпуса примеров

4) Написание словарных статей

5) Ввод словарных статей в базу данных

6) Редактирование словарных статей в базе данных

7) Корректура текста в базе данных

8) Порождение текста словаря и формирование оригинал-макета

9) Печать словаря

10) Словарь.

Значительная часть операций, совсем недавно являвшихся исключительно «интеллектуальными» и известными лишь специалистам-лексикографам, сегодня переходит в разряд рутинных и доступных всем, кому интересно или необходимо работать с текстом. По этой причине изменяется и состав лексикографов. Многие из них осваивают некоторые смежные профессии в издательском деле, печати, компьютерной верстке, программировании, д<


Поделиться с друзьями:

Адаптации растений и животных к жизни в горах: Большое значение для жизни организмов в горах имеют степень расчленения, крутизна и экспозиционные различия склонов...

Организация стока поверхностных вод: Наибольшее количество влаги на земном шаре испаряется с поверхности морей и океанов (88‰)...

Биохимия спиртового брожения: Основу технологии получения пива составляет спиртовое брожение, - при котором сахар превращается...

Археология об основании Рима: Новые раскопки проясняют и такой острый дискуссионный вопрос, как дата самого возникновения Рима...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.12 с.