Машинные фонды национальных языков — КиберПедия 

Опора деревянной одностоечной и способы укрепление угловых опор: Опоры ВЛ - конструкции, предназначен­ные для поддерживания проводов на необходимой высоте над землей, водой...

Индивидуальные очистные сооружения: К классу индивидуальных очистных сооружений относят сооружения, пропускная способность которых...

Машинные фонды национальных языков

2017-10-16 390
Машинные фонды национальных языков 0.00 из 5.00 0 оценок
Заказать работу

Усложнение информационной структуры общества приводит к расширению новой виртуальной коммуникационной среды. С распространением доступа к глобальной сети Интернет в создание информационных баз данных на основе обмена информацией вовлекается все большее число людей. Возникает необходимость создания программной поддержки для интеграции в мировое сообщество, в том числе и представителей различных этносов, наиболее актуальным в данном вопросе является внедрение национальных языков в компьютерные технологии.

Новые информационные технологии уже в 70-80 годах двадцатого века стали использоваться для реализации концепции машинного фонда национальных языков в различных странах. Фактически машинный фонд (корпус) представляет собой сложную иерархическую, разветвленную автоматизированную систему, способную решать как информационно-поисковые, так и исследовательские лингвистические задачи. Однако, первоначально основными составляющими машинного фонда являлись словарные ресурсы, отдельные тематические коллекции текстов, а также достаточно ограниченный программный инструментарий, предназначенный для ведения коллекции.

В машинных фондах различных языков хранится информация о многих возможных зафиксированных единицах языка, начиная с древних текстов и до современных, включая научные и вообще все возможные типы текстов. Фонды должны охватывать десятки миллионов словоупотреблений. Накопленную таким образом информацию можно будет использовать для самых разнообразных целей.

К настоящему времени созданы языковые корпуса, включающие разнообразные языковые базы данных. Корпусная лингвистика – новое направление лингвистической науки, возникшее благодаря развитию компьютерных технологий и исследующее проблемы создания компьютерных баз данных. В России основные исследования в этой области еще впереди. За рубежом – в Великобритании, США, Германии, скандинавских странах исследования по теории корпусной лингвистики ведутся с 60-х годов прошлого столетия. Корпус текстов представляет множество упорядоченных между собой текстов естественного языка, обеспечивающих материал для лингвистических исследований разного рода языковых аспектов и явлений, хранящихся на электронном носителе. Таким образом, корпус является полнотекстовой базой данных, формирующей один из модулей (составляющие модули: словарный, документально-фактографический и объектно-характеристический) базы лексикографических данных словаря. Корпусная лингвистика имеет неоценимое значение для развития лингвистической науки. В настоящее время подлинно научные описания грамматического строя языков, а также авторитетные академические словари составляются на основе корпусов этих языков. Таким образом, развивается новое направление в лексикографии – корпусная лексикография.

Корпус текстов становится мощным инструментом в руках лингвиста лишь посредством специализированных средств. Неотъемлемой частью понятия «корпус текстов» является система управления текстовыми и лингвистическими данными, которую в последнее время чаще всего называют корпусным менеджером (или корпус-менеджером) (англ. corpus manager). Корпусный менеджер – это специализированная поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме. Также важный параметр организации любого корпуса – аннотация, или разметка, т.е. наличие в составе текстов специальных меток, описывающих как сами тексты, так и их единицы, относящиеся к различным языковым уровням. Как известно, чем богаче и разнообразнее разметка, тем выше научная и учебная ценность корпуса. В Национальном корпусе русского языка сегодня разработаны пять типов разметки: метатекстовая, морфологическая, акцентная, синтаксическая и семантическая.

Создание национальных корпусов базовых государственных языков ведущих стран мира возведено в ранг важных историко-культурных и политических мероприятий современности. На эти цели во многих зарубежных государствах тратятся огромные средства. И в нашем государстве в полной мере встает проблема создания этого языкового инструмента, представляющего государственный язык во всем его богатстве, многообразии стилей, жанров, только ему присущих особенностей, причем в удобной для использования современной форме.

Мировым эталонным образцом Национального корпуса считается британский. Среди лучших можно выделить японский и французский национальные корпуса. Самые большие по объему корпуса объединяют несколько сотен миллионов словоупотреблений. Национальный корпус русского языка планируется вывести на уровень более 200 миллионов лексических единиц. Суть национального корпуса – в его принципиальном отличии от тематических коллекций текстов или «библиотек» разного типа, в изобилии представленных в Интернете. Национальный корпус языка – это, во-первых, грандиозное по масштабам собрание всех типов и видов информации на конкретном языке и, во-вторых, внедрение уникальной программы по ее обработке, классификации и анализу по заданным параметрам.

В Машинном фонде русского языка хранится богатейший материал по русскому языку в виде текстовых и звуковых файлов. Он начал создаваться в Институте русского языка Российской Академии Наук по инициативе А.П. Ершова в 1985 г. Важным результатом работы отдела Машинного фонда явилось развитие прикладных направлений (лексикография, терминоведение, автоматическая обработка данных на естественном языке) как составной части академической русистики, являющихся, с одной стороны, проводником результатов фундаментальных исследований в практику, а с другой – источником новых идей и данных для фундаментальной науки. В Машинном фонде русского языка разработаны программные средства первичной обработки источников: программы создания и использования автоматических конкордансов, программы ведения лексикографических баз данных и автоматизации словарных работ и др.

Информационные технологии Машинного фонда русского языка – это методы, алгоритмы и инструментальные программные средства организации, проведения и исследования естественноязыковых знаний, примерами которых являются: частотный анализ текстов и словарей, методика ассоциативного эксперимента, различные алгоритмы построения конкордансов, методы получения системных выборок языковых единиц из источниковых корпусов и др.


 

ТЕКСТЫ ДЛЯ ПЕРЕВОДА


Поделиться с друзьями:

Семя – орган полового размножения и расселения растений: наружи у семян имеется плотный покров – кожура...

Типы оградительных сооружений в морском порту: По расположению оградительных сооружений в плане различают волноломы, обе оконечности...

Опора деревянной одностоечной и способы укрепление угловых опор: Опоры ВЛ - конструкции, предназначен­ные для поддерживания проводов на необходимой высоте над землей, водой...

Археология об основании Рима: Новые раскопки проясняют и такой острый дискуссионный вопрос, как дата самого возникновения Рима...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.01 с.