Навигация:

Главная Случайная страница Обратная связь ТОП Интересно знать Избранные Новые материалы

Топ:

Характеристика АТП и сварочно-жестяницкого участка: Транспорт в настоящее время является одной из важнейших отраслей народного хозяйства...

Определение места расположения распределительного центра: Фирма реализует продукцию на рынках сбыта и имеет постоянных поставщиков в разных регионах. Увеличение объема продаж...

Процедура выполнения команд. Рабочий цикл процессора: Функционирование процессора в основном состоит из повторяющихся рабочих циклов, каждый из которых соответствует...

Интересное:

Мероприятия для защиты от морозного пучения грунтов: Инженерная защита от морозного (криогенного) пучения грунтов необходима для легких малоэтажных зданий и других сооружений...

Финансовый рынок и его значение в управлении денежными потоками на современном этапе: любому предприятию для расширения производства и увеличения прибыли нужны...

Подходы к решению темы фильма: Существует три основных типа исторического фильма, имеющих между собой много общего...

Дисциплины:

Автоматизация Антропология Археология Архитектура Аудит Биология Бухгалтерия Военная наука Генетика География Геология Демография Журналистика Зоология Иностранные языки Информатика Искусство История Кинематография Компьютеризация Кораблестроение Кулинария Культура Лексикология Лингвистика Литература Логика Маркетинг Математика Машиностроение Медицина Менеджмент Металлургия Метрология Механика Музыкология Науковедение Образование Охрана Труда Педагогика Политология Правоотношение Предпринимательство Приборостроение Программирование Производство Промышленность Психология Радиосвязь Религия Риторика Социология Спорт Стандартизация Статистика Строительство Теология Технологии Торговля Транспорт Фармакология Физика Физиология Философия Финансы Химия Хозяйство Черчение Экология Экономика Электроника Энергетика Юриспруденция

Машинные фонды национальных языков

2017-10-16

390

0.00 из 5.00 0 оценок

Заказать работу

⇐ ПредыдущаяСтр 3 из 3

Усложнение информационной структуры общества приводит к расширению новой виртуальной коммуникационной среды. С распространением доступа к глобальной сети Интернет в создание информационных баз данных на основе обмена информацией вовлекается все большее число людей. Возникает необходимость создания программной поддержки для интеграции в мировое сообщество, в том числе и представителей различных этносов, наиболее актуальным в данном вопросе является внедрение национальных языков в компьютерные технологии.

Новые информационные технологии уже в 70-80 годах двадцатого века стали использоваться для реализации концепции машинного фонда национальных языков в различных странах. Фактически машинный фонд (корпус) представляет собой сложную иерархическую, разветвленную автоматизированную систему, способную решать как информационно-поисковые, так и исследовательские лингвистические задачи. Однако, первоначально основными составляющими машинного фонда являлись словарные ресурсы, отдельные тематические коллекции текстов, а также достаточно ограниченный программный инструментарий, предназначенный для ведения коллекции.

В машинных фондах различных языков хранится информация о многих возможных зафиксированных единицах языка, начиная с древних текстов и до современных, включая научные и вообще все возможные типы текстов. Фонды должны охватывать десятки миллионов словоупотреблений. Накопленную таким образом информацию можно будет использовать для самых разнообразных целей.

К настоящему времени созданы языковые корпуса, включающие разнообразные языковые базы данных. Корпусная лингвистика – новое направление лингвистической науки, возникшее благодаря развитию компьютерных технологий и исследующее проблемы создания компьютерных баз данных. В России основные исследования в этой области еще впереди. За рубежом – в Великобритании, США, Германии, скандинавских странах исследования по теории корпусной лингвистики ведутся с 60-х годов прошлого столетия. Корпус текстов представляет множество упорядоченных между собой текстов естественного языка, обеспечивающих материал для лингвистических исследований разного рода языковых аспектов и явлений, хранящихся на электронном носителе. Таким образом, корпус является полнотекстовой базой данных, формирующей один из модулей (составляющие модули: словарный, документально-фактографический и объектно-характеристический) базы лексикографических данных словаря. Корпусная лингвистика имеет неоценимое значение для развития лингвистической науки. В настоящее время подлинно научные описания грамматического строя языков, а также авторитетные академические словари составляются на основе корпусов этих языков. Таким образом, развивается новое направление в лексикографии – корпусная лексикография.

Корпус текстов становится мощным инструментом в руках лингвиста лишь посредством специализированных средств. Неотъемлемой частью понятия «корпус текстов» является система управления текстовыми и лингвистическими данными, которую в последнее время чаще всего называют корпусным менеджером (или корпус-менеджером) (англ. corpus manager). Корпусный менеджер – это специализированная поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме. Также важный параметр организации любого корпуса – аннотация, или разметка, т.е. наличие в составе текстов специальных меток, описывающих как сами тексты, так и их единицы, относящиеся к различным языковым уровням. Как известно, чем богаче и разнообразнее разметка, тем выше научная и учебная ценность корпуса. В Национальном корпусе русского языка сегодня разработаны пять типов разметки: метатекстовая, морфологическая, акцентная, синтаксическая и семантическая.

Создание национальных корпусов базовых государственных языков ведущих стран мира возведено в ранг важных историко-культурных и политических мероприятий современности. На эти цели во многих зарубежных государствах тратятся огромные средства. И в нашем государстве в полной мере встает проблема создания этого языкового инструмента, представляющего государственный язык во всем его богатстве, многообразии стилей, жанров, только ему присущих особенностей, причем в удобной для использования современной форме.

Мировым эталонным образцом Национального корпуса считается британский. Среди лучших можно выделить японский и французский национальные корпуса. Самые большие по объему корпуса объединяют несколько сотен миллионов словоупотреблений. Национальный корпус русского языка планируется вывести на уровень более 200 миллионов лексических единиц. Суть национального корпуса – в его принципиальном отличии от тематических коллекций текстов или «библиотек» разного типа, в изобилии представленных в Интернете. Национальный корпус языка – это, во-первых, грандиозное по масштабам собрание всех типов и видов информации на конкретном языке и, во-вторых, внедрение уникальной программы по ее обработке, классификации и анализу по заданным параметрам.

В Машинном фонде русского языка хранится богатейший материал по русскому языку в виде текстовых и звуковых файлов. Он начал создаваться в Институте русского языка Российской Академии Наук по инициативе А.П. Ершова в 1985 г. Важным результатом работы отдела Машинного фонда явилось развитие прикладных направлений (лексикография, терминоведение, автоматическая обработка данных на естественном языке) как составной части академической русистики, являющихся, с одной стороны, проводником результатов фундаментальных исследований в практику, а с другой – источником новых идей и данных для фундаментальной науки. В Машинном фонде русского языка разработаны программные средства первичной обработки источников: программы создания и использования автоматических конкордансов, программы ведения лексикографических баз данных и автоматизации словарных работ и др.

Информационные технологии Машинного фонда русского языка – это методы, алгоритмы и инструментальные программные средства организации, проведения и исследования естественноязыковых знаний, примерами которых являются: частотный анализ текстов и словарей, методика ассоциативного эксперимента, различные алгоритмы построения конкордансов, методы получения системных выборок языковых единиц из источниковых корпусов и др.

ТЕКСТЫ ДЛЯ ПЕРЕВОДА

⇐ Предыдущая 1 23

Поделиться с друзьями:

Семя – орган полового размножения и расселения растений: наружи у семян имеется плотный покров – кожура...

Типы оградительных сооружений в морском порту: По расположению оградительных сооружений в плане различают волноломы, обе оконечности...

Опора деревянной одностоечной и способы укрепление угловых опор: Опоры ВЛ - конструкции, предназначенные для поддерживания проводов на необходимой высоте над землей, водой...

Археология об основании Рима: Новые раскопки проясняют и такой острый дискуссионный вопрос, как дата самого возникновения Рима...