Опора деревянной одностоечной и способы укрепление угловых опор: Опоры ВЛ - конструкции, предназначенные для поддерживания проводов на необходимой высоте над землей, водой...
Индивидуальные очистные сооружения: К классу индивидуальных очистных сооружений относят сооружения, пропускная способность которых...
Топ:
Характеристика АТП и сварочно-жестяницкого участка: Транспорт в настоящее время является одной из важнейших отраслей народного хозяйства...
Определение места расположения распределительного центра: Фирма реализует продукцию на рынках сбыта и имеет постоянных поставщиков в разных регионах. Увеличение объема продаж...
Процедура выполнения команд. Рабочий цикл процессора: Функционирование процессора в основном состоит из повторяющихся рабочих циклов, каждый из которых соответствует...
Интересное:
Мероприятия для защиты от морозного пучения грунтов: Инженерная защита от морозного (криогенного) пучения грунтов необходима для легких малоэтажных зданий и других сооружений...
Финансовый рынок и его значение в управлении денежными потоками на современном этапе: любому предприятию для расширения производства и увеличения прибыли нужны...
Подходы к решению темы фильма: Существует три основных типа исторического фильма, имеющих между собой много общего...
Дисциплины:
2017-10-16 | 390 |
5.00
из
|
Заказать работу |
|
|
Усложнение информационной структуры общества приводит к расширению новой виртуальной коммуникационной среды. С распространением доступа к глобальной сети Интернет в создание информационных баз данных на основе обмена информацией вовлекается все большее число людей. Возникает необходимость создания программной поддержки для интеграции в мировое сообщество, в том числе и представителей различных этносов, наиболее актуальным в данном вопросе является внедрение национальных языков в компьютерные технологии.
Новые информационные технологии уже в 70-80 годах двадцатого века стали использоваться для реализации концепции машинного фонда национальных языков в различных странах. Фактически машинный фонд (корпус) представляет собой сложную иерархическую, разветвленную автоматизированную систему, способную решать как информационно-поисковые, так и исследовательские лингвистические задачи. Однако, первоначально основными составляющими машинного фонда являлись словарные ресурсы, отдельные тематические коллекции текстов, а также достаточно ограниченный программный инструментарий, предназначенный для ведения коллекции.
В машинных фондах различных языков хранится информация о многих возможных зафиксированных единицах языка, начиная с древних текстов и до современных, включая научные и вообще все возможные типы текстов. Фонды должны охватывать десятки миллионов словоупотреблений. Накопленную таким образом информацию можно будет использовать для самых разнообразных целей.
К настоящему времени созданы языковые корпуса, включающие разнообразные языковые базы данных. Корпусная лингвистика – новое направление лингвистической науки, возникшее благодаря развитию компьютерных технологий и исследующее проблемы создания компьютерных баз данных. В России основные исследования в этой области еще впереди. За рубежом – в Великобритании, США, Германии, скандинавских странах исследования по теории корпусной лингвистики ведутся с 60-х годов прошлого столетия. Корпус текстов представляет множество упорядоченных между собой текстов естественного языка, обеспечивающих материал для лингвистических исследований разного рода языковых аспектов и явлений, хранящихся на электронном носителе. Таким образом, корпус является полнотекстовой базой данных, формирующей один из модулей (составляющие модули: словарный, документально-фактографический и объектно-характеристический) базы лексикографических данных словаря. Корпусная лингвистика имеет неоценимое значение для развития лингвистической науки. В настоящее время подлинно научные описания грамматического строя языков, а также авторитетные академические словари составляются на основе корпусов этих языков. Таким образом, развивается новое направление в лексикографии – корпусная лексикография.
|
Корпус текстов становится мощным инструментом в руках лингвиста лишь посредством специализированных средств. Неотъемлемой частью понятия «корпус текстов» является система управления текстовыми и лингвистическими данными, которую в последнее время чаще всего называют корпусным менеджером (или корпус-менеджером) (англ. corpus manager). Корпусный менеджер – это специализированная поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме. Также важный параметр организации любого корпуса – аннотация, или разметка, т.е. наличие в составе текстов специальных меток, описывающих как сами тексты, так и их единицы, относящиеся к различным языковым уровням. Как известно, чем богаче и разнообразнее разметка, тем выше научная и учебная ценность корпуса. В Национальном корпусе русского языка сегодня разработаны пять типов разметки: метатекстовая, морфологическая, акцентная, синтаксическая и семантическая.
|
Создание национальных корпусов базовых государственных языков ведущих стран мира возведено в ранг важных историко-культурных и политических мероприятий современности. На эти цели во многих зарубежных государствах тратятся огромные средства. И в нашем государстве в полной мере встает проблема создания этого языкового инструмента, представляющего государственный язык во всем его богатстве, многообразии стилей, жанров, только ему присущих особенностей, причем в удобной для использования современной форме.
Мировым эталонным образцом Национального корпуса считается британский. Среди лучших можно выделить японский и французский национальные корпуса. Самые большие по объему корпуса объединяют несколько сотен миллионов словоупотреблений. Национальный корпус русского языка планируется вывести на уровень более 200 миллионов лексических единиц. Суть национального корпуса – в его принципиальном отличии от тематических коллекций текстов или «библиотек» разного типа, в изобилии представленных в Интернете. Национальный корпус языка – это, во-первых, грандиозное по масштабам собрание всех типов и видов информации на конкретном языке и, во-вторых, внедрение уникальной программы по ее обработке, классификации и анализу по заданным параметрам.
В Машинном фонде русского языка хранится богатейший материал по русскому языку в виде текстовых и звуковых файлов. Он начал создаваться в Институте русского языка Российской Академии Наук по инициативе А.П. Ершова в 1985 г. Важным результатом работы отдела Машинного фонда явилось развитие прикладных направлений (лексикография, терминоведение, автоматическая обработка данных на естественном языке) как составной части академической русистики, являющихся, с одной стороны, проводником результатов фундаментальных исследований в практику, а с другой – источником новых идей и данных для фундаментальной науки. В Машинном фонде русского языка разработаны программные средства первичной обработки источников: программы создания и использования автоматических конкордансов, программы ведения лексикографических баз данных и автоматизации словарных работ и др.
Информационные технологии Машинного фонда русского языка – это методы, алгоритмы и инструментальные программные средства организации, проведения и исследования естественноязыковых знаний, примерами которых являются: частотный анализ текстов и словарей, методика ассоциативного эксперимента, различные алгоритмы построения конкордансов, методы получения системных выборок языковых единиц из источниковых корпусов и др.
ТЕКСТЫ ДЛЯ ПЕРЕВОДА
|
|
Семя – орган полового размножения и расселения растений: наружи у семян имеется плотный покров – кожура...
Типы оградительных сооружений в морском порту: По расположению оградительных сооружений в плане различают волноломы, обе оконечности...
Опора деревянной одностоечной и способы укрепление угловых опор: Опоры ВЛ - конструкции, предназначенные для поддерживания проводов на необходимой высоте над землей, водой...
Археология об основании Рима: Новые раскопки проясняют и такой острый дискуссионный вопрос, как дата самого возникновения Рима...
© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!