Корпус языка – это совокупность текстов в электронном виде, снабженная лингвистической разметкой. — КиберПедия 

Археология об основании Рима: Новые раскопки проясняют и такой острый дискуссионный вопрос, как дата самого возникновения Рима...

Кормораздатчик мобильный электрифицированный: схема и процесс работы устройства...

Корпус языка – это совокупность текстов в электронном виде, снабженная лингвистической разметкой.

2018-01-13 202
Корпус языка – это совокупность текстов в электронном виде, снабженная лингвистической разметкой. 0.00 из 5.00 0 оценок
Заказать работу

Лингвистическая разметка (англ. tagging, annotation) – это процесс или результат приписывания текстам и их компонентам специальных меток.

Началом развития корпусной лексикографии русского языка можно считать осуществление с 1983 г. в Институте русского язы­ка РАН программы формирования машинных фондов.

Машинным фондом русского языка называется программа комплексной информатизации исследований в русистике, разра­ботанная А.П. Ершовым и Ю.Н. Карауловым.

Под комплексной информатизацией научных исследований и прикладных разработок понимается: 1) последовательное оснаще­ние современными вычислительными машинами с перспективой их объединения в единую вычислительную сеть; 2) последователь­ное накопление на машинных носителях и в базах данных главней­ших источников, необходимых для научного изучения языка и осу­ществления прикладных разработок; 3) создание программных средств, необходимых для подготовки научных трудов по филоло­гии и проведения прикладных разработок; развитие прикладных направлений (лексикографии, терминоведения, машинного пере­вода, автоматической обработки данных на естественном языке) как составной части академической и вузовской науки, являющих­ся, с одной стороны, проводником результатов фундаментальных исследований в практику, а с другой - источником новых идей и данных для фундаментальной науки.

В рамках проекта машинного фонда русского языка разраба­тываются девять фондов-составляющих (генеральный словник, словарный, текстовой, грамматический, терминологический, лин- гвогеографический, исторический, фонетический и лингвистичес­кий программно-источниковый фонды русского языка) и одна про­граммная система - типовой, лингвистический программно-источниковый пакет UNILEX.

Средствами комплектации фондов-составляющих являются так называемые лингвистические программно-источниковые па­кеты, т.е. программные комплексы, управляющие крупными лин­гвистическими источниками. К ним относятся, например, авто­матические конкордансы, автоматические словари, автоматичес­кий вариант «Диалектологического атласа русского языка», ин­формационная система по «Краткой русской грамматике», про­цессоры русского языка и другие средства автоматизации и ин­формационного обеспечения лингвистических исследований и разработок.

Национальный корпус русского языка, представленный в Интернете на сайте http://mscorpora.ru, основан на большом набо­ре текстов русского языка в электронном виде. Корпус задуман как информационно-справочная система, которая может дать представ­ление о языке на том или ином этапе его существования.

Национальный корпус русского языка ориентирован на все­мирно признанные образцы, в том числе Британский нацио­нальный корпус (BNC; http://sara.natcorp.ox.ac.uk). Заметим, что характеристика «национальный» в его названии изначально под­разумевала лишь определенный вариант языка, но теперь приоб­рела терминологическое значение и по традиции переносится на представительные корпуса других языков. Среди корпусов сла­вянских языков, на которые ориентируется наш корпус, отметим Чешский национальный корпус, созданный в Карловом универ­ситете Праги (http://ucnk.ff.cuni.cz).

Национальный корпус имеет следующие особенности:

§ он репрезентативен, т.е. содержит большой объем текстов, достаточный для того, чтобы отразить тот или иной период разви­тия языка;

§ он сбалансирован: корпус содержит по возможности все типы письменных и устных текстов, представленных в данном языке (ху­дожественные разных жанров, публицистические, учебные, науч­ные, деловые, разговорные, диалектные и т.п.). Все эти тексты вхо­дят в корпус по возможности пропорционально их доле в языке соответствующего периода;

§ он несет лингвистическую разметку: текстам и словам при­писана лингвистически существенная информация [Ляшевская, Плунгян, Сичинава, 2005].

 

Корпус современного русского языка, по замыслу его созда­телей, планируется в объеме 200 млн словоупотреблений, из кото­рых 100 млн будут представлять тексты 2-й половины XX в., а еще 100 млн - тексты раннего периода, начала XIX в. - 1-й половины XX в. В настоящее время для поиска доступно более 50 млн слово­употреблений [ http://sara.natcorp.ox.ac.uk ].

Корпус русского языка — это информационно-справочная система, основанная на собрании русских текстов в электронной форме.

Использование корпусов достаточно широкое:

 

v Во-первых, корпус – богатый источник для создания словарей. На основе Национального корпуса русского языка создаются лексикографические произведения различных типов. Например, Частотный словарь современного русского языка (составители - О.Н. Ляшевская и С.А. Шаров) создается на базе текстов 1950— 2007 гг., общий объем которых составляет около 100 млн словоу­потреблений.

v Во-вторых, на корпусе проверяются системы автоматической обработки текста и различные лингвистические теории.

v В-третьих, данные национальных корпусов языков нужны для ученых-исследователей.

v В-четвертых, к орпуса необходимы для создания учебников и пособий по языку

v В-пятых, к орпуса «малых» языков позволят сохранить зафиксированное на письме состояние уходящего из употребления, исчезающего языка

П Р А К Т И К У М

ВВЕДЕНИЕ. СЛОВАРЬ КАК ФЕНОМЕН НАЦИОНАЛЬНОЙ КУЛЬТУРЫ


Поделиться с друзьями:

Индивидуальные очистные сооружения: К классу индивидуальных очистных сооружений относят сооружения, пропускная способность которых...

Поперечные профили набережных и береговой полосы: На городских территориях берегоукрепление проектируют с учетом технических и экономических требований, но особое значение придают эстетическим...

Индивидуальные и групповые автопоилки: для животных. Схемы и конструкции...

Наброски и зарисовки растений, плодов, цветов: Освоить конструктивное построение структуры дерева через зарисовки отдельных деревьев, группы деревьев...



© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!

0.008 с.