Археология об основании Рима: Новые раскопки проясняют и такой острый дискуссионный вопрос, как дата самого возникновения Рима...
Папиллярные узоры пальцев рук - маркер спортивных способностей: дерматоглифические признаки формируются на 3-5 месяце беременности, не изменяются в течение жизни...
Топ:
Основы обеспечения единства измерений: Обеспечение единства измерений - деятельность метрологических служб, направленная на достижение...
Выпускная квалификационная работа: Основная часть ВКР, как правило, состоит из двух-трех глав, каждая из которых, в свою очередь...
Интересное:
Отражение на счетах бухгалтерского учета процесса приобретения: Процесс заготовления представляет систему экономических событий, включающих приобретение организацией у поставщиков сырья...
Мероприятия для защиты от морозного пучения грунтов: Инженерная защита от морозного (криогенного) пучения грунтов необходима для легких малоэтажных зданий и других сооружений...
Искусственное повышение поверхности территории: Варианты искусственного повышения поверхности территории необходимо выбирать на основе анализа следующих характеристик защищаемой территории...
Дисциплины:
2018-01-13 | 267 |
5.00
из
|
Заказать работу |
Содержание книги
Поиск на нашем сайте
|
|
Лингвистическая разметка (англ. tagging, annotation) – это процесс или результат приписывания текстам и их компонентам специальных меток.
Началом развития корпусной лексикографии русского языка можно считать осуществление с 1983 г. в Институте русского языка РАН программы формирования машинных фондов.
Машинным фондом русского языка называется программа комплексной информатизации исследований в русистике, разработанная А.П. Ершовым и Ю.Н. Карауловым.
Под комплексной информатизацией научных исследований и прикладных разработок понимается: 1) последовательное оснащение современными вычислительными машинами с перспективой их объединения в единую вычислительную сеть; 2) последовательное накопление на машинных носителях и в базах данных главнейших источников, необходимых для научного изучения языка и осуществления прикладных разработок; 3) создание программных средств, необходимых для подготовки научных трудов по филологии и проведения прикладных разработок; развитие прикладных направлений (лексикографии, терминоведения, машинного перевода, автоматической обработки данных на естественном языке) как составной части академической и вузовской науки, являющихся, с одной стороны, проводником результатов фундаментальных исследований в практику, а с другой - источником новых идей и данных для фундаментальной науки.
В рамках проекта машинного фонда русского языка разрабатываются девять фондов-составляющих (генеральный словник, словарный, текстовой, грамматический, терминологический, лин- гвогеографический, исторический, фонетический и лингвистический программно-источниковый фонды русского языка) и одна программная система - типовой, лингвистический программно-источниковый пакет UNILEX.
|
Средствами комплектации фондов-составляющих являются так называемые лингвистические программно-источниковые пакеты, т.е. программные комплексы, управляющие крупными лингвистическими источниками. К ним относятся, например, автоматические конкордансы, автоматические словари, автоматический вариант «Диалектологического атласа русского языка», информационная система по «Краткой русской грамматике», процессоры русского языка и другие средства автоматизации и информационного обеспечения лингвистических исследований и разработок.
Национальный корпус русского языка, представленный в Интернете на сайте http://mscorpora.ru, основан на большом наборе текстов русского языка в электронном виде. Корпус задуман как информационно-справочная система, которая может дать представление о языке на том или ином этапе его существования.
Национальный корпус русского языка ориентирован на всемирно признанные образцы, в том числе Британский национальный корпус (BNC; http://sara.natcorp.ox.ac.uk). Заметим, что характеристика «национальный» в его названии изначально подразумевала лишь определенный вариант языка, но теперь приобрела терминологическое значение и по традиции переносится на представительные корпуса других языков. Среди корпусов славянских языков, на которые ориентируется наш корпус, отметим Чешский национальный корпус, созданный в Карловом университете Праги (http://ucnk.ff.cuni.cz).
Национальный корпус имеет следующие особенности:
§ он репрезентативен, т.е. содержит большой объем текстов, достаточный для того, чтобы отразить тот или иной период развития языка;
§ он сбалансирован: корпус содержит по возможности все типы письменных и устных текстов, представленных в данном языке (художественные разных жанров, публицистические, учебные, научные, деловые, разговорные, диалектные и т.п.). Все эти тексты входят в корпус по возможности пропорционально их доле в языке соответствующего периода;
|
§ он несет лингвистическую разметку: текстам и словам приписана лингвистически существенная информация [Ляшевская, Плунгян, Сичинава, 2005].
Корпус современного русского языка, по замыслу его создателей, планируется в объеме 200 млн словоупотреблений, из которых 100 млн будут представлять тексты 2-й половины XX в., а еще 100 млн - тексты раннего периода, начала XIX в. - 1-й половины XX в. В настоящее время для поиска доступно более 50 млн словоупотреблений [ http://sara.natcorp.ox.ac.uk ].
Корпус русского языка — это информационно-справочная система, основанная на собрании русских текстов в электронной форме.
Использование корпусов достаточно широкое:
v Во-первых, корпус – богатый источник для создания словарей. На основе Национального корпуса русского языка создаются лексикографические произведения различных типов. Например, Частотный словарь современного русского языка (составители - О.Н. Ляшевская и С.А. Шаров) создается на базе текстов 1950— 2007 гг., общий объем которых составляет около 100 млн словоупотреблений.
v Во-вторых, на корпусе проверяются системы автоматической обработки текста и различные лингвистические теории.
v В-третьих, данные национальных корпусов языков нужны для ученых-исследователей.
v В-четвертых, к орпуса необходимы для создания учебников и пособий по языку
v В-пятых, к орпуса «малых» языков позволят сохранить зафиксированное на письме состояние уходящего из употребления, исчезающего языка
П Р А К Т И К У М
ВВЕДЕНИЕ. СЛОВАРЬ КАК ФЕНОМЕН НАЦИОНАЛЬНОЙ КУЛЬТУРЫ
|
|
Индивидуальные очистные сооружения: К классу индивидуальных очистных сооружений относят сооружения, пропускная способность которых...
Своеобразие русской архитектуры: Основной материал – дерево – быстрота постройки, но недолговечность и необходимость деления...
Организация стока поверхностных вод: Наибольшее количество влаги на земном шаре испаряется с поверхности морей и океанов (88‰)...
Индивидуальные и групповые автопоилки: для животных. Схемы и конструкции...
© cyberpedia.su 2017-2024 - Не является автором материалов. Исключительное право сохранено за автором текста.
Если вы не хотите, чтобы данный материал был у нас на сайте, перейдите по ссылке: Нарушение авторских прав. Мы поможем в написании вашей работы!