Национальный корпус русского языка что такое

Что такое «Национальный корпус русского языка» и чем он полезен?

«Национальный корпус русского языка»: что это такое и как использовать его в школе?

Национальный корпус русского языка — это интернет-сервис, в котором собраны художественные (6 308) и нехудожественные (70 574) тексты: от древнерусских посланий с берестяных грамот до современных инструкций к бытовым приборам. Именно здесь можно подобрать емкие примеры и интересные материалы для новых заданий. В чем отличие от Google или Yandex? Все слова в базе имеют лингвистическую разметку: род, падеж, лицо, залог и так далее. За счет этого поиск можно проводить по множеству характеристик.

Изначально сайт для того и задумывался. Функции позволяют отыскать конкретные словосочетания и их вариации, контексты. Доступен даже поиск по произведениям классиков. Например, всего за минуту-две можно собрать все стихи, в которых А.С. Пушкин обращался к школе в том или ином значении. Для этого заходим в поэтический раздел, выбираем автора, переходим к странице поиска, задаем слово «школа», а в грамматических признаках выделяем все падежи, единственное число и множественное число. Получаем: «. Наших деток в шумной школе / Раздавались голоса. », «. Вот время: добрые ленивцы, / Эпикурейцы-мудрецы, / Вы, равнодушные счастливцы, / Вы, школы Левшина птенцы. » и другие.

Пользователям предложен также «Частотный словарь», учитывающий значения коэффициента D (А. Жуйана) — он полезен при проверке эссе, научных работ. Есть ссылки на параллельные проекты на английском, французском, китайском, эстонском, бурятском и других языках.

НКРЯ экономит время учителя и помогает решать на уроках самые разные задачи. Хотите поработать с паронимами? Найдите отрывки с заданными словами и вставьте их в учебные материалы, сделав пропуск на месте паронимов. «Руководитель департамента ____________ (представил) возможности и перспективы» / «Музей ___________ (предоставил) помещение для церемонии» / Сегодня управляющий должен ____________ (представить) список дворовых.

Здесь же можно подобрать варианты употребления архаизмов, пополнить пассивный словарный запас («Отрадно видеть ваши очи», «Брадобрей обрадовался, что солдаты могут бриться сами»). Или — наоборот — проанализировать свежие выражения.

Занимательные исследования

«Клево»

Национальный корпус русского языка что такое. Смотреть фото Национальный корпус русского языка что такое. Смотреть картинку Национальный корпус русского языка что такое. Картинка про Национальный корпус русского языка что такое. Фото Национальный корпус русского языка что такое

Мы наблюдаем всплеск интереса во второй половине позапрошлого века! Откуда он взялся и как он связан с настоящим? Вопрос к истории. Дело в том, что в то время большое распространение имела профессия офеней. Коробейники считали себя закрытым обществом и даже сформировали собственный, мало кому понятный язык.

Переведем несколько известных пословиц — как они звучали у офеней:

Позже часть слов перекочевала в криминальный жаргон, а следом — в молодежный сленг («по приколу», «отмазать», «не канает» и др.).

Национальный корпус русского языка что такое. Смотреть фото Национальный корпус русского языка что такое. Смотреть картинку Национальный корпус русского языка что такое. Картинка про Национальный корпус русского языка что такое. Фото Национальный корпус русского языка что такое

«Превед медвед»

Сегодня много говорится о развитии нашего языка, об изменении его норм в соответствии с социальными запросами. Быстрый анализ позволяет доказать, что далеко не все модные выражения относятся к логичному развитию стиля и способны пройти испытание временем. Возьмем популярный еще недавно «падонкаффский» («олбанский») язык и отследим частоту употребления фразы: «Превед медвед» (с 1800 по 2019 гг).

Национальный корпус русского языка что такое. Смотреть фото Национальный корпус русского языка что такое. Смотреть картинку Национальный корпус русского языка что такое. Картинка про Национальный корпус русского языка что такое. Фото Национальный корпус русского языка что такое

График показывает резкий подъем интереса в 2006 году и такой же резкий спад в 2014-м. «Превед медвед» и другие «падонкаффские» выражения («Аффтар жжот», «Эта пять» и т.д.) показали свою несостоятельность, хотя и были широко распространены в определенный период. Конечно, в силу нарочито-неправильного написания они навряд ли вошли бы в официальные словари, но история их популярности очень показательна.

Методические советы:

Идеи заданий

Современный лингвист Нина Добрушина отмечает, что во многих учебниках по предмету «Русский язык» большинство упражнений содержат примеры из XIX века, 30% текстов относится к литературе 20-го века, остальное сконструировано автором. Но школьнику важно изучить нынешний стиль письменной речи. Сервис НКРЯ помогает найти золотую середину между неактуальной классикой и языком социальных сетей.

Источник

Использование корпуса

Все результаты интеллектуальной деятельности, используемые в НКРЯ и размещаемые в сети Интернет по адресу https://www.ruscorpora.ru/, доступны исключительно для некоммерческого использования в научно-исследовательских и учебных целях (в соответствии со статьей 1274 ГК РФ). Они не предназначены ни для чтения/просмотра, ни для копирования, ни для иных видов использования: их можно использовать в режиме поиска как источники примеров (цитат), иллюстрирующих то или иное языковое явление. При цитировании примеров, полученных с помощью НКРЯ, необходимо ссылаться на НКРЯ как источник примеров, а также, в случае, если пример носит бесспорно авторский характер, указывать имена авторов текста и его название.

Для получения офлайновой версии корпуса, а также диахронических датасетов НКРЯ, необходимо подписать соответствующее лицензионное соглашение и выслать заявку с заполненным отсканированным лицензионным соглашением по адресу np-rnc@yandex.ru. В заявке укажите цели использования данных.

В настоящий момент доступны следующие данные:

Офлайновая версия основного корпуса со снятой морфологической омонимией (объём около 1 млн словоупотреблений) — лицензионное соглашение

Диахронические датасеты НКРЯ (совокупный объём наборов данных — 250 миллионов словоупотреблений) — лицензионное соглашение
Диахронические наборы данных охватывают три периода — 1700-1916, 1918-1991 и 1992-2016 годы и отвечают приблизительно трём историческим периодам развития общества и русского языка Нового времени («досоветскому», «советскому» — включая, разумеется, и тексты эмиграции, — и «постсоветскому»).
Каждый из этих периодов представлен большим текстовым файлом в кодировке UTF-8, где в произвольном порядке находятся предложения исходных текстов. Такое нарушение целостности текстов связано с требованиями защиты авторских прав. Тексты не снабжены морфологической либо метатекстовой разметкой.

Составители Корпуса будут также признательны за сообщение обо всех обнаруженных ошибках и неточностях и за предложения по совершенствованию Корпуса.

Почтовый адрес администрации Корпуса: 119019 Москва, Волхонка, 18/2, Институт русского языка им. В. В. Виноградова РАН, Отдел корпусной лингвистики и лингвистической поэтики.

Источник

Основной корпус текстов

Основной корпус — тексты, представляющие русский литературный язык, — можно подразделить на два главных массива, имеющих свои особенности: это современные письменные тексты (середина XX — начало XXI века) и ранние тексты (середина XVIII — середина XX века). По умолчанию поиск по этим массивам ведётся одновременно, задать хронологический диапазон (и иные параметры) можно на странице установки пользовательского подкорпуса.

Современные письменные тексты

Представительный корпус современных текстов с морфологической разметкой является основным и самым объёмным из подкорпусов. В этот корпус входят различные типы текстов, представляющие современный русский литературный (письменный) язык:

современная художественная проза разных жанров и направлений

журнальная публицистика и литературная критика

газетная публицистика и новости

научные, и учебные тексты

религиозные и тексты

и юридические тексты

бытовые тексты (в том числе тексты, не предназначенные для публикации: личная переписка, дневники и т.п.)

Тексты представлены в определенной пропорции, отражающей их долю в общем массиве современных текстов. Так, доля художественных текстов (включая драматургию и мемуары) составляет не более 40%.

Источниками текстов, входящих в Корпус, для опубликованных книжных, журнальных и газетных текстов, как правило, являются выверенные электронные версии, предоставляемые издателями этих текстов (и используемые в Корпусе с разрешения издателей).

Ограничить поиск современными текстами можно по параметру «дата создания» на странице выбора подкорпуса.

Тексты XVIII—середины XX вв. в Корпусе

Тексты XVIII—середины XX вв. в Корпусе представляют также различные жанры (художественная литература, научные тексты, частная переписка, публицистика), однако по причине доступности электронных версий и современных переизданий процент художественной литературы для этого периода гораздо выше, чем для второй половины XX в. Тексты, написанные до 1918 г., даются в послереформенной орфографии; те особенности оригинальной орфографии, которые сохраняются в научных переизданиях, сохраняются и в Корпусе.

Савчук С. О, Сичинава Д. В. Корпус русских текстов XVIII века в составе НКРЯ: проблемы и перспективы // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 52—70.

Дич Н. Л. О текстах XIX века в Национальном корпусе русского языка // Национальный корпус русского языка: 2003—2005. М.: Индрик, 2005, 89—93.

Оскольская С. А. Корпус письменных текстов XIX века: сферы употребления и жанровое разнообразие // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 46—51.

Савчук С. О. Корпус текстов первой половины XX века: текущее состояние и перспективы // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 27—45.

Глубоко аннотированный (синтаксический) корпус

Данный фрагмент Национального корпуса русского языка, известный под названием СинТагРус (Syntactically Tagged Russian corpus), содержит тексты, снабженные морфосинтаксической разметкой. Это значит, что помимо морфологической информации, приписанной каждому слову текста, для каждого предложения задана его синтаксическая структура.

Синтаксическая структура предложения, используемая в корпусе СинТагРус, представляет собой дерево зависимостей, в узлах которого стоят слова предложения, а дуги помечены именами синтаксических отношений. Такое представление о синтаксической структуре предложения восходит к лингвистической модели «Смысл ⇔ Текст» И.А. Мельчука и А.К. Жолковского. Полный перечень используемых синтаксических отношений, а также целый ряд конкретных лингвистических решений, связанных с представлением синтаксической структуры предложения, был выработан в Лаборатории компьютерной лингвистики Института проблем передачи информации РАН. Силами коллектива этой Лаборатории и составлен СинТагРус.

В отличие от морфологически размеченных фрагментов Национального корпуса русского языка, СинТагРус состоит из структур с полностью снятой морфологической и синтаксической омонимией.

Е.С. Иншакова и др. СинТагРус сегодня // Труды Института русского языка им. В.В. Виноградова. М., 2019. Вып.21. с.14–40.

Газетный корпус (корпус современных СМИ)

Газетный корпус (корпус современных СМИ) открыт в 2010 г. и охватывает статьи из средств массовой информации 2000-х годов. Значительные объёмы текстов СМИ, доступные в электронном виде и предоставляющие большой интерес для изучения языковых изменений «в режиме реального времени», не могут быть полностью включены в основной корпус, поскольку нарушили бы его репрезентативность, как тематическую, так и хронологическую. Для отдельного газетного корпуса такого ограничения нет; по объёму он сопоставим с основным.

В корпус газетных текстов примерно в равном объёме включены тексты семи СМИ — как печатных газет («Известия», «Советский спорт», «Труд», «Комсомольская правда»), так и электронных агентств (РИА «Новости», РБК, «Новый регион»). Предполагается постоянное пополнение корпуса; каждый год выпуска должен быть представлен одинаковым объёмом текстов в несколько десятков миллионов словоупотреблений.

Корпус региональной и зарубежной прессы

Корпус региональной и зарубежной прессы открыт для общего доступа в 2015 г. В нем представлены газеты нескольких уровней – региональные выпуски центральных газет, газеты регионального уровня и местные издания – районные и городские. Временные рамки текстов 1996—2013 годы. География печатных изданий широка и охватывает все федеральные округа России, а также страны СНГ (Беларусь, Молдова, Кыргызстан) и Балтии.

В текущей версии регионального газетного корпуса выделяются четыре относительно самостоятельные коллекции: тексты русскоязычных газет Гродненщины на русском и белорусском языке («Лингвистический иллюстративный корпус СМИ Гродненщины»), две коллекции региональных газет России с дистанцией в 10 лет — газеты 1990—2000-х годов и СМИ 2010-х годов и коллекция региональных выпусков «Комсомольской правды». С ними можно работать как с единым массивом, так и с каждой коллекцией в отдельности. Эти и многие другие возможности обеспечиваются поиском по корпусу.

Корпус параллельных текстов

Особым типом корпуса является так называемый параллельный корпус, в котором тексту на русском языке сопоставлен перевод этого текста на другой язык или, наоборот, тексту на иностранном языке сопоставлен его перевод на русский язык. Между единицами оригинального и переводного текста (обычно — между предложениями) с помощью специальной процедуры устанавливается соответствие; эта процедура называется выравниванием, а тексты, соответственно, выравненными.

Выравненный параллельный корпус представляет собой важный инструмент для научных исследований (в том числе и для исследований по теории и практике перевода); он может также использоваться при обучении русскому и иностранным языкам.

Добровольский Д. О., Кретов А. А., Шаров С. А. Корпус параллельных текстов: архитектура и возможности использования // Национальный корпус русского языка: 2003—2005. М.: Индрик, 2005, 263—296.

Корпус диалектных текстов

Корпус диалектных текстов (открылся в 2005 г.) включает в себя записи диалектной речи (в орфографии, приближенной к стандартной) из различных регионов России. Полностью сохранена морфологическая, синтаксическая и лексическая специфика текстов. В подкорпусе имеются специальные пометы для особенностей диалектной морфологии (в том числе явлений, отсутствующих в литературном языке), кроме того, толкованиями снабжаются чисто диалектные лексемы.

Летучий А. Б. Корпус диалектных текстов: задачи и проблемы // Национальный корпус русского языка: 2003—2005. М.: Индрик, 2005, 215—232.

Летучий А. Б. Диалектный корпус: состав и особенности разметки // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, с. 114—128.

Корпус поэтических текстов

Корпус поэтических текстов (открылся в 2006 г.) включает стихотворные произведения. Планируемый временной диапазон — от XVIII в. до современности. В корпус пока не включены стихотворные драматические сочинения. Помимо обычной семантической и морфологической разметки (аналогичной той, что представлена в корпусе с неснятой омонимией), предусмотрена специальная стиховедческая разметка. Так, возможен поиск текстов, написанных амфибрахием, тоническими размерами, 5-стишиями, вольной рифмовкой, твёрдыми формами и т. п.

Гришина Е. А., Корчагин К. М., Плунгян В. А., Сичинава Д. В. Поэтический корпус в рамках НКРЯ: общая структура и перспективы использования // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 71—113.

Обучающий корпус русского языка

Обучающий корпус русского языка (открылся в 2007 г.) — небольшой корпус со снятой омонимией, ориентированный на преподавание русского языка в школе (отобраны произведения из школьной программы, изучаемых в школьном курсе функциональных стилей, размечены словоизменительные типы и другие дополнительные морфологические признаки)

Савчук С. О, Сичинава Д. В. Обучающий корпус русского языка и его использование в преподавательской практике // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 317—334.

Корпус устной речи

Корпус устной речи (как самостоятельный корпус существует с 2007 г.) включает в себя расшифровки магнитофонных записей публичной и частной устной речи, а также транскрипты кинофильмов. Использована русская стандартная орфография (при этом приводятся наиболее частотные и общепринятые стяженные формы). Возможен лексический, морфологический и семантический поиск, а также формирование пользовательских подкорпусов, в том числе и по социологическим параметрам. Включены тексты самых разных жанров и типов, разного происхождения с точки зрения географии (Москва, Санкт-Петербург, Саратов, Ульяновск, Таганрог, Екатеринбург, Норильск, Воронеж, Новосибирск и мн. др.). Хронологический охват корпуса 1900-2000-е гг.

Гришина Е. А. Устная речь в Национальном корпусе русского языка // Национальный корпус русского языка: 2003—2005. М.: Индрик, 2005, 94—110.

Гришина Е. А., Савчук С. О. Корпус устных текстов в НКРЯ: состав и структура // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 129—149.

Акцентологический корпус

Акцентологический корпус (корпус истории русского ударения) (открылся в 2008 г.) включает тексты, несущие информацию об истории русского ударения. Во-первых, это все тексты поэтического корпуса, где в силлабо-тонических, а отчасти и в чисто тонических, текстах содержится информация (требующая дополнительной интерпретации) о месте ударения в слове. Во-вторых, это акцентуированные (в соответствии с реально звучащим ударением) записи устной речи, в том числе кинофильмов. Эти тексты доступны для поиска по месту ударения и просодической структуре слова. В-третьих, это подкорпус наивной поэзии. Наивная поэзия — это стихотворные тексты, написанные поэтами-любителями, не публикующимися в признанной литературной периодике. Эстетические достоинства этих текстов не важны для исследования русской акцентологии, но регулярность чередований ударных и безударных слогов в русском стихе дает бесценный материал для уяснения множества вопросов, связанных с расстановкой ударений в словах современными носителями русского языка.

Гришина Е. А. Корпус «История русского ударения» // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 150—174.

Мультимедийный корпус

Мультимедийный русский корпус (МУРКО) (открылся в декабре 2010 г.) включает фрагменты кинофильмов 1930—2000-х годов. Они представлены в виде параллельных видеоряда, аудиоряда и текстовой расшифровки звучащей речи, а также наблюдаемых в кадре жестов. В мультимедийном корпусе. Возможен поиск не только по произносимому тексту, но и по жестам (кивание головой, похлопывание по плечу и т. п.) и типу речевого действия (согласие, ирония и т. п.). В поисковой выдаче видеофрагменты доступны для просмотра и прослушивания.

Гришина Е. А. Мультимедийный русский корпус (МУРКО): проблемы аннотации // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. СПб.: Нестор-История, 2009, 175—214.

Источник

Национальный корпус русского языка

По техническим причинам 19 января года с 19:00 до 21:00 Корпус будет работать в ограниченном режиме.

Очень просим отправлять сообщения о замеченных вами сбоях в обычной работе корпуса на электронный адрес ruscorpora-bugs@yandex.ru с темой ‘Ошибка Корпуса’

В случае работы с сохранёнными в браузере ссылками или страницами на локальной машине необходимо будет зайти на главную страницу и выполнить поиск заново. Сохранённые ссылки/страницы будут работать после 21:00 19 января 2019 года.

По техническим причинам Корпус будет работать в ограниченном режиме до восстановления работоспособности основной системы.

Очень просим отправлять сообщения о замеченных вами сбоях в обычной работе корпуса на электронный адрес ruscorpora-bugs@yandex.ru с темой ‘Ошибка Корпуса’

В случае работы с сохранёнными в браузере ссылками или страницами на локальной машине необходимо будет зайти на главную страницу и выполнить поиск заново.

Внимание!

14 августа в течение дня в датацентре будут проходить регламентные работы. Поиск в старой версии будет недоступен.

Внимание! Корпус переходит на новую версию поиска!

Временно на сайте будут действовать две версии корпуса: старая и новая. В дaльнейшем Новая версия будет активно развиваться, а старая поддерживаться больше не будет. Просим вас активно пользоваться новой версией и сообщать нам о всех замеченных ошибках.

На этом сайте помещен корпус современного русского языка общим объёмом более 1 миллиарда слов. Корпус русского языка — это информационно-справочная система, основанная на собрании русских текстов в электронной форме.

Корпус предназначен для всех, кто интересуется самыми разными вопросами, связанными с русским языком: профессиональных лингвистов, преподавателей языка, школьников и студентов, иностранцев, изучающих русский язык.

Развитие подкорпусов НКРЯ (синтаксического и корпуса берестяных грамот) в 2021 году осуществляется при поддержке РФФИ, проекты № 19-07-00842 «Разработка корпуса русских текстов, снабженного морфосинтаксической, лексико-функциональной, анафорической и темпоральной разметкой» и № 19-18-00352 «Некнижная письменность Древней Руси XI-XV вв. (берестяные грамоты и эпиграфика): новые источники и методы исследования». Развитие новой технологической платформы корпуса и специализированных подкорпусов осуществляется при поддержке гранта Министерства науки и высшего образования № 075-15-2020-793 «Компьютерно-лингвистическая платформа нового поколения для цифровой документации русского языка: инфраструктура, ресурсы, научные исследования».

Корпус создан и поддерживается Институтом русского языка им. В. В. Виноградова РАН (ИРЯ РАН), Институтом проблем передачи информации им. А. А. Харкевича РАН (ИППИ РАН) и компанией «Яндекс».

Новости проекта

3 декабря 2021 года
В параллельном корпусе появилась возможность задать подкорпус в зависимости от страны языка или варианта литературной нормы (например, отобрать оригиналы или переводы на американском английском или латиноамериканском испанском).
В акцентологическом и поэтическом корпусах добавлена функция поиска слов в составе неоднословных лексических сочетаний: например, можно искать слово что в составе сложных союзов разве что, что касается и др. Эта функция доступна в поле «дополнительные признаки» лексико-грамматического поиска.
В поэтическом корпусе доступно задание подкорпуса по карте.
В основном корпусе доступен поиск по версиям, а также отображение дополнительных семантических признаков в информации о слове и поиск по ним.

4 ноября 2021 года
Дорогие родители и учителя!
Приглашаем детей 7–15 лет принять участие в олимпиаде «Что может корпус». Олимпиаду проводит Лаборатория чтения совместно со Школой лингвистики НИУ ВШЭ. Она состоится на сайте Верные слова vsrussian.com. Задания будут доступны с 1 декабря 2021 г. по 15 января 2022 г. Регистрироваться на сайте можно уже сейчас. Перед началом олимпиады советуем детям потренироваться работать в НКРЯ с помощью обучающих интерактивных заданий vsrussian.com/courses.

2 ноября 2021 года
Общий объем корпуса превысил 1 миллиард словоформ!
Параллельный корпус пополнен до 142 млн словоформ. Существенно расширены языковые пары со шведским, латышским, испанским, чешским и эстонским языками, пополнены также итальянско-русский и французско-русский корпус.
Синтаксический корпус пополнен до 1,35 млн словоформ. Как и в основном корпусе, в описании текста теперь показываются автор и источник, а структура предложений отображается также в версии с ударениями.
Русский Мультипарк пополнен до 229 тыс. словоформ. Добавлены новая постановка пьесы А.П. Чехова «Вишневый сад» и две постановки пьесы «Дядя Ваня».
В диалектном корпусе и корпусе берестяных грамот доступен показ всего текста из списка отобранных текстов. В меню дополнительных признаков в основном корпусе доступен поиск по оборотам.

2 октября 2021 года
Мультимедийный корпус пополнен до 5,4 млн словоупотреблений. Были добавлены большие коллекции текстов устной научной речи, теле- и радиопублицистики, повседневной диалогической речи. Значительно вырос раздел художественного чтения, в котором представлены записи русской прозы в исполнении мастеров художественного слова.
В поэтическом корпусе появился отбор подкорпуса по формуле строки. Он позволяет отбирать только строки, соответствующие заданным параметрам: формула вида «метр + количество стоп/иктов/слогов + клаузула», а также схема расположения иктов. Функция доступна в тестовом режиме, мы просим вас сообщать обо всех обнаруженных ошибках поиска на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

31 августа 2021 года
Корпус региональной и зарубежной прессы пополнен до 23 млн словоупотреблений. В него включены тексты 12 новых газет, как региональных, так и районных.
На странице с результатами выдачи стала доступна статистика по метапризнакам.
Поиск в корпусе по словарю оборотов теперь доступен в новой версии корпуса.
При сортировке выдачи по правому/левому контексту теперь можно просматривать случайную выборку из 1000 результатов поиска.

3 августа 2021 года
Основной корпус пополнен до 337 млн словоупотреблений. В пополнение входят: научные труды XVIII — начала XIX в.; художественная литература XIX — начала XX в., документы, научные работы, описания путешествий, подборки мемуаров, публицистика (в том числе из журналов «Сын отечества», «Московский наблюдатель»), детская хрестоматия К. Д. Ушинского; подборки текстов разных жанров XX в., включая лингвистические работы, дневники, периодику разных волн русской эмиграции; материалы современных СМИ и научной периодики; перевод Библии Российского библейского общества (2011).
В основном и газетном корпусах появилась возможность просмотра n-грамм со страницы выдачи результатов запроса. N-граммы показаны для исходного запроса с учетом отобранного подкорпуса. Для результатов выдачи больше 1 млн n-грамм показывается только процентное распределение n-грамм. Функция доступна в тестовом режиме, мы просим вас сообщать обо всех обнаруженных ошибках n-грамм на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

2 июля 2021 года
Поэтический корпус пополнен до 12,8 млн словоупотреблений. Добавлен показ метрической разметки строки в версии с ударениями. Стал возможен постраничный просмотр всего текста стихотворения из списка отобранных текстов.
Акцентологический корпус пополнен до 133 млн словоупотреблений.
В синтаксическом корпусе при показе структуры предложения отображаются лексические функции. Синтаксическая структура предложения теперь открывается во всплывающем окне.
В основном и газетном корпусах восстановлена возможность сортировки результатов выдачи по правому/левому контексту. Функция доступна в тестовом режиме, мы просим вас сообщать обо всех обнаруженных ошибках сортировки на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

1 июня 2021 года
Устный корпус пополнен до 13,4 млн словоупотреблений.
В синтаксическом корпусе добавлена версия с ударениями и поиск с ударениями.
Поддерживается выдача и выравнивание словосочетаний в формате kwic. Результаты поиска в формате kwic теперь скачиваются в Excel.
Обновлена общая статистика корпуса на сайте.

30 апреля 2021 года
В состав мультимедийного параллельного корпуса (англо-русского МультиПарка) включены две постановки пьесы А. П. Чехова «Дядя Ваня» (английская и русская).
В русском и англо-русском МультиПарках стал доступен отбор подкорпуса.
Во всех мультимедийных корпусах восстановлен показ расширенного контекста.
Синтаксический корпус пополнен до 1,25 млн словоупотреблений.
Также исправлен ряд небольших технических погрешностей во всех корпусах – такая работа ведется в постоянном режиме, мы благодарны любым сообщениям об ошибках. Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

2 апреля 2021 года
Газетный корпус пополнен текстами СМИ: «Газета.ру», «Коммерсант», «Лента.ру» и «Московский комсомолец» за 2019 год, РБК за 2015—2019 годы. Объём пополнения составил 27,3 млн словоупотреблений.
В состав мультимедийного параллельного корпуса (русского МультиПарка) включены две пьесы А. П. Чехова: три постановки пьесы «Вишневый сад» и одна постановка и две экранизации пьесы «Дядя Ваня». Доступен поиск по орфоэпической и вокалической структуре слова.

2 марта 2021 года
В многоязычном параллельном корпусе появилась возможность поиска по семантическим признакам и по полю «Перевод», а также информация о переводчике в метаинформации о тексте и возможность отбора текстов по переводчику. Созданы отдельные страницы отбора подкорпуса для двуязычных и многоязычного параллельных корпусов.
В выдаче корпуса доступны таблицы частот для параллельных и исторических корпусов.
Стал доступен расширенный контекст из формата KWIC.
Восстановлены ссылки на словари из описания слова на странице выдачи результатов поиска.

29 января 2021 года
Пополнен диалектный корпус, объём которого достиг 390 тыс. словоупотреблений со снятой омонимией. Добавлены тексты из различных регионов и диалектных зон: северные говоры (Архангельская область), среднерусские (Тверская область), южнорусские (Смоленская, Тамбовская области), говоры позднего формирования (Поволжье, Урал, Сибирь). Представлены разные фольклорные и бытовые жанры и тематики. 48 из этих новых текстов сопровождаются аудиозаписями, 3 — видеозаписями (они доступны через ссылку в метапризнаках документа). Работы по пополнению корпуса выполнены при поддержке проекта РФФИ № 18-012-00557.
В поэтическом корпусе стала доступна функция поиска по точному имени автора, расширены возможности отбора подкорпуса (теперь можно выбрать больше строфических вариантов и дополнительных признаков).

26 декабря 2020 года
Обновлена общая статистика корпуса на сайте.
Восстановлен показ количества найденных примеров по ссылке «Все примеры» на странице результатов поиска.
В ряде параллельных корпусов (китайский, бурятский, армянский) стал доступен поиск по полю «Перевод».
Также исправлен ряд небольших технических погрешностей во всех корпусах – такая работа ведется в постоянном режиме, мы благодарны любым сообщениям об ошибках.
Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

2 декабря 2020 года
Мультимедийный корпус пополнен до 5,1 млн словоупотреблений. Были добавлены большие коллекции текстов устной научной речи (доклады на конференциях, учебные и популярные лекции, теле- и радиопередачи), устной политической речи (интервью, пресс-конференции, выступления на митингах, собраниях и съездах, ток-шоу на радио и ТВ и мн. др.). Исправлен ряд ошибок поиска и выдачи.
В корпусе берестяных грамот создана отдельная страница отбора подкорпуса с возможностью построить подкорпус по городу, номеру грамоты, жанру, языку, материалу (при помощи этого параметра можно выбрать две свинцовые грамоты, традиционно рассматриваемые в одном ряду с берестяными) и датировке. Поисковую выдачу можно упорядочить по дате. Метаинформация каждой включенной в корпус грамоты связана гиперссылкой с соответствующей записью обновленной в 2018 г. базы данных gramoty.ru, что позволяет перейти от поисковой выдачи к изображению грамот и исследовательской литературе. Исправлен ряд ошибок поиска и выдачи в корпусе. Работа над корпусом берестяных грамот поддерживается проектом РНФ № 19–18–00352.
Улучшена выдача в Excel для всех корпусов.

1 ноября 2020 года
В составе старорусского корпуса стали доступны для поиска восточнославянские деловые тексты XIII—начала XVI вв. объёмом около 90 тыс. словоупотреблений из издания «Полоцкие грамоты» (2015) под редакцией А. Л. Хорошкевич. Работы выполнены по гранту РФФИ 18-512-18003. Тексты не снабжены грамматической разметкой. Планируется дальнейшее их включение в древнерусский корпус (тексты до 1400 г.) и в новый корпус «простой мовы» (тексты XV—начала XVI вв.).
В старорусском корпусе усовершенствован показ шрифтовых выделений в тексте.
В церковнославянском и старорусском корпусах поиск по трем видам орфографии теперь работает на всём массиве текстов.
Восстановлен показ расширенного контекста в параллельном корпусе.
Восстановлено сглаживание в графиках. Точки на графике со сглаживанием отражают точное значение в этот год.

1 октября 2020 года
Исправлен ряд ошибок, связанных с отбором и сбросом подкорпуса в диалектном, церковнославянском и параллельном корпусах.
Также исправлен ряд небольших технических погрешностей во всех корпусах – такая работа ведется в постоянном режиме, мы благодарны любым сообщениям об ошибках.
Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

2 сентября 2020 года
Пополнен параллельный корпус. Совокупный объём двуязычных пар вырос на четверть и достиг цифры 134 миллиона словоупотреблений.
Англо-русская языковая пара (здесь и далее – в обоих направлениях перевода) достигла 34 млн словоупотреблений; в корпус включена коллекция научно-популярных и публицистических текстов, а также переводы русской художественной литературы на английский. Немецко-русский корпус вырос втрое и составляет 29 млн словоупотреблений: сюда входит немецкая проза XIX-XX веков, причем многие произведения представлены в нескольких русских переводах; добавлены также новости немецких СМИ и русская художественная проза разных периодов. Шведско-русский корпус составляет 12.2 млн слов и пополнен современными художественными и публицистическими текстами. Объём французско-русского корпуса – 5,6 млн слов. Пополнены также параллельные корпуса балтийских языков – латышского до 3,4 млн слов, литовского до 0,7 млн. Появились ранее не представленные в корпусе тексты, переведенные с болгарского на русский – 1,6 млн словоупотреблений (классика и проза XX в.).
Команда НКРЯ благодарит за предоставленные выровненные тексты М. А. Куниловскую (англо-русская языковая пара) и Д. Н. Шаповаленко (немецко-русская).
Китайско-русский параллельный корпус сделан доступным для поиска, а также значительно расширен – примерно до 2,4 миллионов словоформ.
Пополнен древнерусский корпус. В него теперь входит 27 текстов объёмом 570 тыс. словоупотреблений. Добавлены памятники XI-XIII веков – жития, хожения, поучения, законодательный свод «Русская Правда» и другие тексты. В разметку ряда текстов внесены исправления.

31 июля 2020 года
Восстановлена работа графиков на всём временном диапазоне в основном, газетном и поэтическом корпусах.
Поэтический корпус пополнен до 12,4 млн словоупотреблений. В него включены стихотворения поэтов XX – начала XXI в. (Юрий Домбровский, Ян Сатуновский, Олег Охапкин, Сергей Стратановский, Елена Шварц, Алексей Цветков, Григорий Дашевский).
Русская классика в немецких переводах объединена с немецким корпусом в составе параллельного корпуса.
Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

2 июля 2020 года
Газетный корпус пополнен до 305 млн словоупотреблений. Расширен список изданий: добавлены тексты СМИ за 2014-2018 гг. («Газета.ру», «Коммерсант», «Лента.ру», «Московский комсомолец», «Новая газета»). В корпус региональной и зарубежной прессы включены 10 новых газет, как региональных, так и районных.
Основной корпус пополнен до 322 млн словоупотреблений. Среди новых поступлений — периодика XVIII—XXI веков, в том числе периодические издания русской эмиграции, современные литературные журналы, большая коллекция дневников и мемуаров, художественные, публицистические и научные книги разных периодов, современные тексты электронной коммуникации и электронных СМИ. Благодарим Центр изучения эго-документов «Прожито» за предоставленные материалы.
В основном и газетном корпусах теперь корректно показывается расширенный и нерасширенный контекст.
В старорусском корпусе добавлена возможность поиска по грамматическим признакам.
Появилась возможность скачивания результатов поиска в формате CSV.
Исправлен ряд ошибок, связанных с неправильным отбором подкорпуса. Работа с этим типом ошибок будет продолжаться.
Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

1 июня 2020 года
Акцентологический корпус пополнен до 132 млн словоупотреблений.
В акцентологическом корпусе теперь корректно показывается расширенный и нерасширенный контекст.
Исправлен ряд ошибок, возникающих при точном поиске: сложные запросы с использованием операторов “*”, “-”, а также запросы с кавычками, пробелами, запятыми и другими знаками препинания обрабатываются корректно.
Изменен формат показа запроса в верхней части страницы выдачи: теперь запрос показывается в том виде, как его интерпретирует поиск. Операторы выделены цветом.
В биграммах некоторое время назад стал доступен точный поиск без учета морфологии и пунктуации. Из результатов поиска теперь можно посмотреть примеры употребления биграммов по ссылке «Примеры».
Также исправлен ряд небольших технических погрешностей во всех корпусах – такая работа ведется в постоянном режиме, мы благодарны любым сообщениям об ошибках. Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

30 апреля 2020 года
В апреле в новой версии Корпуса произошли следующие изменения:
Исправлен ряд ошибок, возникающих при лексико-грамматическом поиске:
— сложные запросы с использованием операторов “*”, “|”, “-” теперь обрабатываются корректно
— запросы с кавычками, пробелами и операторами обрабатываются корректно
— запросы одновременно с грамматическими и семантическими признаками обрабатываются корректно
— поиск слов с е/ё производится корректно независимо от написания слова
В лексико-грамматическом поиске реализован поиск по нескольким последовательным словам с расстоянием между ними для случаев, когда одно из окон запроса пустое. Такие запросы теперь обрабатываются как словосочетания с любым словом на месте, соответствующем пустому окну.
В церковнославянском корпусе восстановлен поиск по сложным запросам в лексико-грамматическом поиске.
Обновлены данные об объёме параллельных корпусов.
Стало возможным копировать информацию из всплывающих окон с данными о слове или тексте.
Если вы заметите ошибки в лексико-грамматическом поиске – напишите, пожалуйста, об этом на адрес info@ruscorpora.ru или сообщите о проблеме нажав на кнопку «Сообщить об ошибке», это поможет нам наладить работу соответствующей функции.

3 апреля 2020 года
В марте в новой версии Корпуса были исправлены следующие ошибки:
В ряде параллельных корпусов восстановлен инфинитив в таблице грамматических признаков.
В поэтическом корпусе на странице выбора подкорпуса «сонет» убран из списка параметров «Жанр текста» и оставлен в списке параметров «Строфика».
При сбрасывании подкорпуса на одной из открытых станиц сайта поиск теперь производится по всему объёму корпуса на всех открытых страницах.
Ведутся работы по улучшению отображения нерасширенного и расширенного контекстов выдачи:
В устном корпусе сокращен размер нерасширенного контекста, по ссылке из выдачи открывается расширенный контекст.
В поэтическом корпусе по ссылке из выдачи открывается расширенный контекст (до 100 строк). В расширенном контексте подсвечиваются вхождения найденного. Исправлен формат выдачи метаданных. По ссылке из списка отобранных текстов на странице выбора подкорпуса открывается весь текст стихотворения (до 1000 строк).
Если вы заметите ошибки в формате выдачи расширенного и нерасширенного контекстов в устном и поэтическом корпусах – напишите, пожалуйста, об этом на адрес info@ruscorpora.ru или сообщите о проблеме нажав на кнопку «Сообщить об ошибке», это поможет нам наладить работу этих функций.

25 февраля 2020 года
В феврале в новой версии Корпуса были пополнены несколько корпусов:
Региональный корпус пополнен до 17 млн словоупотреблений.
Устный корпус пополнен до 13 млн словоупотреблений.
Синтаксический корпус пополнен до 1,1 млн словоупотреблений.
Восстановлены таблицы постраничных частот.
В устном корпусе восстановлен поиск искаженных форм.

27 января 2020 года
За декабрь-январь в новой версии Корпуса налажены следующие функции:
Восстановлена возможность поиска слов в зоне рифмовки в поэтическом корпусе.
Стал доступен экспорт результатов поиска в таблицу Excel в объёме 500 записей. Если вы заметите ошибки в таблице с результатами, сообщите, пожалуйста, о них при помощи кнопки «Сообщить об ошибке».
На главной странице сайта появилась ссылка на инструкцию по составлению сообщения об ошибке.

6 декабря 2019 года
Дорогие коллеги,
Начинаем вести регулярное (примерно раз в месяц) оповещение пользователей о том, что было исправлено в новой версии Корпуса за истекший период.
С момента временного отключения старой версии в сентябре в новой версии Корпуса налажены следующие функции:
Сортировка результатов выдачи:
Сортировка по дате – восстановлен прямой и обратный хронологический порядок сортировки выдачи (упорядочивание выдачи в настройках).
Исправлена еще одна ошибка в настройках сортировки выдачи – результат выдачи больше не пропадает при сортировке по дате и по другим признакам.
Восстановлена возможность отбора подкорпуса по дате создания и дате публикации.
Исправлены ошибки, которые возникали при вводе запроса в окно поиска:
Знаки препинания в запросе в окне точного поиска теперь не влияют на результат поиска.
Лишний пробел в начале или в конце запроса в окне точного и лексико-грамматического поиска теперь не влияет на результат поиска.
Стало возможным просматривать до 500 страниц выдачи.
Восстановлена возможность одновременного доступа к корпусу с многих компьютеров (актуальная, например, при работе группы студентов или школьников).
Расстояние между лексемами:
Восстановлена возможность задавать сложный поиск из нескольких лексем с расстоянием между лексемами в окне лексико-грамматического поиска.
Исправлен некорректный показ условий поиска в начале выдачи лексико-грамматического поиска с расстоянием между лексемами и в начале выдачи точного поиска при поиске словосочетания.
Если вы заметите, что что-то из перечисленного не работает или восстановлено не полностью – напишите, пожалуйста, об этом на адрес info@ruscorpora.ru или сообщите о проблеме нажав на кнопку «Сообщить об ошибке» на странице с неправильными результатами, мы обязательно постараемся это исправить.

3 апреля 2018 года
Объём латышско-русского и русско-латышского параллельного корпуса вырос более чем втрое и достиг 2,5 млн словоупотреблений. Объём бурятско-русско и русско-бурятского параллельного корпуса вырос более чем вдвое и достиг 270 тыс. словоупотреблений.

12 мая 2017 года
Пополнение параллельных корпусов, совокупный объём которых достиг 76,8 млн словоупотреблений.
Открыт новый параллельный шведско-русский корпус объёмом 400 тысяч словоупотреблений с морфологической разметкой.
Испанско-русский корпус преодолел пилотную стадию, вырос более чем вчетверо и насчитывает 1,3 млн словоупотреблений. В него включены тексты современных испаноязычных СМИ в русском переводе, а также художественная литература XIX—XX веков.
Существенно вырос объём и китайско-русского параллельного корпуса, насчитывающего теперь 180 тысяч слов.
Пополнились также французский (до 3,9 млн), белорусский (до 9,4 млн), бурятский (до 120 тысяч) и другие параллельные корпуса.

21 марта 2017 года
Появилась возможность задать в поэтическом корпусе подкорпус по месту написания стихотворения, указанному в авторской помете, с помощью интерактивной карты.

25 февраля 2017 года
Школа лингвистики НИУ ВШЭ и образовательный сайт «Верные слова» организуют онлайн-олимпиаду «Что может корпус». Олимпиада проходит с 20 марта по 20 апреля в трёх возрастных группах: дети 7—10 лет, 10—13 лет и 13—16 лет. Цель олимпиады — показать детям, родителям и учителям, какие сведения о языке и культуре они могут получить в Национальном корпусе русского языка и как эффективно работать с этим ресурсом дома и на уроках.

14 февраля 2017 года
Пополнены акцентологический корпус (до 31,7 млн словоупотреблений) и устный корпус (до 12 млн).
Пополнение в составе мультимедийного корпуса (более 4,6 млн словоупотреблений) и Мультимедийного параллельного корпуса, который теперь включает в себя 6 постановок и 3 экранизации пьесы Н. В. Гоголя «Ревизор».

13 февраля 2017 года
Пополнение основного корпуса. Объём корпуса вырос на 18 млн словоупотреблений и достиг 283 млн. Объём текстов в старой орфографии вырос вдвое (до 3,7 млн слов). В корпус вошли документы XVIII века, тексты первого русского научного журнала «Ежемесячные сочинения», мемуары XIX — XX в., дневники начала XX в., художественная литература разных периодов, современная детская, детективная, научная, философская проза и многие другие тексты. Впервые за долгое время пополнен корпус со снятой омонимией; в него включено 24 текста электронной коммуникации. Исправлена и унифицирована разметка корпуса на разных уровнях.

1 февраля 2017 года
Вышел первый сборник материалов к «Корпусной грамматике русского языка» — синхронного описания русской грамматики, опирающегося на данные Корпуса (проект rusgram.ru). Материалы к корпусной грамматике русского языка. Глагол. Часть 1. СПб.: Нестор-История, 2016.
Авторы: Н. Р. Добрушина, А. Б. Летучий, Е. В. Падучева, С. С. Сай.
Ответственный редактор: В. А. Плунгян.
Научные редакторы: Е. В. Рахилина, Е. Р. Добрушина, Н. М. Стойнова.

30 сентября 2016 года
В составе параллельного латышско-русского корпуса доступна латышская морфологическая разметка (с элементами семантики) и поиск по ней. Объём корпуса достиг 727 тыс. словоупотреблений.

15 августа 2016 года
Пополнение параллельных корпусов: их совокупный объём составляет 72,2 млн слов. Среди пополненных параллельных корпусов: английский (текущий объём 24,6 млн), немецкий (9,1 млн), белорусский (8,1 млн), французский (2,8 млн), латышский (730 тыс.), испанский (320 тыс.), бурятский (75 тыс.)

13 августа 2016 года
Открыт для доступа пилотный параллельный русско-китайский и китайско-русский корпус объёмом 55 тысяч словоупотреблений, включающий 5 текстов. Китайские тексты снабжены семантической разметкой (по китайско-английскому словарю), разметкой грамматических показателей и фонетической транскрипцией иероглифов. Фонетическая и семантическая неоднозначность не снята.

21 июля 2016 года
Значительно обновлен раздел «Другие корпуса»: появились разделы со ссылками на веб-корпуса русского языка, синтаксические и диалектные корпусные ресурсы.

13 мая 2016 года
В поэтическом корпусе добавлена возможность выбирать подкорпус по обозначенному автором месту написания стихотворения. Кроме того, можно формировать подкорпус по унифицированным современным названиям географических пунктов (ряд пунктов обозначается в текстах несколькими способами — СПб., Петроград, Ленинград и др.).

15 апреля 2016 года
Выложена новая версия глубоко аннотированного корпуса русских текстов СинТагРус объёмом более 1 млн словоупотреблений. Добавлена возможность поиска лексических функций.

23 марта 2016 года
Не стало Елены Александровны Гришиной – главной вдохновительницы и создательницы мультимедийных и устных корпусов в составе Национального корпуса русского языка, замечательной исследовательницы русской устной речи и жестикуляции. Светлая ей память.

15 января 2016 года
В параллельный корпус добавлен пилотный параллельный бурятско-русский текст — роман «Путь праведный» Б. Санжина и Б. Дандарона объёмом 40 тыс. словоупотреблений. Текст снабжён морфологической разметкой (аналогичной принятой в бурятском корпусе) и формой грамматического поиска.

30 декабря 2015 года
Пополнение поэтического корпуса. Добавлены тексты поэтов второй половины XX в.: Сергея Петрова, Виктора Кривулина, Михаила Айзенберга, Ивана Жданова, Александра Еременко, Сергея Гандлевского. Общий объём корпуса — 11 млн слов.

24 декабря 2015 года
Масштабное пополнение основного корпуса — его объём вырос на 36 млн словоупотреблений и превысил 265 млн. Добавлено 25 тысяч новых текстов с неснятой омонимией. Среди новых поступлений — периодика XVIII—XXI веков, художественные, мемуарные, публицистические и научные книги разных периодов, современные тексты электронной коммуникации и электронных СМИ. Доступен для поиска подкорпус текстов в дореформенной орфографии (XVIII—середина XX в.) объёмом 1.9 млн словоупотреблений (сюда входят, в частности, журналы XVIII века, письма Пушкина, романы Набокова). Уточнены метаразметка и текст ранее добавленных документов, исправлено несколько тысяч ошибок и опечаток разного рода.

24 декабря 2015 года
Пополнен газетный корпус (корпус СМИ XXI века). Объём корпуса вырос почти на треть и составляет 228 млн словоупотреблений. В его составе теперь доступны для поиска тексты СМИ 2011—2014 годов, в том числе материалы региональных выпусков центральных газет.

23 декабря 2015 года
Пополнение параллельного корпуса. Размер английского корпуса вырос с 20,2 до 24,6 млн словоупотреблений; он пополнен переводами русской классики и представительным собранием сочинений В. В. Набокова как русского, так и американского периода, в том числе в авторских переводах. Объём белорусского корпуса увеличился вдвое — с 3.4 до 6.8 млн словоупотреблений. Включены переводы русской и белорусской классики и приключенческой литературы.
Итальянский корпус преодолел пилотную стадию (0,7 млн) и насчитывает 4 млн словоупотреблений. Он включает художественные, философские и публицистические тексты разных периодов.
Открыт новый эстонский корпус объёмом 400 тыс. словоупотреблений (художественные тексты). Тексты снабжены морфологической разметкой. Пополнен также ряд других параллельных корпусов.
Для каждого двуязычного подкорпуса теперь доступна форма грамматического запроса, учитывающая специфику грамматических помет для соответствующего языка.

22 декабря 2015 года
Пополнен старорусский корпус. Его объём вырос более чем вдвое — до 7 млн словоупотреблений. Добавлены новые тексты XIV–XVII веков: летописи, повести, деловые документы. Тексты доступны без морфологической разметки, при поиске слов и словосочетаний можно использовать символ *.

11 ноября 2015 года
Пополнен древнерусский корпус. Для поиска доступно ещё три памятника: «Житие Андрея Юродивого», «Повесть об Акире Премудром» и «Вопрошание Кириково». Всего в корпусе теперь более полумиллиона слов. В древнерусском корпусе доступен поиск по семантической разметке многозначных слов и омонимов (возможно отдельно искать, например, миръ «вселенная» и миръ «покой»).

25 сентября 2015 года
Открыт подкорпус «Русская классика в немецких переводах», составленный при помощи Фонда поддержки Интернет. Объём подкорпуса 5 млн словоупотреблений, хронологический охват оригинальных текстов — от Пушкина до Горького, немецких переводов — от 1860-х до 1980-х годов.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *