Морфологический корпус что это

Морфология (биология)

Морфоло́гия (в биологии) изучает как внешнее строение (форму, структуру, цвет, образцы) организма, таксона или его составных частей, так и внутреннее строение живого организма (например, морфология человека). Подразделяется на наружную морфологию (или эйдономию) и внутреннюю морфологию (или анатомию). Морфология отличается от физиологии тем, что последняя изучает в первую очередь функционирование организма.

Фактически, понятие морфологии ввёл немецкий поэт и естествоиспытатель И. В. Гёте, определив её как «учение о форме органических тел, её образовании и преобразовании».

Также применяется термин «общая морфология», который указывает на известные или главные отличительные стороны организма или морфологии таксона. Описание общей морфологии организма могло бы включать, к примеру, его форму, главные цвета, основную расцветку и т. д., но не мелкие детали.

Большинство таксонов отличаются от других по морфологическим признакам. Как правило, близкие таксоны имеют гораздо меньше отличий, чем более удалённые, связанные с ними, но есть и исключения из этого. Микровиды — это виды, которые выглядят похоже, или даже внешне одинаковы, но размножаются в изоляции. И наоборот, иногда не связанные таксоны оказываются одинаковыми по внешнему виду путём конвергентной эволюции или даже путём мимикрии.

Ещё одна сложность, возникающая, когда полагаются на морфологические данные, может состоять в том, что при анализе ДНК двух разных видов фактически может оказаться, что это один вид. Или, наоборот, при анализе двух морфологически идентичных видов может оказаться, что их ДНК существенно различаются.

См. также

Морфологический корпус что это. Смотреть фото Морфологический корпус что это. Смотреть картинку Морфологический корпус что это. Картинка про Морфологический корпус что это. Фото Морфологический корпус что это

Полезное

Смотреть что такое «Морфология (биология)» в других словарях:

Морфология — В Викисловаре есть статья «морфология» Морфология (от греч. μορφή «форма» и … Википедия

Биология русского народа — Биология русского народа комплекс наследственно определяемых признаков, характерных для представителей русского народа. По большинству антропологических и генетических признаков русские занимают центральное положение среди народов Европы[1] … Википедия

БИОЛОГИЯ — БИОЛОГИЯ. Содержание: I. История биологии. 424 Витализм и машинизм. Возникновение эмпирических наук в XVI XVIII вв. Возникновение и развитие эволюционной теории. Развитие физиологии в XIX в. Развитие клеточного учения. Итоги XIX века … Большая медицинская энциклопедия

БИОЛОГИЯ — (от греч. bios – жизнь и logos – учение) наука о жизни, основанная на данных психологии, ботаники, зоологии, антропологии. Формы жизни и их структура изучаются морфологией, которая как органология, анатомия и гистология ставит себе целью… … Философская энциклопедия

МОРФОЛОГИЯ РАСТЕНИЙ — наука о закономерностях строения и процессах формообразования растений. В широком смысле М. р. изучает формы на всех уровнях от целого растения до клеточных органоидов и макромолекул, в узком только макроструктуры. В этом случае из неё выделяются … Биологический энциклопедический словарь

Морфология человека — раздел физической антропологии, подразделяется на соматологию и мерологию. Соматология изучает закономерности индивидуальной изменчивости человеческого организма в целом, половой диморфизм в строении тела, возрастные изменения размеров и… … Википедия

морфология — строение, форма Словарь русских синонимов. морфология сущ., кол во синонимов: 6 • биология (73) • … Словарь синонимов

биология — сущ., кол во синонимов: 73 • агробиология (1) • актинобиология (1) • альгология (3) … Словарь синонимов

Источник

«Он видел их семью своими глазами»

Можешь выбрать подходящую к заголовку поста картинку?

Морфологический корпус что это. Смотреть фото Морфологический корпус что это. Смотреть картинку Морфологический корпус что это. Картинка про Морфологический корпус что это. Фото Морфологический корпус что это

Тогда научи робота! Он тоже хочет.

Команда проекта Открытый корпус просит хабралюдей помочь разметить свободно доступный (CC-BY-SA) корпус текстов. Под катом мы расскажем о том, что такое корпус, зачем он нужен, как обстоят дела с корпусами в России и за рубежом, почему так плохо и какой у нас план.

Корпус текстов — это лингвистическая база данных, включающая тексты, разные метаданные, относящиеся к этим текстам, а также грамматические разборы входящих в них слов и предложений. Метаданные и грамматические разборы — это разметка. Она бывает разных уровней: морфологическая, синтаксическая, семантическая, и т.д. Без размеченных корпусов текстов трудно (или даже невозможно) разрабатывать софт для анализа текста. Для программ, использующих машинное обучение, из размеченного корпуса берётся обучающая выборка. В остальных случаях корпус нужен для тестирования.

Размеченные корпуса существуют для многих языков мира. Чаще всего корпус текстов доступен через специализированные поисковые машины, позволяющие выбирать примеры употребления различных языковых конструкций. Эти сервисы предназначены для лингвистов. Скачивать корпуса целиком оттуда нельзя, т.к. входящие в них тексты чаще всего защищены копирайтом. Для разработки лингвистического софта нужны корпуса, которые можно скачивать целиком, вместе с разметкой. На Хабре уже писали об этом здесь (про POS-tagging) и здесь (про синтаксис).

Корпуса текстов в России и за рубежом

Здесь у русского языка всё не так хорошо, как, например, у английского, для которого есть несколько разных доступных и вручную размеченных корпусов текстов. Это не удивительно как минимум потому, что на английском говорит больше людей, чем на русском. Удивительно, что даже для венгерского языка, на котором говорят в 10 раз меньше людей, чем на русском, есть доступный и размеченный корпус размером больше 1 млн. слов.

Морфологический корпус что это. Смотреть фото Морфологический корпус что это. Смотреть картинку Морфологический корпус что это. Картинка про Морфологический корпус что это. Фото Морфологический корпус что это

А что у нас?

Национальный корпус русского языка (НКРЯ), создаваемый совместными усилиями многих организаций (включая Институт русского языка РАН), доступен только в режиме поиска по корпусу. Из 6 млн. слов, размеченных вручную, можно скачать только выборку размером 180 тысяч слов, в которой предложения идут с нарушенным порядком. Если вы хотите сделать морфологический анализатор со снятием неоднозначности, то вам придётся либо воспользоваться этими 180 тысячами, которых чаще всего будет недостаточно для машинного обучения, либо попробовать какой-нибудь другой язык, например, польский. Такое положение дел, очевидно, не способствует развитию компьютерной лингвистики в нашей стране.

Для того, чтобы русский язык не попадал в категорию «under-resourced languages», мы решили сделать новый Открытый корпус русского языка, учитывая опыт создания НКРЯ и других проектов. Поскольку Национальный корпус предоставляет хороший интерфейс поиска, и, таким образом, решает задачи связанные с поиском примеров употребления различных слов и конструкций, мы решили сфокусироваться на создании свободно доступного корпуса для разработчиков: его можно скачать и использовать для машинного обучения или для тестирования. Поиска по нему нет, но это не страшно, т.к. он есть в НКРЯ. Чтобы вопрос копирайта не мешал распространению в корпус включаются только тексты либо доступные на условиях лицензии Creative Commons, либо находящиеся в общественном достоянии. Разметка создаётся на условиях CC-BY-SA.

На предыдущем этапе нашей работы (в 2011 году) мы собрали корпус в 700 тыс. слов и расставили вручную границы слов и предложений. Эти данные уже можно скачивать. Сейчас нашей основной целью является снятие неоднозначности в морфологической разметке. Эту работу тоже нужно делать вручную, её много, и мы просим вас нам помочь.

Вспомним школу или что такое морфологическая разметка

Морфологическая разметка (tagging, part-of-speech tagging) — это сопоставление каждому слову в тексте его словарной формы («большого» — «БОЛЬШОЙ», «столу» — «СТОЛ», «читал» — «ЧИТАТЬ») и указание грамматических характеристик слова: род, число, падеж, время и др. Первичная морфологическая разметка делается по словарю автоматически. Мы используем словарь проекта АОТ, доработанный для наших целей. Для большинства слов разметка получается неоднозначной, т. е. для многих слов в тексте в словаре находится несколько гипотез. Чаще всего только одна из гипотез является правильной. Бывают и неоднозначные предложения, имеющие несколько вариантов разбора. Например:

«Эти типы стали есть в цехе»
СТАЛЬ (существительное) или СТАТЬ (глагол)?

«Он видел их семью своими глазами»
СЕМЬЯ (существительное) или СЕМЬ (числительное)?

Такие примеры встречаются редко. Морфологический разбор становится однозначным в контексте предложения: прочитав его целиком, мы можем определить, в какой именно форме стоит то или иное слово. Например, для предложения «Мама мыла раму» в конечном итоге должен быть построен вот такой разбор:

Морфологический корпус что это. Смотреть фото Морфологический корпус что это. Смотреть картинку Морфологический корпус что это. Картинка про Морфологический корпус что это. Фото Морфологический корпус что это

Проведя морфологический анализ при помощи словаря, только одно из слов мы сможем разобрать однозначно. Для слов «МЫЛА» и «РАМУ» мы получим четыре и две гипотезы соответственно:

Морфологический корпус что это. Смотреть фото Морфологический корпус что это. Смотреть картинку Морфологический корпус что это. Картинка про Морфологический корпус что это. Фото Морфологический корпус что это

Снять морфологическую неоднозначность — это значит выбрать одну правильную гипотезу для каждого слова. Для носителей языка это, чаще всего, не представляет трудности.

У нас есть план!

Чтобы упростить задачу снятия неоднозначности, мы разделили её на простые вопросы, которые вместе представляют собой дерево решений для каждого примера неоднозначности. В случае со словом «МЫЛА», первый вопрос будет «Существительное или глагол?». Для предложения «Мама мыла раму» снятие неоднозначности на этом закончится, т. к. это глагол, а глагольная гипотеза только одна. В других случаях нужно будет ответить ещё на один или, в худшем случае, ещё на два вопроса.

Морфологический корпус что это. Смотреть фото Морфологический корпус что это. Смотреть картинку Морфологический корпус что это. Картинка про Морфологический корпус что это. Фото Морфологический корпус что это

Однотипные вопросы мы объединили в группы. Участник может выбрать тип вопросов и отвечать только на вопросы этого типа про случайно выбранные слова в их контекстах, сфокусировавшись, таким образом, на одной задаче. Так размечать быстрее, т.к. не тратится время на переключение между разными типами вопросов.

Чтобы разметка была достаточно точной, каждый вопрос задаётся трём разным людям, и только если ответы полностью совпадают, и никто не написал комментариев, они используются без перепроверки. Если один ответ отличается от двух других, или если оставлен комментарий, то этот пример проверяет модератор.

Сколько у нас этого плана?

По грубым подсчётам, чтобы снять неоднозначность в собранной на настоящий момент коллекции текстов, с учётом того, что вопросы задаются трижды, нужно ответить на 4 миллиона 3.75 миллиона вопросов (на 250 тысяч вопросов ответы уже получены). Если в этом будут участвовать 100 человек, то получится по 40 тысяч вопросов на человека. 40 тысяч — это много, а человеческие жертвы нам не нужны. Если 1000 человек, то по 4 тысячи. Это несколько часов работы. Если 10000, то по 400 вопросов, что занимает 20-30 минут.

Для участия в проекте можно использовать приступы прокрастинации, время по дороге на работу (интерфейс разметки работает на смартфонах) и другие вынужденные паузы в полезной деятельности. В этом смысле разметка корпуса похожа на пасьянс, только полезнее. Поскольку никаких особенных лингвистических знаний не требуется, то каждый дочитавший до этого места может принять участие, и мы вместе создадим морфологический слой разметки корпуса. На этой странице находится пошаговая инструкция по разметке.

Недавно мы начали собирать и публиковать подмножество предложений, в которых вся неоднозначность уже снята. Этот подкорпус пока очень маленький — около 9500 слов. По мере того, как идёт разметка, он становится больше, и, в дальнейшем, эти данные можно будет использовать для создания свободно доступных морфологических анализаторов, умеющих снимать неоднозначность.

Открытый корпус. Не стесняйтесь снимать неоднозначность!

Источник

Морфологический корпус

Центральный кампус – структурная часть УНПК «Международный университет Кыргызстана», являющаяся базовым подразделением академического консорциума, использует в своей деятельности современные модели развития высшего образования с применением инновационных техник обучения.

Учебные программы учреждений Центрального кампуса подготовлены с учетом опыта ведущих университетов мира.

В настоящее время, на базе учреждений кампуса, реализуется ряд образовательных и научных проектов с партнерскими ВУЗами СНГ, США, Южной Азии и Азиатско-Тихоокеанского региона.

Выпускники целенаправленно ориентированы на построение дальнейшей карьеры на трудовых рынках СНГ, Европы и Азиатского региона.

В учебном процессе активно используются дистанционные, мультимедийные, анимационные, видеотехники обучения.

В Центральном кампусе реализуются программы академической мобильности с Вузами партнерами из России, Казахстана.

Программы :

Центральный кампус УНПК «МУК» имеет очень удобное расположение, находится в западной части города и развитую инфраструктуру.

Материальная база Центрального кампуса — одна из лучших в стране. Просторные аудитории оснащены мультимедийным оборудованием, новыми компьютерами со всем необходимым программным обеспечением. На территории кампуса действует Молодежный центр, основанный в 2018 году. Со дня своего основания Молодежный центр проводит постоянную работу, целью которой является развитие творческих способностей у студенческой молодежи, организация досуга, привлечение студентов к активной общественной и культурной жизни университета, создание условий для общения учащихся и сотрудников университета в сфере досуга. В структуру Молодежного центра входят: научная библиотека, где на первом этаже расположены – отдел абонемента и читальный зал, на втором этаже расположены – отдел электронных ресурсов, красный конференц зал, синий конференц зал, студенческий совет УНПК «МУК», ENACTUS.

Также на территории кампуса действует Спортивный комплекс, включающий в себя большой зал для занятий всеми видами спорта, тренажёрный зал для сотрудников и студентов университета.

Восточный кампус – это структурная часть УНПК «Международный университет Кыргызстана», является важным подразделением академического консорциума, где реализуется ряд образовательных программ международного направления, а также действует несколько научных подразделений и колледж «Таалим».

Программы:

Программы:

Восточный кампус УНПК «МУК» находится в восточной части города и имеет очень удобное расположение и развитую инфраструктуру.

Действующий с 2003 года медицинский факультет университета (Международная школа медицины) за время свой деятельности накопил значительный опыт в области развития медицинского образования и науки, основанный на традициях академической медицины советской школы и новых технологиях обучения и исследовательской деятельности.

В настоящее время Международная школа медицины занимает Восточный медицинский кампус академического консорциума «Международный университет Кыргызстана», являясь его структурным подразделением.

Приоритетом работы школы является создание профессиональной инновационной среды способствующей максимальному вовлечению сотрудников и студентов в процесс обучения и научной деятельности.

На базе Международной школы медицины реализуется программа подготовки врачебных кадров «Лечебное дело» (“General medicine”), ведется научная работа по широкому кругу направлений медицины. В собственных клиниках и аффилиированных госпиталях предоставляются медицинские услуги населению республики.

Факультет действует в соответствии с выданной Министерством образования и науки Кыргызской Республики лицензией, где обучаются студенты из более, чем двенадцати стран, помимо студентов из Кыргызстана.

Действующая программа обучения разработана в соответствии со стандартами медицинского образования принятыми в странах Европы и Британского Содружества.

Студенческий кампус МШМ УНПК «МУК»

Студенческий кампус Международной школы медицины УНПК «МУК» имеет самую современную инфраструктуру и условия, необходимые для проживания студентов. Общежитие МШМ располагает 204 просторными и комфортабельными комнатами, которые оборудованы ванными комнатами с холодной и горячей водой, двуярусными кроватями, учебными столами, стульями, шкафами, детекторами дыма, а также студенты обеспечены 24 часовым электропитанием, бесплатным Wi-Fi и центральной системой отопления. Общежитие располагает собственной столовой, где имеется 3-х разовое горячее питание.

Общежитие имеет пункт неотложной медицинской помощи с постоянным врачом, тренажерный зал, читальный зал, где студенты могут спокойно сосредоточиться на учебе, полностью оборудованный и современный конференц-зал для встреч и дискуссий и площадки для игр крикет, мини футбол, волейбол и теннис.

Морфологический корпус МШМ УНПК «МУК»

Основной целью создания Научно-исследовательского учебного морфологического корпуса Международной Школы Медицины является интеграция учебного и научного процесса, а также теоретико-методологическое и практико-организационное обеспечение процесса обучения и повышения качества образовательных услуг на дисциплинах морфологического профиля на основе компетентностного подхода.

В структуру Морфологического корпуса входит:

Кафедра фундаментальных дисциплин
Кафедра анатомии
Кафедра патологии
Кафедра химико-биологических дисциплин
Анатомический музей
Демонстрационный патанатомический зал
Симуляционно-тренировочный центр
Электронная библиотека с читальным залом
Научно-практические лаборатории

Университетская клиника УНПК «МУК»

Университетская клиника Международной школы медицины Некоммерческого образовательного учреждения Учебно-научно-производственного комплекса «Международный университет Кыргызстана» (МШМ «МУК») имеет в своем составе следующие подразделения:

Благодаря Университетской клинике МШМ «МУК» студенты имеют доступ к осмотру пациентов и возможность работать с ними, диагностике заболеваний и лечению больных, проведению медицинских манипуляций, послеоперационных перевязок и хирургической обработке ран, проведению новокаиновых блокад, внутривенных и внутримышечных инъекций, катетеризации мочевого пузыря и другим процедурам.

На базе подразделений Университетской клиники студенты принимают участие в обходах, консилиумах и в обсуждениях состояний больных на клинических конференциях, круглых столах с участием профессорско-преподавательского состава МШМ «МУК».

Помимо этого, университетскую клинику посещают высококвалифицированные специалисты-медики из стран СНГ, Индии и Пакистана, где они проводят демонстрационные операции (мастер-класс) в целях обмена опытом и проведения консультаций пациентов.

На базе подразделений клиники имеются такие отделения, как амбулаторно-консультативное, диагностическое и лечебно-реабилитационное, терапия, кардиология, детское отделение и дневной стационар, где студенты проходят производственную практику.

Кыргызская Республика, 720007,
г. Бишкек, ул. Л. Толстого, 17А/1

ОКПО 29763954
ИНН 02612201610272

Кыргыз Республикасы, 720007,
Бишкек шаары, Л.Толстой көчөсү, 17А/1

Тел.: +996 (312) 64-23-37, 64-11-63
Факс: +996 (312) 64-23-28

The Kyrgyz Republic, 720007,
Bishkek, 17A/1, St. Tolstoy

Источник

Корпусы и корпусная лингвистика. Основные понятия

Корпусная лингвистика – раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с использованием компьютерных технологий. Под названием лингвистический, или языковой, корпус текстов понимается большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач.

Введение: корпусы и корпусная лингвистика

Корпусная лингвистика – раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с использованием компьютерных технологий. Под названием лингвистический, или языковой, корпус текстов понимается большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. В понятие «корпус текстов» входит также система управления текстовыми и лингвистическими данными, которую в последнее время чаще всего называют корпусным менеджером (или корпус-менеджером) (англ. corpus manager). Это специализированная поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме.

Целесообразность создания и смысл использования корпусов определяется следующими предпосылками:

Можно сказать, что все современные лингвистические исследования и работы по составлению словарей и грамматик так или иначе ориентированы на использование представительных корпусов текстов. Развитие современных интеллектуальных программных систем, предназначенных для обработки текстов на естественном языке, также требует большой экспериментальной лингвистической базы. Спрос на корпусные данные совпал с появлением соответствующих технических возможностей.

В первой половине 90-х гг. корпусная лингвистика окончательно сформировалась как отдельный раздел науки о языке. При этом она тесно взаимодействует с компьютерной лингвистикой, используя ее достижения и в свою очередь обогащая ее.

Поиск в корпусе данных позволяет по любому слову построить конкорданс – список всех употреблений данного слова в контексте со ссылками на источник. Корпусы могут использоваться для получения разнообразных справок и статистических данных о языковых и речевых единицах. В частности, на основе корпусов можно получить данные о частоте словоформ, лексем, грамматических категорий, проследить изменение частот и контекстов в различные периоды времени, получить данные о совместной встречаемости лексических единиц и т.д. Представительный массив языковых данных за определенный период позволяет изучать динамику процессов изменения лексического состава языка, проводить анализ лексико-грамматических характеристик в разных жанрах и у разных авторов, и т.д. Корпусы призваны служить также источником и инструментом многоаспектных лексикографических работ по подготовке разнообразных исторических и современных словарей. Данные корпусов могут быть использованы для построения и уточнения грамматик и в целях обучения языку.

Можно сказать, что корпусная лингвистика имеет своим предметом теоретические основы и практические механизмы создания и использования представительных массивов языковых данных, предназначенных для лингвистических исследований в интересах широкого круга пользователей.

Репрезентативность

Задача создателей корпуса – собрать как можно большее количество текстов, относящихся к тому подмножеству языка, для изучения которого корпус создается. Но главное не только и не столько в количестве языкового материала, сколько в его пропорциональности. Можно сказать, что корпус – это уменьшенная модель языка или подъязыка. Важнейшее понятие корпусной лингвистики – репрезентативность. Под репрезентативностью понимается необходимо-достаточное и пропорциональное представление в корпусе текстов различных периодов, жанров, стилей, авторов и т.п. Имеются разные подходы к определению репрезентативности, можно сказать, что применительно к общеязыковому (национальному) корпусу это понятие невозможно рассчитать и описать строго математически, однако к этому можно и нужно стремиться, как на этапе проектирования корпуса, так и на этапе его эксплуатации.

Размер корпуса

Термин «корпус» обычно обозначает собрание текстов конечного фиксированного размера. С течением времени объем и состав корпуса может меняться, однако эти изменения должны или не менять его репрезентативность, или менять обоснованно. Объем первых корпусов составлял 1 млн словоупотреблений (Брауновский корпус, Уппсальский корпус русского языка). В настоящее время считается, что объем общеязыкового корпуса должен быть не меньше 100 млн словоупотреблений.

Разметка

Для решения различных лингвистических задач мало лишь наличия массива текстов. Требуется также, чтобы тексты содержали в себе явным образом разного рода дополнительную лингвистическую и экстралингвистическую информацию. Так в корпусной лингвистике возникла идея размечен­ного корпуса. Разметка (tagging, annotation) заключается в приписывании текстам и их компонентам специальных меток (tag, tags): внешних, экстралингвистических (сведения об авторе и сведения о тексте: автор, название, год и место издания, жанр, тематика; сведения об авторе могут включать не только его имя, но также возраст, пол, годы жизни и многое другое. Это кодирование информации имеет название метаразметка), структурных (глава, абзац, предложение, словоформа) и собственно лингвистических, описывающих лексические, грамматические и прочие характеристики элементов текста. Набор этих метаданных во многом определяет возможности, предоставляемые корпусами исследователям. При выборе этих данных необходимо руководствоваться целями исследования и потребностями лингвистов, а также возможностями по внесению в текст тех или иных дополнительных признаков. Среди лингвистических типов разметки выделяются:

Существуют и другие типы разметки.

Технология создания корпусов

Технологический процесс создания корпуса можно представить в виде следующих шагов или этапов.

1. Определение перечня источников.

2. Оцифровка текстов (преобразование в компьютерную форму). Следует сказать, что насколько раньше задача ввода текстов в компьютер была тяжела и трудоемка, настолько сегодня эта проблема решается довольно легко, по крайней мере, что касается современных текстов и в современной орфографии. Эта легкость базируется на успехах в оптическом вводе (сканирование) и распознавании текстовой информации и на глобальной компьютеризации современной жизни, в том числе и в областях, связанных с обработкой текстовой информации. Тексты в электронном виде для создания корпусов могут быть получены самыми разными способами — ручной ввод, сканирование, авторские копии, дары и обмен, Интернет, оригинал-макеты, предоставляемые составителям корпусов издательствами и проч.

3. Предобработка текста. На этом этапе все тексты, полученные из разных источников, проходят филологическую выверку и корректировку. Также осуществляется подготовка библиографического и экстралингвистического описания текста.

4. Конвертирование и графематический анализ. Некоторые тексты проходят также через один или несколько этапов предварительной машинной обработки, в ходе которых осуществляются различного рода перекодировка (если требуется), удаление или преобразование нетексто­вых элементов (рисунки, таблицы), удаление из текста переносов, «жёстких концов строк», обеспечение единообразного написания тире и проч. Как правило, эти операции выполняются в автоматическом режиме. Обычно на этом же этапе осуществляется сегментирование текста на его структурные составляющие.

5. Разметка текста. Разметка текста заключается в приписывании текстам и их компонентам дополнительной информации (метаданных). Метаописание текстов корпуса включает как содержательные элементы данных (библиографические данные, признаки, характеризующие жанровые и стилевые особенности текста, сведения об авторе), так и формальные (имя файла, параметры кодирования, версия языка разметки, исполнители этапов работ). Эти данные обычно вводятся вручную. Структурная разметка документа (выделение абзацев, предложений, слов) и собственно лингвистическая разметка обычно осуществляются автоматически.

6. На следующем этапе осуществляется корректировка результатов автоматической разметки: исправление ошибок и снятие неоднозначности (вручную или полуавтоматически).

7. Заключительный этап – конвертирование размеченных текстов в структуру специализированной лингвистической информационно-поисковой системы (corpus manager), обеспечивающей быстрый многоаспектный поиск и статистическую обработку.

8. И, наконец, обеспечение доступа к корпусу. Корпус может быть доступен в пределах дисплейного класса, может распространяться на CD-ROM и может быть доступен в режиме глобальной сети. Различным категориям пользователей могут предоставляться разные права и разные возможности.

Конечно, в каждом конкретном случае состав и количество проце­дур могут отличаться от выше перечисленных, и реальная технология может оказаться гораздо сложнее.

Автоматическая разметка

Фактически, корпус в его современном понимании – это всегда компьютерная база данных, и в процессе его создания естественно использование специальных программ. Среди этих программ особое место занимают программы автоматической разметки. Разметка корпусов представляет собой трудоемкую операцию, особенно учиты­вая размеры современных корпусов. Если для некоторых видов разметки, в частности анафорической, просодической, создание автоматических систем пока представляется довольно сложным и основная часть работы проводится вручную, то для морфологического и синтаксического анализа существуют различные программные средства, которые принято называть соответственно тэггеры (taggers) и парсеры (parsers). В результате работы программ автоматического морфологиче­ского анализа каждой лексической единице приписываются граммати­че­ские характеристики, включая часть речи, лемму (нормальную форму) и набор граммем (например, род, число, падеж, одушевлен­ность/неодушевленность, переходность и т.п.). В результате работы программ автоматического синтаксического анализа фиксируются син­таксические связи между словами и словосочетаниями, а синтаксиче­ским единицам приписываются соответствующие характеристики (тип предложения, синтаксическая функция словосочетания и т.п.).

Исправление ошибок и снятие неоднозначности

Однако автоматический анализ естественного языка небезошибо­чен и многозначен – он, как правило, дает несколько вариантов анализа для одной лексической единицы (слова, словосочетания, предложения). В этом случае говорят о грамматической омонимии. Снятие неодно­значности (морфологической, синтаксической) в целом является одной из важнейших и сложнейших задач компьютерной лингвистики. При создании корпусов для снятия неоднозначности используются автома­тические и ручные способы. Корпусы нового поколения включают сотни миллионов слов, поэтому выдвигаются принципы разработки систем, которые бы минимизировали вмешательство человека. Автома­тическое разрешение морфологической или синтаксической омонимии, как правило, основывается на использовании информации более высокого уровня (синтаксического, семантического) с применением статистических методов.

Форматы данных и стандартизация

Корпусы, как правило, предназначены для многократного использования многими пользователями, соответственно, и их разметка, и их программное обеспечение должны быть определенным образом унифицированы. Что касается разметки, то как лингвистическая, так и экстралингвистическая разметка должны базироваться на некоторых достаточно широко распространенных и принятых принципах описания текстов и языковых единиц. Параметры разметки и их значения должны быть достаточно «естественными», т.е. должны соответствовать общепринятым научным классификациям. Что касается программного обеспечения, то оно должно поддерживать обработку типовых запросов и решение типовых задач. Большое значение имеет унификация форматов, как их наполнения, так и структуры. Единые форматы представления данных позволяют во многих случаях использовать единое программное обеспечение и обмениваться корпусными данными. Стандартизация в отношении корпусов, совместимость типов данных важны и с точки зрения сравнимости разных корпусов. Вопросы оценки корпусов, их пригодности к различным заданиям также требуют своих «стандартов оценки».

В настоящее время на основе международного опыта выработались де-факто стандарты представления метаданных, базирующиеся на описаниях текстов в рамках проекта Text Encoding Initiative (TEI) и на рекомендациях EAGLES (Expert Advisory Group on Language Engineering Standards). В качестве формального языка разметки широко применяются языки SGML и XML. В настоящее время стандарты EAGLES непосредственно включаются в технологическую среду языка XML, см., в частности, разработку стандарта Corpus Encoding Standard for XML (XCES).

Корпусные менеджеры

Работа пользователей с корпусом осуществляется с помощью специализированных программных средств – корпусных менеджеров, предоставляющих разнообразные возможности по получению из корпуса необходимой информации:

Результаты поиска обычно выдаются в виде конкорданса (поэтому корпусные менеджеры еще называют конкордансерами), где искомая единица представлена в ее контекстном окружении и в виде статистических данных. Последние могут фиксировать частотные характеристики отдельных языковых единиц, или граммем, или могут характеризовать совместную встречаемость нескольких лексических единиц. Многие системы позволяют настраивать формат выдачи (менять длину левого и правого контекста, задавать объем выдачи и порядок сортировки данных, отображать или не отображать лингвистические и экстралингвистические характеристики, и т.д.).

Пользователи и способы использования корпусов

Пользователей корпусов, как правило, интересует не содержание конкретных текстов, а их метатекстовая информация и примеры употребления тех или иных языковых элементов и конструкций. Это, в первую очередь, лингвисты. Первоначальные лингвистические исследования, проводившиеся с помощью корпусов, сводились к подсчету частот встречаемости различных языковых элементов. Статистические методики используются в решении сложных лингвистических задач, таких как машинный перевод, распознавание и синтез речи, средства проверки орфографии и грамматики и т.д. Так, устойчивые словосочетания представляют собой с семантической точки зрения неделимую смысловую единицу, что очень важно учитывать в лексикографии, системах автоматической обработки текста. На материале корпуса статистическими методами можно определить, какие слова встречаются вместе регулярно и, таким образом, могут быть отнесены к устойчивым словосочетаниям. Корпусы являются богатым источником данных для исследований по лексикографии и грамматике. С исследованиями по лексикографии тесно связаны исследования в области семантики. Наблюдая окружения той или иной лингвистической единицы в корпусе, можно установить определенные семантические признаки, характеризующие данную единицу.

Лингвисты-теоретики используют корпусы в качестве экспериментальной базы для проверки гипотез и доказательства своих теорий. Прикладные лингвисты (преподаватели, переводчики и т.п.) используют компьютерные корпусы при обучении языкам и для решения своих профессиональных задач. Особый класс пользователей представляют компьютерные лингвисты: они пытаются выявить и использовать статистические и лингвистические закономерности, присутствующие в текстах, для создания компьютерных моделей языка. Другие специалисты по языку (литературоведы, редакторы) также в ряде случаев могут получить ответы на интересующие их вопросы, обратившись к корпусу. Специалисты по общественным наукам (историки, социологи) также могут изучать свои объекты через язык, используя такие параметры текстов, как период, автор или жанр. Литературоведы используют корпусы для стилеметрических исследований. Наконец, корпусы используются для разработки и настройки различных автоматизированных систем (машинный перевод, распознавание речи, информационный поиск).

Типы корпусов

Несмотря на разнообразие корпусов, можно выделить два основных способа деления корпусов на классы: 1) это противопоставление корпусов, относящихся ко всему языку (часто к языку определенного периода), корпусам, относящимся к какому-либо подъязыку (жанр, стиль, язык определенной возрастной или социальной группы, язык писателя или ученого и т.п.); 2) разделение корпусов по типу лингвистической разметки. Несмотря на наличие множества типов разметки, большинство реально существующих корпусов относится к корпусам морфологического либо синтаксического типа (последние в англоязычной литературе называют treebanks, что можно перевести как «банки синтаксических структур»). При этом следует подчеркнуть, что корпус с синтаксической разметкой явно или неявно включает в себя и морфологические характеристики лексических единиц.

Вообще же существует большое число разных типов корпусов. Их разнообразие определяется многообразием исследовательских и прикладных задач, для решения которых они создаются, и различными основаниями для классификации. В зависимости от поставленных целей и классифицирующих признаков, можно выделить различные типы корпусов (см. таблицу).

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *