Корпусный подход в лингводидактике и лингвистических исследованиях



Базовым понятием корпусной лингвистики является понятие корпуса текстов как репрезентативной коллекции электронных текстов, систематизированных по определенным критериям или проблемной области, например, по функциональным стилям. Для фундаментальных исследований разрабатываются объемные национальные корпусы, тексты в которых подобраны по многим параметрам, от гендерных до жанровых. Для решения более узких специальных задач создается ограниченный корпус текстов под определенный тип исследования, например, параллельный корпус текстов (оригинал / перевод) для целей переводоведения или учебный корпус для дидактических целей [Соснина Е.П. 2006: 365-373].

Сам электронный корпус, как правило, технически представляет собой тип ограниченной полнотекстовой базы данных с расширенным языком запросов, при этом для поиска по корпусу используются возможности популярных поисковых машин, например, в НКРЯ поиск осуществляется поисковой системой Яndex.Server 3.8 Professional. Тексты современных корпусов часто на этапе формирования корпуса проходят автоматическую морфологическую и синтаксическую обработку, лингвистические неоднозначности редактируются программно или вручную, а сам корпус аннотируется тегами, т.е. текстам и языковым единицам присваиваются определенные информационные индексы (разметка или аннотация), например, с морфологической информацией.

Таким образом, в корпусной лингвистике развиваются как теория, методика и технология разработки и разметки корпусов текстов различных типов, так и корпусная методология, определяемая исследованиями языка и речи с помощью корпусных методов, где электронный корпус текстов и его компьютерная оболочка выступают как инструментарий.

Корпусная лингвистика оперирует множеством методов, зависящих как от цели исследования, решаемой проблемы так и от поставленных пользователем узких вопросов об употреблении той или иной лексической единицы в том или ином окружении и контексте, например, [Оскольская С., Холодилова М. 2009]. Сфера решаемых исследователем задач на базе корпуса текстов довольно обширна. Это и исследование узуса, языковых норм, что интересно для целей преподавания языка и разрешения сомнений в использовании языковых единиц, например, [Перцов Н.В. 2006a, 2006b]. Это и многообразие задач исследования в области морфологии, синтаксиса и семантики на базе репрезентативного языкового корпусного материала, например, [Невзорова О.А. 2007], [Минеева З.И. 2007]. При этом за время развития направления корпусной лингвистики для решения некоторых традиционных задач уже сложилась единая методология и подходы.

Корпусный подход (Corpus - Based Approach), или множество аналитических методов лингвистического исследования, основанных на корпусах текстов, ориентирован на прикладное изучение как системы, так и употребления языка, его функционирования в реальных средах и контекстах, стилях и жанрах, что важно для преподавания русского языка.

Корпусный подход в первую очередь базируется на методах статистического и качественного анализа текста, что важно для доказательства достоверности проводимых исследований, выводов о частотности и дистрибуции лингвистического явления.

Технической базой корпусного подхода являются специальные компьютерные программы-конкордансы, или более функциональные программные информационно-поисковые оболочки – корпус-менеджеры.

Преподавание русского языка и корпус текстов

В настоящее время для целей преподавания русского языка и исследований в сфере русистики в открытом доступе имеется несколько ресурсов, в том числе:

- Проект Национального корпуса русского языка – НКРЯ(www.ruscorpora.ru);

- Проект Тюбингенского корпуса (www.sfb441.uni-tuebingen.de/b1/rus/korpora.html);

- Проект Хельсинкского аннотированного корпуса русских текстовХАНКО на Отделении сла­вянских и балтийских языков и литератур Хельсинкского университета (www.helsinki.fi/hum/slav/hanco);

- Проект Корпуса газетных текстов МГУ (http://www.philol.msu.ru/~lex/corpus);

- Проект Национального корпуса русского литературного языка (www.narusco.ru).

На наш взгляд, наиболее полным, проверенным временем и качественно развиваемым электронным ресурсом фундаментального типа является Национальный Корпус Русского Языка[40], проект разработки которого ведется в России с 2004 г. и представляет собой пополняемую информационно-справочную систему, коллекцию подкорпусов русских текстов в электронной форме представительным объемом около 200 млн. слов (на конец 2010). Разделами НКРЯ, или подкорпусами, являются:

· основной корпус письменных текстов,

· корпус устной речи,

· корпус современной русской прессы (газетный),

· корпус диалектных текстов,

· корпус поэтических текстов,

· корпус параллельных текстов (русс./англ./нем./украинск.),

· обучающий корпус русского языка.

 

Например, проект обучающего корпуса специально был ориентирован на преподавание РЯ в средней школе как по отбору текстов, так и по морфологической разметке. Это корпус со снятой омонимией, грамматическая информация в котором соответствует современной школьной программе по РЯ в РФ. Помимо стандартной грамматической разметки, обучающий корпус предоставляет возможность поиска по следующим параметрам: склонение существительных, спряжение прилагательных, разряды существительных, прилагательных, местоимений, наречий.

Размер и структура указанных подкорпусов различаются (см. например, раздел «Статистика» сайта НКРЯ). Каждую из представленных текстовых коллекций можно эффективно использовать в прикладной русистике, лингводидактике, переводоведении, литературоведении.

Поиск и корпусные исследования возможны как во всем корпусе НКРЯ, перечисленных подкорпусах, так и в создаваемом самим пользователем варианте (функция «Мой корпус»). Эта функция позволяет любому пользователю (студенту, школьнику или преподавателю) автоматически получать по запросу свои личные подкорпусы, т.е. выборки текстов, написанных, например, определенным автором, в определенный период, например, в начале XIX века, или опубликованные определенным СМИ, например, РИА «Новости» в 2008г.

Прежде всего, при корпусном анализе следует четко обозначить цель исследования и выбрать единицу исследования, как правило, это конкретная лексическая единица, слово, словосочетание, коллокация, оборот. Также можно не называть определенную единицу, а осуществить поиск только по грамматическим классам или признакам (например, несклоняемые существительные женского рода), чтобы найти все слова с данным набором параметров. Для этого необходимо их четко указать в меню автоматического выбора параметров.

Приложения корпусного подхода в лингводидактике и русистике многообразны и в рамках данной статьи можно только очертить круг возможных приложений.

Фонетику и орфоэпию русского языка можно изучать на базе поиска и демонстрации примеров проблемных лексических единиц из устного, газетного, поэтического и других корпусов, где доступна версия слов с ударениями. Как, например, для известного проблемного слова «договор» с частотными ошибками как у носителей, так и неносителей языка в ударениии орфографии и особенно во множественном числе «заключение договоров» или «договора».

Отметим, что в НКРЯ можно наблюдать все варианты употребления единиц с контекстным окружением, в том числе, изучая не только орфоэпическую норму, но и узус и нарушения нормативности. При этом статистика «правильных» вариантов в выдаче примеров будет существенно выше.

Перспектива и эффективность корпусных технологий особенно очевидны при изучении лексики и идиоматики носителями и неносителями языка, когда встают вопросы «как это будет по-русски?», «как правильно?» или «можно ли так сказать?», или разрешаются проблемы сочетаемости. Например, вопросы о существовании и возможности использования в языке слов «употребляемость» или «употребимость» и в каких контекстах, или же таких конструкций как «смертельно ненавидеть» (норм.), но не «смертельно любить» (ненорм.), «страстно любить» и «страстно ненавидеть» (все норм.), «безоговорочное согласие» (норм.) или «безоговорочное решение» (ненорм.) не всегда однозначны для изучающих язык. Для более детальных лингвистических изысканий возможен «мягкий» поиск по грамматическим моделям, например, сочетаемостях «Наречие+Наречие» («страшно далеко», «безумно дорого»).

Раздел «Обороты» выделен в НКРЯ отдельно по частеречным параметрам и предоставляет готовый список распространенных конструкций РЯ, например, можно за несколько секунд получить выборку примеров на вводный оборот «как правило» (см. рисунок 1), оборот «в принципе» как в функции наречия, так и как вводной конструкции. Также интересна выборка наречных и предикативных оборотов.

 

Результаты поиска в основном корпусе Объем всего корпуса: 14711345 предложений, 176226551 слов.   как на расстоянии 1 от "правило"   По мне ́ нию Бори ́ са Коновалова, е ́ сли управле ́ ние ИТ-услу ́ гами компа ́ ния ориенти ́ рует на вне ́ шних зака ́ зчиков, инициа ́ торами тако ́ го прое ́ кта, какпра ́ вило, явля ́ ются би ́ знес-руководи ́ тели, кото ́ рым пона ́ добятся инструме ́ нты для улучше ́ ния у ́ ровня обслу ́ живания и предоставле ́ ния но ́ вых услу ́ г. [Наталья Дубова. Вокруг ITSM // «Computerworld», № 25, 2004] [омонимия снята]

Рисунок 1. Пример данных и статистики из корпуса по обороту «как правило»

 

При изучении раздела «Морфология» РЯ возможно решение множества разных дидактических задач – от учебно-демонстрационных до исследовательских [Национальный корпус русского языка 2009:10]. При этом, следует знать, что информация о морфологических формах и значениях в виде грамматических помет (часть речи, род, падеж, вид и т.д.) в НКРЯ опирается на морфологическую модель, представленную в «Грамматическом словаре русского языка» А. А. Зализняка с некоторыми техническими адаптациями (www.ruscorpora.ru/corpora-morph.html). Морфологический разбор (или возможное множество морфологических разборов), приписанный каждой словоформе при поисковой выдаче, высвечивается во всплывающей подсказке при наведении курсора. В корпусе со снятой грамматической омонимией указывается полный разбор, в корпусе без снятой омонимии — только лексема и часть речи. При поиске можно найти информацию не только о каком-то конкретном слове или грамматическом классе, но и о группе слов, начинающихся или заканчивающихся одинаковым образом, вводя определенную символику и флексию (см. рисунок 2).

 

Результаты поиска в обучающем корпусе НКРЯ *ый S   Найдено документов: 95, вхождений: 771.   - На сферу общения ребёнка, овладение им речью, на развитие личности и самосознания оказывает влияние общение ребёнка со взрослым; самооценку детей этого возраста практически полностью формирует отношение к ним взрослого. [Л. А. Захирина, Н. Ф. Бережная. Особенности развития старших дошкольников при перинатальной патологии ЦНС // Вопросы психологии, 2004] ←…→   - В их числе трудовые мигранты, предприниматели, безработные, демобилизованные из армии в связи с ее реформированием, экологические мигранты и др. [Снижение масштабов внутренней миграции населения в России: опыт оценки динамики по данным текущего учета // «Вопросы статистики», 2004] ←…→

Рисунок 2. Примеры данных и статистики из корпуса по критерию *ый, класс S – существительных

 

 

В области преподавания раздела «Синтаксис» РЯ на базе текстовой коллекции НКРЯ возможны демонстрация и решение традиционных синтаксических задач, как например, способов выражения определений или обстоятельств, определение типа сказуемых. При выборе функции графической демонстрации синтаксических связей русисту следует знать, что лингвистическая разметка любого корпуса, как правило, опирается на определенную теорию. В разделе синтаксически размеченного подкорпуса НКРЯ реализовано представление о синтаксической структуре предложения согласно лингвистической модели «Смысл – Текст» И.А.Мельчука и А.К.Жолковского, а синтаксическая структура предложения графически отображается как дерево зависимостей, в узлах которого стоят слова, а ветви помечены именами синтаксических отношений.

В области семантических изысканий корпус, к примеру, дает исследователю-лингвисту или лексикографу возможности обнаружить значения и употребления исследуемого явления или языковой единицы, которые отсутствуют в традиционных лексикографических ресурсах и грамматиках, см. множество примеров [Перцов Н.В. 2006a].

Таким образом, корпусные методы и технологии оптимизируют научно-методическую работу и помогают преподавателю в эффективном составлении упражнений, презентаций, тестов и контрольных по всем изучаемым в школе и вузе разделам РЯ на базе реальных, а не вымышленных, примеров и контекстов. Кроме того, перспективы организации исследовательской и самостоятельной работы школьников и студентов на базе корпусов уже на данный момент развития технологий корпусной русистики выглядят многообещающими.

На наш взгляд, замечательным пособием для ознакомления преподавателя-русиста или лингвиста с методологией корпусного подхода является открытый Интернет-портал «Национальный корпус русского языка и преподавание», запущенный совсем недавно в конце 2009. Кроме того, особого внимания заслуживают словари, размещенные в открытом доступе на сайте Института русского языка РАН и созданные на основе Национального корпуса русского языка: грамматический словарь новых слов русского языка, новый частотный словарь русской лексики, словарь сочетаемости слов со значением высокой степени, словарь глагольной сочетаемости непредметных имён русского языка. В частности, частотный словарь эффективным образом можно использовать в преподавании РЯ для иностранцев, т.к. это естественно и доказано мировой дидактической практикой.

В настоящее время наша кафедра «Прикладная лингвистика» УлГТУ (http://ling.ulstu.ru) активно использует НКРЯ в учебном процессе при подготовке лингвистов по специальности «Теоретическая и прикладная лингвистика», ведет научно-методическую работу на базе корпусов, имеет опыт разработки параллельного (англ./русс.) корпуса. В частности, в данный момент кафедра начинает проект по теме «Корпусный подход в преподавании РЯ для иностранцев» с разработкой электронного учебно-методического комплекса.


Дата добавления: 2021-04-07; просмотров: 110; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!