II . Статистический машинный перевод ( STM )



Принципы были разработаны еще в 1949 г., 2-ая волна в 90-ых г. IBM, 3-ья волна Google, Яндекс..

Системы второй технологии основаны на поиске наиболее вероятного перевода с использованием данных из параллельных корпусов;

Преимущества:

· Легко построить при наличии двуязычного корпуса;

· Перенос технологии на любые пары языков

· Лексическая гладкость.

Недостатки:

· Ограниченность параллельных корпусов и их качество;

· Плохо справляются с морфологией и синтаксисом;

· Искажение информации.(2 раза – разные результаты…)

Пример: USA is to blame = США не виноват

Russia is to blame= Россия виновата

Обе технологии обладают своими преимуществами и недостатками и не решили задачу по достижению качественного МП. Система Promt разработала «Гибридную технологию перевода». Такой перевод сохраняет преимущества традиционной технологии (формирование синтаксически связанного и грамматически правильного текста) и преимущества статистического метода (быстрое обучение, получение данных из параллельных корпусов в автоматическом режиме и гладкость текстов).

 


 

Понимание и порождение письменной и устной речи с помощью ПК

План

1. Особенности компьютерных систем понимания и порождения текста и речи

2. Компьютерные системы понимания связного текста

3. Порождение связного текста с помощью ПК

4. Автоматическое распознавание устной речи

5. Синтез устной речи с помощью ПК

 

Особенности компьютерных систем понимания и порождения текста и речи

Широкое применение ПК во все сферы человеческой жизни привело к возрастанию объема хранимой в них информации. Он стал приобретать черты естественной коммуникации, в основе которой лежит письменная и устная речь человека.

Задачи автоматического понимания и порождения текста и речи очень сложны. Для их реализации в компьютерные системы нужно вложить огромный объем знаний об окружающем мире, естественных языках, а также очень сложные правила текста и речеобразования, лежащие в основе речемыслительной деятельности человека. В полном объеме это будет решено в будущем, а пока компьютеры, обладающие возможностью обрабатывать письменные тексты и устную речь, имеют в своей памяти ограниченные конкретной предметной областью базы знаний.

Базы знаний - это совокупность структурированных лингвистических и нелингвистических данных, а также правила их обработки.

 Речемыслительная деятельность человека – очень сложный и неизученный до конца вид человеческой деятельности, поэтому сегодня нельзя говорить о его полном моделировании на ПК. Существующие в разных странах экспериментальные промышленные системы обработки текста и речи созданы с учётом наложения определённых ограничений на их функционирование. Такие системы решают не общие (универсальные), а частные(конкретные) задачи. Важно, чтобы результаты решения конкретной задачи компьютерной системой были аналогичны в ходе решения той же задачи человеком.

Компьютерные системы понимания текста

Проблема понимания текста ПК находится на начальный стадии изучения. Поэтому существуют разные точки зрения на проблему компьютерного понимания, выделяют различные уровни понимания текста, построены разные системы, способные понимать текст. Наиболее сложным для понимания являются тексты, описывающие взаимоотношения и поступки действующих лиц. В этом случае в ПК должны храниться большие базы знаний об окружающем мире.  Более простыми являются тексты, содержащие описание фрагментов статического мира и имеющие небольшое число отношений между объектами этого мира (научные книги, статьи).

 Понимание в таких системах трактуется как извлечение из текста наиболее существенной с точки зрения ПК информации. Полученная в результате понимания информация может пополнять базу знаний компьютерной системы или может быть передана пользователю.

Под передачей понятого пользователю имеют в виду способность компьютера отвечать на вопросы пользователя относительно событий, фактов, описанных в исходном тексте в виде связного текста, а не в виде отдельных слов или предложений.

Согласно современным теориям автоматического понимания текста компьютер понял текст, если он может:

1. кратко изложить его содержание (аннотация, реферат)

2. ответить на вопросы к этому тексту

3. на основе текста нарисовать картинку или схему

4. приведенные в тексте сведения представить в другой форме (таблица, график)

5. на основе анализа текста, написанного на одном языке, выдать адекватную информацию на другом

6. сравнить содержание двух разных текстов и выдать информацию о том, что в них общего и в чем различия

7. путем анализа одного или нескольких разных текстов извлечь такие знания, которые можно поместить в некоторую базу знаний

Уровни автоматического понимания письменного текста

Соотнося уровни понимания текста компьютером с основными уровнями языка, можно выделить следующие уровни автоматического понимания:

• морфологический

• синтаксический

• семантический

• гиперсинтаксический или прагматический

Морфологическое понимание сводится к автоматическому приписыванию каждому слову текста его морфологических характеристик (наиболее освоенный вид понимания текста). В последние годы легко реализуется в рамках автоматического лексико-грамматического анализа при создании корпусов текстов;

Суть синтаксического понимания текста заключается в автоматическом выделении в каждом предложении текста главных и второстепенных членов предложения и установления между ними различных типов связи.

В процессе семантического понимания текста автоматически устанавливаются значения, выделенные на синтаксическом уровне, составляющих предложений. ПК определяет, например  (выражено ли подлежащее - одушевленным/неодушевленным существительным, сказуемое - глагол движения/чувствования, обстоятельство - места/времени/действия). Подобные процедуры проводятся  с опорой на окружение слова, с которым связано данное слово на этапе его понимания.

Гиперсинтаксическое (прагматическое) понимание текста связано с выяснением семантических отношений между предложениями текста и с выявлением соответствующей тексту ситуации реальной действительности.

 


Дата добавления: 2018-10-26; просмотров: 255; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!