Типы автоматического понимания

Компьютерная система, понимающая письменный текст должна иметь в своей базе знаний следующую информацию:

· знание о языке, на котором написан текст;

· правила использования знаний о языке;

· знания о реальном мире (конкретной предметной области);

· правила использования знаний о фрагменте реального мира;

· знания о пользователе системы, желающем получить от ПК некоторое понимание письменного текста

В зависимости от сложности используемых знаний и их количества различают следующие типы автоматического понимания текста:

> понимание - узнавание (ПК имеет знания лишь о языке. ПК узнает морфологическую структуру каждого слова предложения, проводит синтаксический анализ предложения, узнает в исходном тексте ключевые слова, словосочетания, предложения. По этому принципу работают системы индексирования, аннотирования и реферирования текста.

> понимание - уподобление (ПК должен иметь знания о языке и правила использования этих знаний. Считается, что система понимает текст, если она может, ответить на вопросы по этому тексту. При таком понимании ПК просто находит готовые ответы в своей базе знаний, ранее занесенные человеком: (уподобляется человеку)

> понимание - прогнозирование (эти системы ориентированы на понимание текстов достаточно узкой предметной области. В данном случае ПК должен иметь знания о языке, правила их использования и знания о предметной области. Считается, что система понимает текст, если она может определить, какой объект или событие предметной области соответствует отдельным фрагментам этого текста. Однако одним и тем же фрагментом текста могут соответствовать различные объекты или события, поэтому соотносить их можно лишь с определенной степенью вероятности, отсюда термин - прогнозирование.

> понимание - объединение (4 вида знаний). Объединяя виды этих знаний, компьютерная система должна уметь делать выводы по тексту и объяснять, почему она сформулировала тот или иной вывод. Эта работа - экспертных систем)

> понимание - объяснение(имеет все 5 видов знаний, включая знания о целях профессиональной компетенции пользователя системы). ПК должен уметь: объяснить пользователю, каким образом он понял текст, как выполнил задание пользователя. Так как система должна давать объяснения любому конкретному пользователю с учетом уровня его знаний и опыта, в таких системах используется диалог «ПК-пользователь»

Сегодня проблема автоматического понимая текста реализована в следующих компьютерных системах, позволяющих извлекать определенную информацию:

· системы автоматического индексирования, аннотирования, реферирования и перевода текста;

· информационные и информационно-поисковые системы;

· экспертные системы (коса, определить утомляемость человека…)

Системы автоматического порождения письменного текста

Более сложными являются проблемы создание систем автоматического порождения письменного текста (генерации, синтеза). Успехи в этом направлении не так значительны, как в понимании. Здесь гораздо меньше теорий и еще меньше компьютерных систем, способных порождать разный текст.

Проблемами порождения текстов с помощью ПК занимаются с начала 70-х г., однако до сих пор нет единой теории текстообразования, не может быть создана единая теория порождения текста из-за неоднозначного определения понятия «текст»:

1) Создатели диалоговых систем под текстом понимают любую реплику, состоящую из нескольких слов, предложений;

2) Создатели систем генерации метеосводок или статистических отчётов понимают под текстом некоторую таблицу;

3) Создатели инструкций понимают под текстом цепочку несвязанных между собой предложений, относящихся к одному объекту;

4). Художественные, публицистические, научно-популярные тексты- здесь необходимы законы построения текстов разных стилей и жанров.

Этапы порождения текста:

Несмотря на то, что нет единой теории текстообразования, установлено, что процесс текстообразования состоит из 2 этапов:

1) Стратегический (решение, что писать) – результат этого этапа - семантическое представление будущего текста;

2) Тактический (решение, как писать) – результат: собственно текст в языковой форме.

Общая структура системы порождения письменного текста:

Несмотря на разногласия, исследователи в разных странах пришли к выводу, что в общем плане в системе автоматического порождения текста должны быть представлены 3 взаимосвязанных компонента:

1. Оболочка;

2. Планировщик;

3. Лингвистический реализатор

1. Оболочка: определяет назначение порождающей системы

Это может быть обучающая компьютерная система, генерирующая комментарии ПК в виде текста, экспертная система, система, моделирующая процесс создания текстов сказок, стихов и т.д.

В оболочке содержится вся база знаний, которая состоит из 2 частей:

a) Нелингвистической (предметной, в которую входят понятия, связи, отношения между понятиями конкретной предметной области);

b) Лингвистической, которая включает формализованные сведения о конкретном языке, на котором генерируется текст (списки морфем, словарь с лексикой, синтаксические структуры предложений, семантико-синтаксические структуры абзацев и всего текста.

2)Планировщик выполняет функции:

a) Определяет ту информацию, которая должна быть представлена в тексте;

b) Определяет, как она будет представлена (в виде текста стихотворения, рекламы);

c) Определяет порядок следования абзацев в тексте;

d) Устанавливает порядок следования синтаксических составляющих в пределах абзаца и всего текста;

e) Осуществляет языковое оформление взаимосвязи предложений в абзаце и абзацев в тексте;

f) Осуществляет построение синтаксических структур предложений текста;

g) Осуществляет выбор соответствующей лексики.

Все эти задачи планировщик решает с опорой на оболочку и, в частности, на базу знаний.

3) Лингвистический реализатор обеспечивает грамматическую правильность порождаемого текста и принимает все окончательные грамматические и морфологические решения (подтверждает или отрицает выбор структуры предложения, выбор окончаний…).

Виды компьютерных систем порождения текста:

Система, которая автоматически, без вмешательства человека способна создать текст. Все существующие системы автоматического порождения текста условно можно разделить на 2 группы:

1) Системы, работающие на основе шаблонных технологий

Они строят будущий текст, манипулируя готовыми предложениями и словосочетаниями как строительными блоками. Эти системы достаточно просты и надёжны, находят широкое промышленное применение. Содержание порождённого текста представлено в виде фрагментов текстов, созданных ранее людьми.ð Выглядит естественными, но надо отметить, что эти системы работают с очень жёсткими типами текстов, например, с текстами деловой прозы, характеристиками, отчетами, договорами, диалоговые компьютерные системы…;

2) Системы, работающие на основе лингвистически мотивированных технологий.

В этом случае для создания текста системе необходимы знания структуры содержания создаваемого текста, а также сложные лингвистические знания, которые позволяют выразить это содержание языковыми средствами. Для создания таких систем необходимо изучить жанровые и коммуникативные характеристики текстов, языковые средства выражения содержания связного текста, формализацию грамматических и лингвистических описаний.

В настоящее время, поэтому, лингвистически мотивированные технологии находятся на стадии исследования. Промышленных систем такого рода нет, существуют только экспериментальные (стихи, сказки, реклама, анекдоты).

Системы распознавания речи

Большая часть всего того, что может делать ПК сегодня, неразрывно связано с представлением информации в письменной форме. Если ПК сможет распознавать и понимать речевые сообщения, звучащие на том или ином языке, как это делает человек, его возможности значительно расширятся.

Он сможет:

1. Поддерживать голосовой ввод информации в ПК;

2. Обучать иностранным языкам;

3. Определять по голосу человека;

4. Определять объективное эмоциональное состояние человека (летчика, диспетчера);

5. Переводить устную речь;

6. Осуществлять запись фонетической транскрипции устной речи;

7. Вести в электронном виде протоколы заседаний, результаты мед. исследований…

Несмотря на то, что проблемами распознавания устной речи учёные занимаются более 60 лет, (первая публикация, посвященная этой проблеме, появилась в США в 1943 г.), до сих пор они в полном объеме не решены.

Под распознавание речи ПК в полном объеме понимают такое распознавание, которое подробно восприятию речи человеком, в любых условиях и при общении с любым человеком. Механизм восприятия речи человеком обладает высокой степенью надежности. Известно, что при самых разнообразных помехах на разных уровнях общения (посторонние шумы, искажения, пропуск слов), устная речь является самым надежным и универсальным средством коммуникации.

В распознавании речи одним из самых сложных факторов – язык. Существует много языков, в которых гласные не произносятся, а пишутся.

Решению проблемы распознавания речи в полном объеме мешают следующие факторы:

1) В настоящее время не существует четких теоретических представлений, которые бы описывали весь комплекс преобразований, осуществляемых нервной системой при переработке речевых сигналов;

2) Слитно произнесенная речь (в быстром темпе) обладает следующими свойствами:

a) Границы слов размыты;

b) Соседние звуки влияют друг на друга;

c) Знаменательные слова произносятся отчетливо, а функциональные слова могут отсутствовать

3) В голосе говорящего человека всегда присутствует экстралингвистическая информация, свидетельствующая о его особом эмоциональном состоянии, указывающая на его пол, возраст, национальность. Иногда экстралингвистическая информация может даже отрицать смысл произнесенных слов;

4) В процессе речевого общения большое значение имеют паралингвистические средства коммуникации: фонация (характеристики голоса человека), кинесика (мимика, жесты, позы), проксемика (расстояние между людьми).

Первая промышленная система РР была создана в Японии во второй половине 80-х, её называли системой надиктовки текста в ПК (диктографами), данная система имела узкую специализацию. Лидерами в создании систем РР являются фирмы IBM с программным продуктом Via Voice (скорость - 140 слов в мин.), Dragon System.

Системы распознавания речи работают по следующему алгоритму:

1) Ввод устной речи

2) Обработка данных (снимаются шумы);

3) Распознавание:

a) Деление звукового потока на сегменты;

b) Выделение в каждом сегменте минимальной акустической единицы;

c) Сравнение выделенной единицы с эталонами

Сегодня автоматическое распознавание речи может осуществляться только при наложении определенных ограничений на процесс распознавания:

1) Распознавание изолированно произнесенных слов;

2) Распознавание с предварительной настройкой на голос конкретного пользователя;

3) Распознавание речи с опорой на небольшой словарь.

Промышленные системы распознавания речи условно делятся на 4 группы:

1) Средства речевого управления (ПК, телефон). Ограничение – небольшой словарь;

2) Средства надиктовки текста. Ограничение – изолированно произнесенные слова и предварительная настройка на голос конкретного пользователя

3) Средства идентификации человека по образцу речи.

4) Информационно-справочные системы в диалоговом режиме в качестве автоответчика. Ограничение – небольшой словарь. Самый успешный на сегодня проект коммерческого применения распознавания речи — телефонная сеть фирмы АТТ. Клиент может запросить одну из пяти категорий услуг, используя любые слова. Он говорит до тех пор, пока в его высказывании встретится одно из пяти ключевых слов. Эта система в настоящее время обслуживает около миллиарда звонков в год.

Системы автоматического синтеза речи или Text-to-Speech (TTS)

Проблема автоматического синтеза речи (создания говорящего ПК) относительно проще проблемы распознавания речи.

Сегодня существуют большое число синтезаторов, которые могут озвучить фразы, произнесенные ранее и записанные в памяти ПК. Простые системы синтеза речи созданы давно. Например, в Токийском метро синтезатор объявлял остановки уже в конце 70г. Сейчас умеют говорить игрушки, бытовые приборы, ПК. Синтезаторы могут читать стихи, петь песни ,озвучивать персонажей худ. произведений. Сложности начинаются там, где речь нужно сделать естественной, человеческой. ПК умеет почти идеально воспроизводить отдельные звуки и слоги. Но стоит перейти к словам, словосочетаниям и фразам, и пользователю становится ясно, что говорит синтезатор.

Сегодня существует три основных метода автоматического синтеза речи:

1. Кодирование (запись в двоичной системе речевых сигналов с их последующим восстановлением)

Это один из самых элементарных подходов к созданию говорящего компьютера. Компьютер в данном случае выступает как устройство для записи речи – магнитофон. Слова и фразы, записанные ранее в компьютер, в нужный момент воспроизводятся по командам, поступающим из соответствующей программы.

Возможность сказать слово или фразу, которые не были заранее занесены в память, здесь отсутствует.

Еще недостаток - для хранения речевых сигналов в их непосредственной форме нужна память значительного объема. Этот метод используется, когда словарь не слишком велик. Полученная таким образом речь, по качеству приближается к человеческой,

2. Фонетический синтез речи (акустическое моделирование голосового тракта человека).

Принципиально отличается от описанного выше метода и имеет неестественное звучание. Синтезатор говорит голосом робота. Этот метод осуществляется по орфографическому тексту, написанному человеком. Компьютер умеет преобразовать буквы в фонемы, преобразовать фонемы (мин. единица звукового строя языка) в их варианты аллофоны (варианты фонем в звучащей речи). Поскольку речь создается из отдельных синтезируемых звуков, правильно расставив нужные звуки, ПК может произнести каждое слово, определить словесное фразовое ударение, интонацию, с которой нужно прочитать каждое предложение, и синтезировать непрерывный речевой сигнал с использованием аллофонов конкретного диктора, выбираемых из базы данных. Число фонем и аллофонов в разных типах синтезаторов различно. Некоторые (довольно грубые синтезаторы) обходятся 30-40 звуками, а более совершенные используют несколько сотен фонем и аллофонов.

Для характеристики качества речи обычно используют такие понятия, как естественность звучания, фонетическая разборчивость, комфортность восприятия и время привыкания. Пока еще не существует синтезатора, прослушав который, человек не мог бы указать, что это неестественный звук. Известно, что синтезированная речь воспринимается человеком хуже, чем живая, причем это особенно заметно при передаче по каналу телефонной связи, т. е. как раз в тех условиях, в которых было бы наиболее заманчиво ее использовать. Тем не менее, эксперты отмечают улучшение звучания синтезированной английской речи, уровень синтезаторов растет год от года.

По мере совершенствования, речь синтезатора становится все более разборчивой. Этот метод синтеза речи весьма перспективен, т.к. речь действительно генерируется самим компьютером. Фирма Сакрамент АН Беларусь.

Математическое моделирование голосового тракта человека.

Словарь в синтезаторе этого типа, как и в первом методе синтеза речи, обычно создается с участием человека. Но в данном случае в память ПК записываются не слова и фразы, а производится выделение числовых характеристик звуков речи и интонации фраз. Такой подход позволяет значительно уменьшить объем необходимой памяти. В этом заключается одно из главных достоинств этого метода. Как и в первом методе, синтезированная речь звучит естественно. Для ее генерации числовые характеристики по специальным командам преобразуются обратно в звуковые сигналы, из которых и строится речевой поток.

Наиболее перспективным является второй метод – фонетический синтез речи. В настоящее время специалисты работают над тем, чтобы речь звучала живо, естественно и эмоционально. Решение этой проблемы позволит создавать компьютерные системы синхронного перевода, активнее использовать ПК при обучении языку, а также людям с нарушение органов зрения (чтение компьютером газет, книг…)

Дата добавления: 2018-10-26; просмотров: 791; Мы поможем в написании вашей работы!

Поделиться с друзьями:

⇐ Предыдущая 4 5 6 7 8 9 101112 13 Следующая ⇒

Мы поможем в написании ваших работ!