Системы анализа речи. Системы. Описание процесса.



Распознавание речи — процесс преобразования речевого сигнала в цифровую информацию (напр., текстовые данные). Обратной задачей является синтез речи.

Классификация систем распознавания речи.

Системы распознавания речи:

· по размеру словаря (ограниченный набор слов, словарь большого размера);

· по зависимости от диктора (дикторозависимые и дикторонезависимые системы);

· по типу речи (слитная или раздельная речь);

· по назначению (системы диктовки, командные системы);

· по используемому алгоритму (нейронные сети, скрытые Марковские модели, динамическое программирование);

· по типу структурной единицы (фразы, слова, фонемы, дифоны, аллофоны);

· по принципу выделения структурных единиц (распознавание по шаблону, выделение лексических элементов).

Для систем автоматического распознавания речи, помехозащищённость обеспечивается, прежде всего, использованием двух механизмов:

· Использование нескольких, параллельно работающих, способов выделения одних и тех же элементов речевого сигнала на базе анализа акустического сигнала;

· Параллельное независимое использование сегментного (фонемного) и целостного восприятия слов в потоке речи.

Классификация методов распознавания речи на основе сравнения с эталоном.

· Динамическое программирование — временные динамические алгоритмы (Dynamic Time Warping).

Контекстно-зависимая классификация. При её реализации из потока речи выделяются отдельные лексические элементы — фонемы и аллофоны, которые затем объединяются в слоги и морфемы.

· Методы дискриминантного анализа, основанные на Байесовской дискриминации (Bayesian discrimination);

· Скрытые Марковские модели (Hidden Markov Model);

· Нейронные сети (Neural networks)

Этапы распознавания

· 1. Обработка речи начинается с оценки качества речевого сигнала. На этом этапе определяется уровень помех и искажений.

· 2. Результат оценки поступает в модуль акустической адаптации, который управляет модулем расчета параметров речи, необходимых для распознавания.

· 3. В сигнале выделяются участки, содержащие речь, и происходит оценка параметров речи. Происходит выделение фонетических и просодических вероятностных характеристик для синтаксического, семантического и прагматического анализа. (Оценка информации о части речи, форме слова и статистические связи между словами.)

· 4. Далее параметры речи поступают в основной блок системы распознавания — декодер. Это компонент, который сопоставляет входной речевой поток с информацией, хранящейся в акустических и языковых моделях, и определяет наиболее вероятную последовательность слов, которая и является конечным результатом распознавания.

Типичная архитектура статистических систем автоматической обработки речи.

· Модуль шумоочистки и отделение полезного сигнала.

· Акустическая модель — позволяет оценить распознавание речевого сегмента с точки зрения схожести на звуковом уровне. Для каждого звука изначально строится сложная статистическая модель, которая описывает произнесение этого звука в речи.

· Языковая модель — позволяют определить наиболее вероятные словные последовательности. Сложность построения языковой модели во многом зависит от конкретного языка. Так, для английского языка, достаточно использовать статистические модели (так называемые N-граммы). Для высокофлективных языков (языков, в которых существует много форм одного и того же слова), к которым относится и русский, языковые модели, построенные только с использованием статистики, уже не дают такого эффекта — слишком много нужно данных, чтобы достоверно оценить статистические связи между словами. Поэтому применяют гибридные языковые модели, использующие правила русского языка, информацию о части речи и форме слова и классическую статистическую модель.

· Декодер — программный компонент системы распознавания, который совмещает данные, получаемые в ходе распознавания от акустических и языковых моделей, и на основании их объединения, определяет наиболее вероятную последовательность слов, которая и является конечным результатом распознавания слитной речи.

 

Параметры качества речи по цифровым каналам: [4]

· Слоговая разборчивость речи;

· Фразовая разборчивость речи;

· Качество речи по сравнению с качеством речи эталонного тракта;

· Качество речи в реальных условиях работы.

ТЕРМИНЫ, ОПРЕДЕЛЕНИЯ

· Разборчивость речи — относительное количество правильно принятых элементов речи (звуков, слогов, слов, фраз), выраженное в процентах от общего числа переданных элементов.

· Качество речи — параметр, характеризующий субъективную оценку звучания речи в испытуемой системе передачи речи.

· Нормальный темп речи — произнесение речи со скоростью, при которой средняя длительность контрольной фразы равна 2,4 с.

· Ускоренный темп речи — произнесение речи со скоростью, при которой средняя длительность контрольной фразы равна 1,5-1,6 с.

· Узнаваемость голоса говорящего — возможность слушателей отождествлять звучание голоса, с конкретным лицом, известным слушателю ранее.

· Смысловая разборчивость — показатель степени правильного воспроизведения информационного содержания речи.

· Интегральное качество — показатель, характеризующий общее впечатление слушателя от принимаемой речи.

Перпетуум М.

Сочетает в себе возможности независимого от интернета распознавания речи с гибкостью встроенного языка программирования, допускающего кроме прочего управление внешними устройствами — от самодельных до промышленных. Стоимость программы 1970 рублей, пробная версия установилась без проблем, но программ имеет ограниченные возможности. Не очень хорошо разбирает длинные слова. Работает только с русским языком.

Диктограф 5.

Программа распознавания речи "Диктограф" предназначена для управления некоторыми функциями компьютера с помощью голосовых команд и диктовки текста в любой текстовый редактор. Программа использует оригинальное ядро, полностью основанное на российских разработках. Работает с русским и английским языком.

Горыныч 3.0.

Программа для вывода распознанных слов в любые текстовые редакторы под управлением MS Windows. Разработанная российской компанией VoiceLock, эта программа объединила в себе последние достижения в области обработки звучащей речи и успешно справляется с задачей перевода устной речи в текстовые редакторы. Работает с русским и английским языком.

 

 


Дата добавления: 2018-02-15; просмотров: 1817; Мы поможем в написании вашей работы!






Мы поможем в написании ваших работ!