Ввод в ЭВМ и сегментация фонограмм речи



При вводе аналоговых сигналов в память компьютера осуществляется их преобразование в цифровую форму и запись соответствующей информации в виде файла данных. Запись в память ЭВМ цифровых фонограмм, как уже отмечалось выше, осуществляется обычным компьютерным копированием.

Далее фонограммы подвергаются сегментации, удаляется речь оппонента, длительные паузы, импульсные помехи и искаженные участки речи.

К сожалению, до сих пор не удается разработать эффективные алгоритмы и программы автоматического распознавания и сегментации устной речи, записанной через телефонный или иные некачественные тракты передачи. Поэтому для сегментации фонограмм с повышенным уровнем искажений, каковыми обычно являются фонограммы, поступающие на экспертизу, используется интерактивный режим работы эксперта и компьютера.

В зависимости от качества фонограмм для экспертного анализа могут потребоваться отрезки сигналов разной длительности: от нескольких десятков секунд (для выявления признаков речевого потока в целом) до единиц секунд и миллисекунд (для анализа отдельных слов и звуков). Поэтому процедура сегментации фонограмм речи рассчитана на возможность выполнения набора операций с различным разрешением по времени.

На первом этапе работы на экране дисплея изображается осциллографи-ческое представление введенного сигнала, так называемая речевая волна. Ос-циллографическое представление речевого сигнала - это наиболее простой способ его визуализации в виде графика функции, где по оси ординат откладываются значения амплитуды сигнала (в соответствии с установленным количеством уровней квантования), а по оси абсцисс - дискретные отсчеты, переведенные в единицы времени для удобства представления.

На экран может быть выведена речевая волна любой длительности. Одновременно с речевой волной изображаются метки, перемещая которые с помощью устройства «мышь», эксперт имеет возможность отметить границы интересующего его фрагмента фонограммы и прослушать его. В процессе

сегментации масштаб изображения речевой волны может быть изменен. Наиболее точное отображение речевой волны достигается при выводе одного отсчета сигнала на одну точку разрешения экрана (см. рис. 7).

Рис. 7. Изображение речевой волны в разных масштабах: а) с наименьшим значением разрешения, б) с промежуточным значением разрешения, в) с наибольшим значением разрешения

Правильная и точная сегментация речевого сигнала на отдельные звуковые сегменты определяет адекватный выбор объектов исследования, что имеет важнейшее значение при идентификации.

Выбранные фрагменты фонограмм эксперт записывает в соответствующие файлы, составляя необходимые фрагменты речи для последующего исследования.

Определение технических параметров речевых сигналов

Определение технических параметров речевых сигналов, наряду с предварительным прослушиванием, составляет предварительный анализ фонограмм, необходимый для оценки их качества.

В результате предварительного анализа определяется возможность решения экспертной задачи на представленном материале (в ряде случаев устанавливается необходимость получения новых образцов), определяются оптимальные методы исследования. В случае если спорная фонограмма имеет очень низкое качество, то эксперт устанавливает ее непригодность для идентификационного исследования.

Качество звукозаписи оценивается рядом параметров, в том числе частотным диапазоном речевого сигнала и отношением уровня полезного речевого сигнала к уровню шумовых помех.

В литературе [37] приводятся следующие данные, определяющие удовлетворительное качество звукозаписей: линейные и нелинейные искажения не должны превышать установленных норм для конкретной звукозаписывающей аппаратуры; соотношение сигнал/шум должно быть не менее 15 дБ при динамическом диапазоне полезного речевого сигнала не менее 20 - 25 дБ. При этом справедливо отмечается, что приведенные цифры носят лишь рекомендательный характер, решение о пригодности или непригодности речевого сигнала для исследования принимает эксперт в каждом конкретном случае.

В системе «Диалект» проведение полного комплекса идентификационных исследований и выявление всех групп признаков возможно на фонограммах речевых сигналов, имеющих характеристики, не хуже следующих:

- диапазон частот - от 300 до 3400 Гц;

- изменение скорости движения звуконосителя - не более 2%;

- средняя величина отношения сигнал/шум - 15 дБ;

- длительность фонограммы речи неизвестного лица - 30 с;

- длительность фонограммы речи проверяемого лица - 5 мин.

На практике, однако, фонограммы речи, поступающие на экспертизу, имеют качество ниже требуемого. Они имеют меньшую длительность, содержат значительные шумовые помехи, имеют ограниченный частотный диапазон и другие искажения. Все это усложняет процесс идентификации, но, как показывает опыт, не исключает возможности решения экспертных задач.

В системе «Диалект» предусмотрены средства, позволяющие проводить идентификационные исследования посредством адаптивного выбора режимов анализа и обработки, которые соответствуют данному типу фонограмм.

Основными параметрами фонограмм речи, которые определяются на этапе предварительного анализа, являются:

- частотный диапазон речевых сигналов;

- частотный диапазон шумов;

- отношение сигнал/шум;

- соответствие скорости движения звуконосителя при воспроизведении
фонограммы скорости его движения при записи;

- длительность фонограммы.

Определение частотного диапазона речевых сигналов необходимо для выбора рабочей полосы исследования спектральных акустических признаков. Для обеспечения адекватности результатов сравнение спектральных акустических признаков проводится в сопоставимом диапазоне частот.

На рис. 8 приведен средний спектр фрагмента речевого сигнала длительностью 10 с и указаны границы диапазона, в котором находится 95% энергии сигнала. Данный диапазон условно определяется как частотный диапазон анализируемого речевого сигнала.

Рис. 8. Средний спектр речевого сигнала


Аналогичным образом определяется и частотный диапазон шумового фона в паузах. На рис. 9 приведен пример среднего спектра шумового фона в паузах разговора с указанием границ частотного диапазона. Следует отметить важность изучения не только общей частотной полосы шума, но и конкретных областей усиления отдельных шумовых составляющих.

Рис. 9. Средний спектр шумового фона

 

Наличие значительного шума в исследуемом сигнале приводит или к снижению достоверности определения идентификационных признаков, или вообще к невозможности их выделения в связи с полным «размыванием» спектральной картины сигнала. Поэтому для выбора оптимальной в конкретных условиях процедуры идентификационного исследования фонограмм одним из основных критериев является отношение уровня исходного речевого сигнала к уровню шума в паузах (отношение сигнал/шум). Отношение сигнал/шум вычисляется как в целом по всему диапазону сигнала, так и по отдельным частотным полосам (каналам). Поскольку в системе «Диалект» при проведении спектрального акустического анализа фонограмм речи интегральные признаки вычисляются в 21 частотной полосе (каждая шириной ~ 174 Гц) в диапазоне от 0 до 3,6 кГц, то и соотношение сигнал/шум, а следовательно, и пригодность для исследования отдельных областей спектра речевых сигналов определяется в тех же полосах.

На рис. 10 представлены результаты вычисления отношения уровня полезного речевого сигнала и шумовой помехи в частотных каналах.

Рис. 10. Отношение сигнал/шум

Если в какой-то полосе отношение сигнал/шум слишком мало, то эта полоса «бракуется» экспертом, и соответствующие ей спектральные признаки не используются при сравнении векторов признаков.

Большая погрешность при выявлении идентификационных признаков речи может быть внесена в случае несоответствия скорости движения звуконосителя при воспроизведении фонограммы скорости его движения при записи. Изменения во временной области влекут за собой смещение спектральной картины речевого сигнала по частоте. Поэтому установление факта различия скоростей звукозаписи и звуковоспроизведения и соответствующая коррекция фонограмм являются существенными для последующего их исследования.

Соответствие (или несоответствие) скорости движения магнитной ленты при записи и воспроизведении может быть определено для фонограмм, полученных с использованием магнитофонов с сетевым электропитанием, путем выявления спектральной составляющей, появляющейся в результате наложения на речевой сигнал 50-герцовой помехи электросети. Отклонение положе

ния данной составляющей от положения 50 Гц означает отклонение скорости воспроизведения от скорости движения при звукозаписи.

На рис. 11 показано положение 50-герцовой составляющей в речевом сигнале и истинное значение 50 Гц. Отклонение составляющей от ее истинно-

гозначения вычисляется в процентах и называется «уходом скорости».

Рис. 11. Положение 50-Гц составляющей в речевом сигнале

 

 

Максимальное значение «ухода скорости», при котором вариативность признаков не выходит за рамки допустимых значений, составляет 2%. Это значение является допустимым пределом отклонения. При больших отклонениях возможны существенные ошибки в вычислении признаков. В этом случае должна проводиться соответствующая корректировка скорости воспроизведения фонограммы.


Дата добавления: 2018-04-04; просмотров: 1582; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!