Акустический анализ фонограмм речи



Акустический анализ предполагает вычисление и сравнение идентификационных признаков, отражающих физические параметры речевых сигналов. Блок-схема акустического анализа представлена на рис. 12.

Принятие решения о совпадении или различии акустических характеристик речи сравниваемых объектов осуществляется на основе статистических массивов акустической информации, куда при необходимости вносится информация о признаках речи проверяемого лица.

Рис.12. Блок-схема акустического анализа фонограмм речи

Акустические признаки устной речи

Акустические признаки речи содержат информацию об индивидуальности анатомического строения голосовых связок и речевого тракта человека, а также об особенностях динамического стереотипа движений речеобразующих органов, индивидуальность которого складывается у говорящего при обучении разговорной речи на конкретном языке.

Рассматривая акустическую модель речеобразования, исследователи [19] отмечают, что этот процесс состоит из двух независимых компонент: возбуждения звука как такового и формирования фонетического качества звука за счет фильтрации.

В связи с этим, различают признаки, характеризующие функционирование источника возбуждения речевого тракта говорящего - характеристики основного тона и статистические параметры мелодической кривой; и спектральные признаки, характеризующие формирование фонетического качества звуков за счет возбуждения резонансных частот речевого тракта.

С точки зрения контекстной обусловленности, акустические признаки также можно разделить на две группы:

1. Контекстно-независимые признаки, методы вычисления которых основаны на статистическом анализе фрагментов речевого сигнала такой продолжительности, чтобы значение их усредненных по времени параметров оставалось приблизительно одинаковым независимо от содержания используемого текста (интегральные признаки).

2. Признаки тонкой микроструктуры речевых единиц, вычисленные на одинаковых или сопоставимых элементах (признаки микроанализа звуков). Эти признаки определяются фонетическим качеством звуков речи и зависят от текста и формы речевого сообщения, но обладают более высокой криминалистической значимостью, более устойчивы к амплитудно-частотным искажениям аппаратуры [37].

Известно множество методов вычисления и выделения признаков из речевого сигнала [4, 5, 28, 38 - 44]. Однако из-за того, что достаточно часто качество спорных фонограмм бывает очень низким, при проведении фонографических экспертиз возможно использование лишь тех акустических признаков, которые являются инвариантными к действию повышенного уровня искажений фонограмм.

Вычисление акустических признаков устной речи в системе «Диалект» производится автоматически на материале, подготовленном для анализа в результате предварительной обработки и сегментации фонограмм речи.

Интегральные признаки

В качестве интегральных признаков речевого потока (то есть при произвольном контексте речи) используются статистические оценки распределения параметров текущего спектра речи (спектральные признаки) и частоты основного тона (признаки ОТ), характеризующие этот поток в целом за определенный промежуток времени. При вычислении спектральных признаков речевой сигнал, представленный в виде дискретной последовательности цифровых значений амплитуды речевой волны, подвергается спектральному анализу посредством быстрого преобразования Фурье (БПФ). С помощью БПФ спектры вычисляются последовательно по всему речевому потоку на каждой группе из 64 дискретных отсчетов, что при частоте дискретизации 11150 Гц соответствует фрагменту речи длительностью 5,74 мс.

Такое преобразование речи иначе можно назвать цифровой фильтрацией речевого потока с применением «гребенки» фильтров шириной -174 Гц. В системе «Диалект» используется «гребенка» из 21 цифрового фильтра в диапазоне частот от 0 до 3,6 кГц.

В качестве интегральных акустических идентификационных признаков выбраны известные из работ [4, 38 - 40, 44] и собственных исследований следующие девять групп спектральных признаков и одна группа признаков основного тона:

- средний спектр анализируемого речевого сигнала;

- нормированный средний спектр;

- относительное время пребывания сигнала в полосах спектра;

- нормированное время пребывания сигнала в полосах спектра;

- медианный спектр речи в полосах;

- относительная мощность спектра речи в полосах;

- вариации огибающих спектра речи;

- нормированные вариации огибающих спектра речи;

- коэффициенты кросскорреляции огибающих спектра между полосами;

- гистограммы распределения частоты и периодов основного тона речи.
После фильтрации гребенкой из 21 цифрового фильтра речевой сигнал

может быть представлен в виде последовательности значений кратковременных спектров (или «спектральных срезов»), вычисленных в моменты времени j = 1,2 ... J через каждые 5,74 мс,

{x(l,j),... ,x(i,j),..., x(21,j)}, j = 1, 2 ... J;

где x(i,j) - значение энергии сигнала на выходе i-ro полосового фильтра в j-м кратковременном спектре; J - общее количество спектральных срезов на анализируемом отрезке (рис. 13).

 


Рис. 13. Схематическое изображение последовательности спектральных срезов речевого сигнала для вычисления акустических признаков

Если энергия спектрального среза меньше некоторого порога отбраковки, то этот спектральный срез не участвует в вычислении интегральных признаков. Величина порога устанавливается из гистограммы S(j) распределения энергий спектральных срезов на анализируемом речевом сигнале

таким образом, чтобы из распределения S(j) отбросить низкоэнергетические спектральные срезы.

Значения признаков первой группы- средние значения спектра X(i) -вычисляются следующим образом:

где i = 1, 2 ... 21 - номер фильтра; j = 1, 2 ... - номер спектрального среза.

Значения признаков второй группы- нормированные средние значения спектра XH(i) - вычисляются следующим образом:

 


При этом для компонент среднего спектра Х(1), Х(2), Х(3) в 1, 2, 3-м фильтрах используется сумма dx(4), вычисленная для 4-го фильтра. Для компонент среднего спектра Х(19), Х(20), Х(21) в 19, 20, 21-м фильтрах используется сумма dx(18), вычисленная для 18-го фильтра. Нормировка значений признаков на dx(i) вводится для снижения их зависимости от линейных (частотных) искажений речевого сигнала при прохождении его по тракту передачи и звукозаписи.

В третьей группе признаков(относительное время пребывания сигнала в полосах спектра) значение каждого i-ro признака вычисляется по формуле

где ΔJ(i) - количество спектральных срезов, при которых энергия в i-й полосе превышает среднее значение x(i), т.е. x(i,j) > x(i); J - общее количество спектральных срезов на анализируемом отрезке.

В четвертой группе признаков(нормированное время пребывания сигнала в полосах спектра) значение каждого i-ro признака определяется по формуле

Пятую группусоставляют признаки медианного спектра mH(i). Медианное значение энергии m(i) вычисляется посредством построения гистограммы распределения уровней энергии x(i,j) в каждой i-й полосе и определения на гистограмме точки m(i), которая делит площадь между кривой гистограммы и горизонтальной осью пополам. Значения признаков вычисляются по формуле

Значения относительной мощности спектра речи в полосах PH(i) -признаки шестой группы- вычисляются следующим образом:

где P(i) = m(i)/ΔJ(i); m(i) - медианные значения энергии в i-й полосе.

 

Нормировка признаков на dp(i) вводится аналогично, как и для признаков нормированного среднего спектра, для снижения влияния линейных искажений в трактах передачи сигнала.

Седьмую группу признаковсоставляют вариации огибающих спектра речи V(i):


где x(i) - значение среднего спектра в i-м фильтре; x(i,j) - значение спектральной энергии в j-й момент времени в i-м фильтре.

Нормированные значения вариаций VH(i) - признаки восьмой группы-вычисляются следующим образом:

Каждая i-я компонента вариации огибающей спектра нормируется на dv(i) для снижения влияния частотных искажений на значения признаков.

Девятую группу признаковсоставляют коэффициенты кросскорреля-ции R(i,k), которые вычисляются по формуле

где i, k = 1, 2 ... 21; i ≠ k; x(i,j) и x(k,j) - значения уровня энергии в j-м спектральном срезе на выходе i-ro и k-го фильтров соответственно.

Десятую группу интегральных акустических признаковсоставляют признаки основного тона речи. Используются две подгруппы этих признаков. Первую подгруппу составляют значения компонент гистограммы распределения длительности периодов основного тона (ОТ), вычисленные на отрезке произвольной речи говорящего. Признаками второй подгруппы являются значения компонент гистограммы распределения частоты ОТ на этом же отрезке речи. В первой подгруппе 106 признаков, и они предназначены для описания особенностей «тонкой структуры» распределения значений длительности периодов ОТ речи в диапазоне от 2,7 мс до 12,1 мс. Во второй подгруппе 17 признаков, и они предназначены для описания особенностей распределения значений частоты ОТ речи в диапазоне от 80 до 350 Гц.

Для определения величины периодов и частоты ОТ по речевому потоку применяется следующий алгоритм. Из анализируемого отрезка речи с помощью экспериментально установленных порогов устраняются фрагменты, соответствующие низкоэнергетичным элементам речи, и фрагменты, имеющие высокую частоту пересечения нулевого уровня сигнала (в основном, согласные звуки). Величины длительности периодов и частоты ОТ определяются посредством логической обработки результатов вычисления ОТ с помощью кепстрального метода, связанного с анализом речи в спектральной области, и временного метода, основанного на определении периодов ОТ во временной области.

Первые шесть групп интегральных признаков отражают своеобразие формы спектра голосовых импульсов и особенности фильтрующей функции речевого тракта.

Вариации огибающих спектра речи характеризуют особенности речевого сигнала, связанные с динамикой перестройки артикуляционных органов во время речевого процесса.

Коэффициенты кросскорреляции отображают своеобразие динамического стереотипа речи, особенности взаимосвязи и синхронности движения артикуляционных органов говорящего.

Основной тон является параметром, характеризующим индивидуальность строения и функционирования источника возбуждения речевого тракта.

Интегральные признаки вычисляются на отрезках речи длительностью 10 с. Вектор интегральных признаков состоит из 501 компоненты (в каждой из первых восьми групп - по 21 признаку, в группе R (i,k) - 210 признаков, в группе ОТ - 123 признака). При большей длительности анализируемого фрагмента (20, ... , 100 с) этот фрагмент представляется несколькими векторами признаков (соответственно 2,.., 10).

Вычисление интегральных признаков на отрезках речи длительностью 10 с вызвано требованием сопоставимости статистических оценок при сравнении речевых сигналов как очень малой, так и большой длительности. Кроме того, как показали экспериментальные исследования, относительная стабилизация статистических оценок признаков, связанных с оценками статистик второго порядка V(i), VH(i) и R (i,k), имеет место при длительности отрезка около 10 с, поэтому данная длительность была выбрана минимальной для вычисления интегральных признаков.

Признаки микроанализа звуков

Исследование тонкой микроструктуры речевых единиц может проводиться только на фонетически сопоставимом материале.

Для проведения исследований в сравниваемых фонограммах должны быть одинаковые (фонетически однотипные) слова или слоги. Необходимость и возможность проведения микроанализа и сравнения спектрально-временной структуры одинаковых или сопоставимых по контексту звуков в речи неизвестного и проверяемого лица определяется экспертом в зависимости от длительности и качества исследуемых речевых сигналов, а также сложности решаемой задачи.

Вычисление акустических признаков микроанализа звуков проводится на наиболее информативных (с точки зрения проявления индивидуальности) гласных звуках [А], [О], [Е], [И]. Немаловажную роль в выборе именно этих звуков для акустического анализа играет и то обстоятельство, что они имеют наибольшую частоту встречаемости в устной русской речи [42, 45].

В ходе исследований [43, 44] было установлено, что основными индивидуализирующими говорящего параметрами для сопоставимых по контексту звуков являются:

- значения частоты основного тона (F0) на гласных;

- значения четырех формантных частот (F1, F2, F3, F4) гласных звуков;

- величина длительности гласных (Тг);

- величины длительности согласных, окружающих гласный (Тс).

 

Частота основного тона связана с индивидуальными анатомическими характеристиками голосовых связок говорящего, в частности, длиной связок, их толщиной и эластичностью. Для определения величины вариативности частоты основного тона на гласных звуках значение F0 вычисляется в начале соответствующей гласной, в ее середине и в конце.

Формантами называются выраженные максимумы спектра мощности речевого сигнала. Они возникают из-за того, что при прохождении через ре-зонаторные полости некоторые гармоники звуковой волны усиливаются, другие ослабляются.

Формантные характеристики отражают индивидуальные параметры ре-чеобразующих органов говорящего (в частности, они связаны с формой и размерами рта, языка, зубов), и общепризнано считаются наиболее существенными для понимания устной речи параметрами речевых звуков [15].

Формантная структура звука отражает артикуляторные навыки конкретного индивида при произнесении звука на конкретном языке и содержит информацию о лингвистической природе звука (фонеме языка) [45].

Формантные частоты F1 - F4 являются первыми четырьмя (по порядку) резонансными частотами спектров гласных звуков. На этих частотах концентрируется подавляющая часть энергетического спектра гласных. Определение значений формант осуществляется в середине гласного звука - в ее квазистационарной части [43]. Для получения более точных значений и снижения влияния мешающих факторов вычисления следует проводить синхронно с импульсами возбуждения голосовых связок.

Для определения указанных параметров звуков эксперт проводит сегментацию речевых сигналов и отмечает на речевой волне, изображенной на экране дисплея, границы гласных и окружающих их согласных звуков. Данная процедура проводится вручную с помощью манипулятора «мышь». Правильность сегментации контролируется экспертом путем прослушивания выделенных фрагментов речи и посредством анализа спектра речи на спектрограмме, также изображенной на экране дисплея (рис. 14).

 

 

Рис. 14. Определение параметров для вычисления признаков звуков: осциллографическое представление речевого сигнала с отмеченными периодами основного тона и спектральное представление речевого сигнала с отмеченными значениями формантных частот

Спектрограмма (сонограмма) - это изображение речевого сигнала в координатах «время — частота — интенсивность». Спектрограмма показывает спектральный состав фрагмента речевого сигнала в течение определенного временного промежутка. На графике по оси ординат откладываются значения спектральных частот, а по оси абсцисс - время. Интенсивность характеризуется градациями яркости цвета.

По результатам сегментации программно проводится вычисление длительности гласных Тг и согласных Тс, значений частоты основного тона F0, формантных частот F1 - F4. Значения параметров фиксируются, а затем на их основе с помощью специального программного модуля вычисляются признаки микроанализа звуков.

Опыт проведения криминалистической идентификации [46] показывает, что при изменениях абсолютных значений формант в силу тех или иных причин (например, из-за изменения эмоционального состояния говорящего, изменения ситуационных условий общения и т. д.) соотношения формант меняются в значительно меньшей степени или практически не меняются. В связи с этим в качестве спектральных идентификационных признаков микроанализа звуков используются следующие статистические оценки значений и отношения величин, определяемые для четырех типов гласных [А], [О], [Е], [И]:

     - F0, F0min, F0max - среднее, минимальное и максимальное значение частоты

основного тона; ΔF0 - величина разброса значений частоты основного тона;

- F1, F1min, F1max - среднее, минимальное и максимальное значение первой формантной частоты; ΔF1 - величина разброса значений первой формантной частоты;

- F2, F2min, F2max - среднее, минимальное и максимальное значение второй формантной частоты; ΔF2 - величина разброса значений второй формантной частоты;

- F3, F3min, F3max - среднее, минимальное и максимальное значение третьей формантной частоты; ΔF3 - величина разброса значений третьей формантной частоты;

-F4, F4min, F4max - среднее, минимальное и максимальное значение четвертой формантной частоты; ΔF4 - величина разброса значений четвертой формантной частоты;

- R0/1, R2/1, R3/1, R4/1 - средние величины отношения значений частоты основного тона, второй, третьей, четвертой формантных частот к значению первой формантной частоты.

Достаточно информативными являются признаки, отражающие соотношение формантных частот для разных пар гласных звуков:

- α0/1(A/0) - величина угла, вычисленного в плоскости координат F0, F1 между горизонтальной осью и вектором, направленным из точки [F0(A), F1(A)] в точку [F0(O),F1(O)].

Аналогичным образом определяются углы для других пар гласных звуков: α0/1(Е/А), α0/1(И/Е), α2/1(A/O), α2/1(Е/А), α2/1(И/Е), α3/1(A/O), α3/1(E/A), α3/1(И/Е), α4/1(А/О), α4/1(E/A), α4/1(И/Е).

 

Временные параметры речевых единиц характеризуют длительность и распределение в устном тексте его отдельных составляющих. Как отмечают исследователи [37], на ритмическую организацию речи, выраженную в относительных величинах, практически не влияет изменение темпа произнесения.

При вычислении временных признаков используются статистические оценки следующих значений длительности гласных и согласных звуков и отношения этих значений, определяемые для каждого из четырех типов гласных звуков [А], [О], [Е], [И]:

- Т, Tmin, Tmax - среднее, минимальное и максимальное значение длительности гласных звуков каждого типа;

- ΔТ(А) - величина разброса значений длительности;

- S, Smin, Smax - среднее, минимальное и максимальное значение отношения длительности гласного звука каждого типа к длительности соседнего с ним согласного звука;

- ΔS - величина разброса значений отношения длительности гласного к
длительности соседнего с ним согласного.

Таким образом, при наличии в исследуемом материале всех четырех типов гласных, имеющих достаточно выраженную формантную структуру, в результате микроанализа звуков может быть вычислено 144 признака. В случае если микроанализ проводится на меньшем количестве типов гласных или если качество фонограммы делает невозможным определение некоторых формантных частот, то количество признаков микроанализа соответственно сокращается.


Дата добавления: 2018-04-04; просмотров: 3064; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!