Сравнение векторов акустических признаков

⇐ ПредыдущаяСтр 11 из 18Следующая ⇒

После того как на этапе раздельного исследования были вычислены акустические интегральные признаки и признаки звуков, проводится сравнение векторов признаков речи неизвестного и проверяемого лица и количественная оценка степени их похожести. Эта оценка осуществляется на основе статистических данных, полученных в результате «обучения» системы.

Своеобразие устной речи человека состоит в том, что говорящему никогда не удается идентичным образом повторно воспроизвести своё высказывание. Каждое новое произнесение одной и той же фразы с интервалом даже в несколько секунд сопровождается акустической реализацией речевого сигнала, отличной от предыдущей. Отсутствие точной воспроизводимости свойственно большинству таких характеристик речевого сигнала, как частота основного тона, формантные частоты, интенсивность спектральных компонент речи, длительность слов, звуков и т.п.

Экспериментальные исследования показывают, что индивидуализирующие акустические признаки также имеют определенный разброс значений при их вычислении на фонограммах, полученных в различные по времени сеансы звукозаписи. При этом интегральные признаки, вычисленные на фрагментах устной речи с произвольным контекстом, имеют большую степень разброса (вариативности), чем признаки микроанализа звуков, где используются сопоставимые по контексту фрагменты речи.

Все это тем более справедливо, если временной интервал между произнесениями диктором* устной речи составляет несколько дней. А на практике чаще всего приходится сравнивать признаки устной речи в спорной фонограмме неизвестного и в фонограмме речи проверяемого лица, когда временной интервал между их фиксацией составляет несколько месяцев или даже лет.

Кроме временного фактора, на вариативность признаков большое влияние оказывает различный уровень помех и искажений речевого сигнала при его передаче по каналам связи.

Таким образом, из-за своей вариативности идентификационные акустические признаки устной речи представляют собой некоторые вероятностные характеристики речи говорящего, и поэтому задача определения по указанным признакам принадлежности сравниваемых фонограмм одному и тому же или разным лицам является математической задачей статистического распознавания образов [47, 48].

Известно множество методов статистического распознавания образов, которые применялись для решения задачи идентификации лиц по акустическим признакам [49]. В большинстве методов особенности устной речи каждого лица представлены в виде статистического образа в многомерном пространстве признаков. Чаще всего делаются предположения о многомерном гауссовском (нормальном) распределении акустических признаков и используются правила принятия оптимальных решений, где параметрами являются центроиды образов и матрицы ковариации признаков [50, 51].

Однако опыт проведения экспериментальных исследований и результаты решения экспертных задач показали, что предположения о нормальности распределения акустических признаков устной речи в большинстве случаев не оправдываются. Для получения статистически корректных (устойчивых) оценок матриц ковариации признаков требуется достаточно большое количество реализаций устной речи дикторов, что не всегда практически выполнимо.

В системе «Диалект» применяется метод статистического распознавания образов, базирующийся на оценках меры похожести по функциям плотности распределения значений акустических признаков устной речи.

Сущность указанного метода заключается в следующем. Пусть имеются значения х^*_i_,_j (i = 1, 2,..., N) идентификационных акустических признаков для устной речи некоторого 1-го лица (диктора) и значения x^*_i_,_q соответствующих акустических признаков речи q-гo диктора. Оценка принадлежности речи одному и тому же лицу (то есть при l = q) или разным лицам (то есть при 1 ≠ q) осуществляется сначала по каждому признаку. Вычисляется модуль разности (расстояние d^*_i) между значением i-гo признака х^*_i_,_l, определенного на спорной фонограмме некоторого 1-го диктора, и значением соответствующего i-гo признака x^*_i_,_q, определенного на фонограмме проверяемого - q-гo диктора,

d^*_i =| x^*_i_,_l - x^*_i_,_q |.

Так как признаки являются вероятностными характеристиками и имеют определенную вариативность при их вычислении на разных реализациях уст- ной речи дикторов, то оценка принадлежности этих реализаций одному лицу (т.е. 1 = q) осуществляется, если указанный модуль разности будет меньше, чем некоторый порог П_i (то есть когда признаки «совпали» с точностью до П_i ).

d^*_i =| x^*_i,l - x^*_i,q | <П_i,

который является оценкой возможной вариативности значения i-гo признака. Напротив, если вычисленный модуль разности будет больше порога П_i (то есть когда признаки «не совпали»)

d^*_i =| x^*_i,l - x^*_i,q | >П_i,

то считается, что данные реализации речи на основе вычисления i-гo признака принадлежат разным лицам (1≠ q).

Пороговые значения П_i возможной вариативности каждого i-гo признака вычисляются на этапе обучения системы, которое проводится заранее.

Процесс обучения системы заключается в следующем. На массиве фонограмм устной русской речи различных дикторов вычисляется массив значений x_ikj акустических признаков, где i = 1, 2, ..., N - число признаков; k = 1, 2, ..., l,..., q,... К - число дикторов, устная речь каждого из которых представлена j = 1, 2,..., n,..., m,... J обучающими реализациями.

Исследования показали, что для получения практически достоверных оценок возможной вариативности признаков необходимо использовать несколько десятков обучающих реализаций устной речи каждого из дикторов.

С целью получения статистического массива данных для вычисления вариативности и информативности акустических признаков были осуществлены звукозаписи речи, моделирующие реальные переговоры через тракты Московской городской телефонной сети.

При подготовке массива данных использовались звукозаписи речи дикторов-мужчин из числа сотрудников, принимавших участие в исследованиях по тематике «Диалект». Русский язык для всех из них являлся родным. Возраст дикторов составлял от 20 до 50 лет, явные дефекты речи или иные отклонения от нормативного произношения отсутствовали.

Каждая j-я реализация речи произносилась и записывалась в различные моменты времени (сеансы). Максимальный разброс по времени между сеансами составил несколько месяцев, минимальный -1-2 дня. Каждый раз дикторы пользовались разными телефонами-автоматами, удаленными от пункта контроля переговоров на различные расстояния.

В каждом сеансе проводилась звукозапись произвольной речи и подготовленного текста, состоящего из фонетически сбалансированных (на основе данных о частоте встречаемости в русской устной речи различных звуков) одинаковых по контексту «стандартных» фраз. Реализации речи с произвольным контекстом использовались для вычисления интегральных признаков, стандартные фразы - для признаков микроанализа звуков.

Полученные фонограммы речи были введены в компьютер, где для данных речевых сигналов были вычислены указанные выше акустические признаки речи и составлен обучающий статистический массив.

Для обеспечения корректности сравнения векторов признаков в зависимости от конкретного речевого материала в системе «Диалект» (кроме указанного массива) предусмотрено наличие еще нескольких обучающих массивов, используемых в следующих практических ситуациях:

- когда необходимо сравнивать фонограммы, записанные через высоко
качественные динамические микрофоны;

- когда одна из сравниваемых фонограмм записана через телефонный
тракт, а другая - через микрофонный;

- когда одна из фонограмм представляет собой звукозапись форсированной речи (крик).

Особые массивы предусмотрены для фонограмм речи переговоров, ведущихся по каналам мобильной связи.

Очевидно, что все указанные обучающие массивы должны быть составлены и для дикторов-женщин.

Процедура вычисления порогов вариативности акустических признаков для каждого из обучающих массивов проводится следующим образом.

Для каждого i-гo признака вычисляются два статистических массива модулей разностей, так называемых «внутридикторских» и «междудикторских» расстояний

d_i_,_l₌_q =| x_i_,_l_,_n - x_i_,_q_,_m | и d_i_,_l_≠_q =| x_i_,_l_,_n - x_i_,_q_,_m |

где i - номер признака; 1, q - номера дикторов; n, m - номера реализаций устной речи дикторов.

Для указанных двух статистических массивов d_i_,_l₌_q и d_i_,_l_≠_q оцениваются соответствующие плотности распределения.

Примеры функций плотности распределения «внутридикторских» и «междудикторских» расстояний для некоторого i-ro признака показаны на рис.15. По горизонтальной оси отложены величины расстояний d_i_,_l₌_q и d_i_,_l_≠_q, a по вертикальной оси - их частота встречаемости. «Внутридикторские» расстояния d_i_,_l₌_q имеют тенденцию к расположению в основном в области малых величин, а «междудикторские» расстояния d_i_,_l_≠_q - в области больших. Некоторые значения «междудикторских» расстояний (из-за частичного перекрытия между собой признаковых пространств разных дикторов) могут находиться в области малых значений, поэтому функции плотности распределения «внутридикторских» и «междудикторских» расстояний d_i_,_l₌_q и d_i_,_l_≠_q пересекаются.

Пороговая величина вариативности П_i для i-гo признака вычисляется из условия равенства вероятностей ошибок «пропуска цели» и «ложной тревоги» [47, 48]. Уровень ошибок первого рода определяется площадью под кривой плотности распределения расстояний d_i_,_l₌_q, расположенной правее величины П_i, а уровень ошибок второго рода - площадью под кривой плотности распределения расстояний d_i_,_l_≠_q, расположенной левее П_i (эти площади на рис. 15 обозначены штриховкой разного наклона). Практически это означает, что для обеспечения равных вероятностей ошибок отнесения пары сравниваемых реализаций как к одному и тому же, так и к разным дикторам, точка П_i располагается на горизонтальной оси таким образом, чтобы площадь под кривой d_i_,_l_≠_q слева от П_i равнялась площади под кривой d_i_,_l₌_q справа от П_i. При этом одинаковые по величине и равные W_i площадь под кривой d_i_,_l₌_q слева от П_i и площадь под кривой d_i_,_l_≠_q справа от П_i равны оценкам вероятности правильного отнесения пары сравниваемых реализаций к одному и тому же или разным дикторам по i-му признаку соответственно. Для менее информативного признака функции плотности распределения d_i_,_l₌_q и d_i_,_l_≠_q больше перекрываются между собой, для более информативного признака они разнесены дальше друг от друга.

Значение W_i является величиной «веса» или информативности признака, которая позволяет универсально оценивать вероятность правильного распознавания дикторов по данному признаку, а также «вклад» данного признака в принятие решения по совокупности признаков.

Определенные на этапе обучения системы значения порогов П_i и информационных весов признаков W_i сохраняются в памяти системы «Диалект» и используются при дальнейших оценках.

Рис. 15. Плотности распределения «внутридикторских» d_i_,_l₌_q и «междудикторских» d_i_,_l_≠_q расстояний для i-го признака

При решении конкретной идентификационной задачи сначала для каждого i-гo признака оценивается расстояние d^*_i - модуль разности между значениями этого признака, вычисленными на сравниваемых фонограммах неизвестного и проверяемого лица (см. рис.15). Если d^*_i < П_i это означает, что значения i-гo признака совпали с точностью до П_i. Если d^*_i > П_i, то значения i-гo признака у этих дикторов не совпали.

Далее, для выявления степени сходства фонограмм речи неизвестного и проверяемого лица по совокупности признаков вычисляется информационная значимость совпадающих признаков I^*, являющаяся суммой W_i весов совпадающих признаков. Мера I^* определяется как «мера близости» фонограмм и сравнивается с порогом Р (см. рис. 16).

Порог Р вычисляется на этапе обучения системы на том же статистическом массиве посредством построения и сравнения функций плотности распределения «внутридикторской» (I_l₌_q ) и «междудикторской» (I_l_≠_q) мер близости фонограмм по совокупности из N признаков при условии обеспечения равенства вероятностей ошибок пропуска цели и ложной тревоги. Значения I_l₌_q и I_l_≠_q формируются по следующему правилу:

где i = 1,2,..., N - число признаков; к = 1,2,... ,l,..., q,... К - число дикторов, каждый из которых представлен j = 1,2,..., n,..., m,... J обучающими реализациями.

Таким образом, при сравнениях реализаций речи дикторов, суммируются информационные веса только совпадающих признаков.

На рис.16 представлен пример функций плотности распределения «внутридикторской» (I_l₌_q ) и «междудикторской» (I_l_≠_q) мер близости фонограмм по совокупности признаков, где по горизонтальной оси отложены значения I_l₌_q и I_l_≠_q, а по вертикальной оси - их частота встречаемости. Здесь, в отличие от функции плотности распределений расстояний d_i_,_l₌_q и d_i_,_l_≠_q, плотность распределения «внутридикторской» меры близости I_l₌_q находится в области больших значений, а плотность распределения «междудикторской» меры близости I_l_≠_q - в области малых значений.

Определение порога Р из условия равенства вероятностей ошибок пропуска цели и ложной тревоги эквивалентно выбору на горизонтальной оси некоторой точки Р таким образом, чтобы площадь под кривой плотности рас- пределения I_l₌_q слева от Р равнялась площади под кривой плотности распределения I_l_≠_q справа от Р. Эти площади на рис. 16 обозначены штриховкой разного наклона. При этом, как и в случае с одним признаком, функции плотности распределения I_l₌_q и I_l_≠_q более перекрывают одна другую, если совокупность признаков менее информативна, и, наоборот, функции плотности распределения разнесены дальше одна от другой, если совокупность признаков более информативна.

Оценка эффективности совокупности акустических признаков (W) проводится аналогично оценке эффективности одного признака. Она определяется величиной площади под кривой плотности распределения I_l_≠_q, лежащей левее порога Р, или величиной площади под кривой плотности распределения I_l₌_q, лежащей правее Р.

Рис. 16. Плотности распределения «внутридикторской» I_l₌_q и «междудикторской» I_l_≠_q мер близости фонограмм по совокупности признаков

Для того, чтобы учитывать при принятии решения «внутридикторскую» вариативность признаков конкретного проверяемого лица, фонограмма речи которого сравнивается со спорной фонограммой, значения акустических признаков его речи могут вноситься в общий обучающий массив, т.е. этот массив расширяется до (К+1).

Следует отметить, что состав совокупности сравниваемых акустических признаков при различном качестве фонограмм, представляемых на исследование, может быть различным. В зависимости от качества и длительности фонограмм эксперт может выбирать наиболее информативные группы признаков, методы и средства анализа, критерии оценки результатов исследования.

В том случае, когда фонограммы речи неизвестного и проверяемого лица получены через тракты связи, вносящие значительные частотные искажения в речевой сигнал, при сравнении могут быть исключены из рассмотрения некоторые группы спектральных интегральных признаков, подверженных влиянию таких искажений.

Если на этапе предварительного анализа установлено, что в отдельных полосах спектра спорной фонограммы и/или фонограммы речи проверяемого лица имеются значительные шумовые помехи, то при сравнении из общего списка акустических признаков следует удалить соответствующие этим полосам признаки, не имеющие в таких случаях информационной значимости.

В случае установления на этапе предварительного анализа различия эмоционального состояния неизвестного и проверяемого лица и, как следствие, различия высоты голоса, из общего списка акустических признаков могут быть удалены интегральные признаки, связанные с гистограммами распределения длительности периодов и частоты основного тона и признаки микроанализа, связанные с абсолютными значениями Fo и длительностью гласных и согласных звуков.

При малой длительности и зашумленности отдельных участков фонограмм для микроанализа может быть использована лишь некоторая часть признаков, например, признаки только звуков [А] и [O].

Если после внесения в обучающий массив реализаций речи проверяемого лица и последующего переобучения системы некоторые признаки оказались малоинформативными для данного диктора (т.е. информационный вес этих признаков W_i близок к уровню 0.5), то эти признаки исключаются из рассмотрения.

Для осуществления возможности различных вариантов исследования в системе «Диалект» предусмотрена адаптивная процедура оценки степени похожести фонограмм по акустическим признакам. Для каждой конкретной комбинации акустических признаков и для каждого случая внесения в обучающий массив фонограмм речи нового проверяемого лица производится переобучение системы, определение порогов П_i и информационных весов признаков W_i, выбор из них наиболее информативных и определение порога вариативности Р для конкретной совокупности акустических признаков.

На рис. 17 в качестве примера показан результат сравнения совокупности сопоставимых интегральных признаков спектра речи неизвестного и проверяемого лица. В данном случае из-за наличия значительного уровня шума в речевых сигналах (см. результаты предварительного анализа, приведенные на этом же рисунке) удалены из рассмотрения 1, 2 и 21 спектральные каналы (на рисунке они окрашены синим цветом). Следует отметить, что специфика и качество исследуемых сигналов предполагает, что признаки 1 канала удаляются практически всегда.

В нижней части рисунка изображены две сигнальные функции S_M(r) (левая) и S_B(r) (правая), построенные на основе интегральных функций распределения F_M(r) «междудикторской» и F_B(r) «внутридикторской» мер близости обучающего массива r фонограмм, а также результат сравнения двух фонограмм по акустическим признакам. Указано количество совпадающих и различающихся признаков, порог принятия решения и значение вычисленной меры близости фонограмм.

Интегральной функцией распределения называют функцию F(x), определяющую для каждого значения х случайной величины X вероятность того, что величина X примет значение, меньшее х, то есть F(x) = Р(Х < х).

Сигнальные функции рассчитываются по следующим формулам:

S_M(r) = F_M(r)/( F_M(r) + F_B(r)), S_B(r) = F_B(r) /( F_M(r) + F_B(r)).

Рис. 17. Сравнение интегральных признаков спектра речи неизвестного и проверяемого лица (в матрице сравнения красным цветом отмечены совпадающие признаки, зеленым - различающиеся)

Акустическое исследование завершается определением степени похожести фонограмм устной речи неизвестного и проверяемого лица посредством оценки информационной значимости совокупности совпадающих акустических признаков по отношению к пороговому значению. Величина информационной значимости совпадающих признаков используется экспертом в комплексе с результатами аудитивно-лингвистического анализа на заключительном этапе экспертизы при принятии общего решения о принадлежности фонограмм речи одному или разным лицам.

Дата добавления: 2018-04-04; просмотров: 1283; Мы поможем в написании вашей работы!

Поделиться с друзьями:

⇐ Предыдущая 6 7 8 9 101112 13 14 15 Следующая ⇒

Мы поможем в написании ваших работ!