ГЛАВА III. МЕТОДИКА ИДЕНТИФИКАЦИИ ЛИЦ ПО УСТНОЙ РЕЧИ НА РУССКОМ ЯЗЫКЕ
Программно-аппаратный комплекс «Диалект»
Программно-аппаратный комплекс для идентификации лиц по устной речи «Диалект» состоит из следующих основных блоков (см. рис. 4):
- персональный компьютер, имеющий быстродействующую буферную
и оперативную память;
- устройство ввода/вывода фонограмм в/из память компьютера;
- аппаратура звуковоспроизведения;
- устройство вывода текстовой и графической информации;
- системное и специальное программное обеспечение, позволяющее
проводить исследование устной речи на основе выявления и сравнения акустических и аудитивно-лингвистических признаков.
| Аппаратура звуковоспроизведения |
| ||
|
| ||
Устройство ввода/вывода фонограмм
|
| ||
| Программное обеспечение | |||
Персональный компьютер
| системное | специальное | |
|
| ||
| Устройство документирования |
| ||
Рис.4. Блок-схема программно-аппаратного комплекса «Диалект»
Обычно фонограммы, являющиеся объектом экспертного исследования, бывают зафиксированы на магнитной ленте в аудиокассете. В этом случае эксперт воспроизводит анализируемые фонограммы на аудиоаппаратуре и вводит их через аналого-цифровой преобразователь (АЦП) в память компьютера. Далее вся обработка речевых сигналов проводится на ЭВМ.
В качестве аппарата для звуковоспроизведения фонограмм может быть использован любой магнитофон. Однако для исключения возможности искажения речевых сигналов в момент их воспроизведения на магнитофоне последний должен быть высококачественным аппаратом (класса Hi-Fi). Так как фонограммы, поступающие на экспертизу, могут быть зафиксированы на различных носителях, то для ввода фонограмм используется комплект аудио- и видеоаппаратуры, позволяющий воспроизводить речевые сигналы с любых носителей (компакт-кассет, микрокассет, видеокассет).
АЦП осуществляет перевод аналогового (непрерывного) сигнала в цифровой (дискретный) вид. Разбиение непрерывного сигнала на отсчеты (по времени) называется дискретизацией. Операция дискретизации - это преобразование аналоговых сигналов (функций), непрерывных по аргументу, в функции мгновенных значений сигналов по дискретному аргументу, например, s(t) => s(nΔt), где значения s(nΔt) представляют собой отсчеты функции s(t) в моменты времени t = nΔt, n = 0,l,2,...N. Количество разбиений (отсчетов), выполненных в 1 секунду, называется частотой дискретизации.
Преобразование аналоговой формы речевых сигналов в цифровую выполняется согласно теореме Котельникова [32], в которой утверждается, что аналоговый сигнал, не имеющий спектральной энергии в области выше частоты F, может быть точно представлен его дискретными выборками, разнесенными по времени не более чем 1/(2*F).
Фонограммы, поступающие на экспертизу, как правило, не имеют спектральной энергии выше 5 кГц, поэтому они должны быть преобразованы в цифровую форму посредством дискретизации по времени с частотой выше 10 кГц. В системе «Диалект» принята частота дискретизации речевых сигналов равная 11150 Гц.
Процесс преобразования отсчетов сигнала в числа называется квантованием (по уровню). Операция квантования заключается в преобразовании дискретного сигнала s(nΔt) в цифровой вид s(n) = sn ≈ s(nΔt), n = 0,l,2,..,N, как правило, кодированный в двоичной системе счисления.
Динамический диапазон цифрового представления сигнала зависит от разрядности используемого АЦП. Разрядность квантования речевых сигналов по амплитуде, равная 16 бит, обеспечивает динамический диапазон около 90 дБ. Динамическим диапазоном устройства называется диапазон, в котором сохраняется линейная зависимость между входным сигналом и его оцифрованным значением.
В качестве устройства ввода фонограмм в ЭВМ, позволяющего преобразовывать аналоговый сигнал в цифровую форму, используется компьютеризированная речевая лаборатория CSL-4500 (рис. 5) фирмы «KAY PENTAX» (США), обладающая следующими техническими характеристиками:
| Рис. 5. Компьютеризированная речевая лаборатория CSL-4500 |
- разрешение АЦП / ЦАП - 16 бит;
- частота дискретизации - от 2,5 кГц до 51,2 кГц с шагом 25 Гц;
- динамический диапазон входного сигнала - более 86 дБ;
динамический диапазон выходного сигнала - более 80 дБ.
|
Кроме устройства CSL-4500, в качестве средства АЦП/ЦАП могут быть использованы и другие звуковые платы (sound blaster), имеющие характеристики не хуже указанных и обеспечивающие качественную оцифровку аналоговых сигналов, например, устройство «Audigy 2NX» фирмы «Creative», США, устройство «Камертон» фирмы «Центр речевых технологий», Россия и др.
Переведенный в цифровую форму акустический сигнал записывается в оперативную память компьютера или на магнитный диск для проведения дальнейшей обработки.
Экспертная практика последних лет показывает, что все чаще на исследование поступают фонограммы в цифровой форме (в виде звуковых файлов), полученные с помощью цифровых средств звукозаписи*. Запись в память ЭВМ цифровых фонограмм осуществляется обычным компьютерным копированием файлов с внешних носителей в память компьютера.
Обратное преобразование цифровых данных в аналоговую форму производится через цифро-аналоговый преобразователь (ЦАП). В этом случае дискретные выборки речевого сигнала преобразуются в аналоговую форму, сглаживаются и подаются на устройство звуковоспроизведения для прослушивания. При необходимости речевая волна в графическом виде (в виде осциллограммы) изображается на дисплее.
Прослушивание речевого сигнала осуществляется и для обеспечения контроля правильности выполнения операций ввода и обработки сигналов, и для проведения слухового анализа и сопоставления фонограмм.
Вычислительные операции, которые выполняются при анализе речевых сигналов и их сравнении по вычисленным признакам, достаточно трудоемки. Большие временные затраты связаны с операциями прямого и обратного преобразования Фурье, различными векторными и матричными операциями. Поэтому автоматизированная система «Диалект» базируется на современном быстродействующем компьютере. Необходимая емкость машинной памяти для записи речевой информации составляет около 180 Кб на отрезок устной речи длительностью 10 с. Это обусловливает необходимость большого объема накопителя на жестком диске ЭВМ для хранения исследуемых речевых сигналов, справочной звуковой информации и статистических данных для различных режимов обработки.
Математическое программное обеспечение «Диалект» состоит из двух основных частей: стандартного программного обеспечения и комплекса специально созданных программных модулей, предназначенных для анализа фонограмм и проведения идентификационного исследования.
Специализированное программное обеспечение позволяет использовать компьютер как инструмент для обработки речевых сигналов: с помощью ЭВМ осуществляется сегментация сигналов, хранение информации, вычисление и выявление идентификационных признаков, их сравнение, а также предъявление звуковых сигналов на прослушивание по заданным схемам.
Для исключения возможных ошибок при идентификационных исследованиях все аппаратные средства перед и после проведения каждой экспертизы должны проходить проверку правильности функционирования.
Дата добавления: 2018-04-04; просмотров: 1773; Мы поможем в написании вашей работы! |
Мы поможем в написании ваших работ!

Устройство ввода/вывода фонограмм
Персональный компьютер