Система идентификации диктора по голосу на основе GMM-UBM подхода | Статья в журнале «Молодой ученый»

Отправьте статью сегодня! Журнал выйдет 11 мая, печатный экземпляр отправим 15 мая.

Опубликовать статью в журнале

Библиографическое описание:

Система идентификации диктора по голосу на основе GMM-UBM подхода / В. С. Костыренко, А. В. Мазова, И. А. Власов [и др.]. — Текст : непосредственный // Молодой ученый. — 2019. — № 25 (263). — С. 27-31. — URL: https://moluch.ru/archive/263/61028/ (дата обращения: 29.04.2024).



Статья посвящена задаче текстонезависимой идентификации диктора по голосу. Рассматривается наиболее подходящий алгоритм, основанный на GMM-UBM системе, применимый к малым объемам голосовых данных, что наиболее часто встречается на практике. Проводится тестирование и оценка системы.

Ключевые слова: GMM, UBM, MFCC, идентификация по голосу.

Задача идентификации по голосу изучается уже больше 40 лет. Поиск наиболее эффективного решения этой задачи имеет большую важность для таких сфер деятельности, как, например, банковское дело и криминалистика. В первом случае технология распознавания по голосу позволит отойти от таких старых методов, как кодовые слова, и не заставит прерывать беседу между клиентом и работником банка. Во втором случае эта технология может применяться для идентификации подозреваемых по записи.

Обычно нет возможности получить достаточно много голосовых данных для одного человека, чтобы использовать системы с высокой точностью, такие как нейронные сети, поскольку приходилось бы растягивать разговор, что было бы неудобно, например, для клиента банка. Поэтому делается акцент на разработке системы, применимой к малому объему исходных данных.

Процесс идентификации можно разделить на три этапа:

  1. Предварительная обработка данных;
  2. Вычисление голосовых признаков;
  3. Применение алгоритма идентификации и верификации.

Каждый этап играет большую роль во всей системе идентификации.

При предварительной обработке данных с записи необходимо удалить те участки, на которых отсутствует голос диктора, что позволить сократить влияние шума на результат идентификации (рисунок 1).

Рис. 1. Сигнал до и после удаления шумов и пауз

Наиболее эффективными являются методы, основанные на энергии или на статистических данных шума. Все эти методы основаны на том, что в начале записи, когда человек еще не успел ничего сказать, присутствует только шум, который можно проанализировать.

Весь сигнал делится на отдельные равные участки, называемые фреймами. Затем, в случае с энергией, высчитывается энергия Ei каждого фрейма и среднее значение энергии для всей записи E. Если Ei < k * E, где k < 1, то на этом фрейме тишина. Значение k подбирается экспериментально [1].

Следующий этап — это превратить обработанную запись голоса в вектора признаков, которые будут в дальнейшем использоваться для обучения или идентификации.

Наиболее популярным выбором при работе со звуком являются мел-частотные кепстральные коэффициенты MFCC (Mel-Frequency Cepstral Coefficients) [2]. Особенностью данного подхода является полученного вектора характеристик от длины исходного сигнала и учет в нем разброса индивидуальных особенностей, говорящего. Схема расчета коэффициентов MFCC представлен на рисунке 2.

Рис. 2. Вычисление коэффициентов MFCC

  1. разбиваем на пересекающиеся фреймы;
  2. получаем спектр сигнала, применив к нему преобразование Фурье;
  3. раскладываем спектр по мел-шкале с помощью треугольных фильтров;
  4. возводим полученные значения в квадрат и логарифмируем — таким образом спектр будет больше соответствовать тому, как человек воспринимает звук;
  5. применяем к полученному набору коэффициентов дискретное косинусное преобразование, в результате чего получаем вектор MFСС.
  6. к вектору MFCC дополнительно высчитываем энергию, дельта и двойные дельта значения для каждого фрейма

После получения векторов признаков необходимо применить алгоритм идентификации и верификации. При идентификации мы находим диктора, наиболее близкого к тестовой записи, а при верификации принимаем решение, принадлежит ли тестовая запись группе дикторов, участвующих в обучении. Практическая интерпретация верификации заключается, например, в определении, зарегистрирован пользователь или нет.

Для реализации алгоритма идентификации используется GMM-UBM система. GMM (Gaussian Mixture Model) — это модель гауссовых смесей, которая будет представлять собой модель диктора. При таком подходе исходные данные представляются в виде кластеров, описываемых гауссианами (рисунок 3).

https://hsto.org/webt/ni/je/-m/nije-mrfqiykrrfykphnafbyr5w.png

Рис. 3. Модель гауссовых смесей

Модель гауссовых смесей определяется векторами математического ожидания , ковариационной матрицей ∑, векторами весов и количеством компонент смеси M. Для определения первых трех значений используется обучение с помощью алгоритмов k-средних и EM (Expectation Maximization) методом максимального правдоподобия [3].

UBM (Universal Background Model) — это GMM, обученная на относительно большом количестве голосовых данных. При GMM-UBM подходе модели отдельных дикторов обучаются с помощью MAP адаптации (Maximum A-Posteriori Adaptation) [4]. При таком подходе смещаются математические ожидания в сторону новых данных. Преимуществом UBM является быстрая адаптация новых дикторов и требования небольшого количества данных для этого.

Для идентификации диктора сначала необходимо найти модель, наиболее близкую к тесовой записи.

Здесь — соответственно значения весов, математических ожиданий и ковариационных матриц модели, а в качестве обозначается модель, — вектор признаков. М — количество компонент гауссовой смеси, D — размерность вектора признаков.

После нахождения наиболее близкой модели необходимо отнести запись к зарегистрированному или незарегистрированному пользователю. Для этого рассчитывается следующий показатель:

На основе сравнения этого значения с порогом и принимается решение о тестируемом дикторе.

Для тестирования построенной системы идентификации был собран набор из 100 дикторов. С помощью метода скользящего контроля были получены следующие метрики оценки качества системы.

Для этого определим следующую матрицу ошибок (таблица 1):

Таблица 1

Матрица ошибок

Зарегистрированные

Незарегистрированные

Приняты системой

TP (true positives) = 95

FN (false negatives) = 44

Не приняты системой

FP (false positives) = 5

TN (true negative) = 356

Пусть P = TP + FN, N = TN + FP, P' = TP + FP, N' = FN + TN. Тогда, на основе этих значений можно получить значения следующих мер качества:

− Точность (accuracy)

− Полнота (recall)

− Точность (precision)

− F — мера

Построенная система позволяет достаточно точно идентифицировать зарегистрированного диктора, однако допускает ошибки при принятии решения о незарегистрированном. Для дальнейшего улучшения системы необходимо рассмотреть и другие методы предобработки, вычисления голосовых признаков и построения модели дикторов, применимых к малому объему данных.

Литература:

  1. Verteletskaya, E., and Sakhnov, K. Voice activity detection for speech enhancement applications // Acta Polytechnica. 2010. № 50, 4.
  2. S. Davis, P. Mermelstein Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. // IEEE transactions on acoustics, speech, and signal processing. 1980. № 28, 4. С. 357–366.
  3. Jeff A. Bilmes A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models // International Computer Science Institute Berkeley CA. 1998. С. 7–13.
  4. Reynolds, D. A., Quatieri, T. F., Dunn, R. B. Speaker verification using adapted gaussian mixture models // Digital signal processing. 2000. № 10, 1. С. 19–41.
Основные термины (генерируются автоматически): MFCC, GMM, GMM-UBM, UBM, MAP, алгоритм идентификации, вектор признаков, идентификация диктора, предварительная обработка данных, тестовая запись.


Ключевые слова

GMM, UBM, MFCC, идентификация по голосу

Похожие статьи

Голосовая аутентификация | Статья в журнале «Молодой ученый»

При идентификации извлеченных признаков из образца диктора выполняется сравнение извлеченных признаков с моделями зарегистрированных пользователей. Результат сравнения определяется допуском/недопуском диктора.

Методы распознавания речи | Статья в журнале «Молодой ученый»

Предварительная обработка. На этапе предварительной обработки исходный сигнал преобразуется в векторы признаков, на основе которых затем будет произведена классификация.

Мел-частотные кепстральные коэффициенты (MFCC).

Разработка и исследование алгоритмов автоматизированной...

Разработка интерфейса модуля обработки данных ультразвукового контроля с идентификацией типов доработки. После авторизации пользователя в системе предусмотрен его переход на главную форму, содержащую поле управления осмотрами.

Выделение границ фонем речевого сигнала с помощью...

– выделение границ речи; – выделение признаков сигнала. Мел-частотные кепстральные коэффициенты (MFCC). из фонем, которая в наибольшей степени соответствует исходному отрезку речевого сигнала. Предварительная обработка речевых сигналов для системы...

Неконтролируемые методы машинного обучения при обнаружении...

Методы кластеризации работают, группируя наблюдаемые данные в кластеры, в соответствии с заданным коэффициентом подобия или линией отсчета. Существуют, по крайней мере, два подхода кластеризации основанных на обнаружении аномалий.

Метод согласованной идентификации в задаче ректификации...

Оценку вектора с, составленного из элементов фундаментальной матрицы, можно получить

Как уже отмечалось выше, алгоритм RANSAC обладая несомненно высокой точностью, в

2. Описание алгоритма. В методе согласованной идентификации из исходной системы (2)...

К вопросу биометрической идентификации | Статья в журнале...

Основная цель биометрической идентификации личности по изображению является создание и практическое использование системы обработки и

Для определения круга задач, связанных с вопросами предварительной обработки исходных изображений в проблеме биометрической...

Поиск объектов на изображении с использованием алгоритма...

Алгоритмы распознавания объектов | Статья в сборнике... Ключевые слова: распознавание образов, обработка изображений

Для этого формируется тестовая выборка из восьми образцов. Поиск объектов на изображении с использованием алгоритма адаптивного усиления.

Использование смарт-карт, построенных на RFID-технологии...

Данная работа описывает использование смарт-карт, построенных на RFID-технологии, в схемах биометрической идентификации, с использованием генерации ключевых последовательностей, для увеличения безопасности данных систем. Введение.

Похожие статьи

Голосовая аутентификация | Статья в журнале «Молодой ученый»

При идентификации извлеченных признаков из образца диктора выполняется сравнение извлеченных признаков с моделями зарегистрированных пользователей. Результат сравнения определяется допуском/недопуском диктора.

Методы распознавания речи | Статья в журнале «Молодой ученый»

Предварительная обработка. На этапе предварительной обработки исходный сигнал преобразуется в векторы признаков, на основе которых затем будет произведена классификация.

Мел-частотные кепстральные коэффициенты (MFCC).

Разработка и исследование алгоритмов автоматизированной...

Разработка интерфейса модуля обработки данных ультразвукового контроля с идентификацией типов доработки. После авторизации пользователя в системе предусмотрен его переход на главную форму, содержащую поле управления осмотрами.

Выделение границ фонем речевого сигнала с помощью...

– выделение границ речи; – выделение признаков сигнала. Мел-частотные кепстральные коэффициенты (MFCC). из фонем, которая в наибольшей степени соответствует исходному отрезку речевого сигнала. Предварительная обработка речевых сигналов для системы...

Неконтролируемые методы машинного обучения при обнаружении...

Методы кластеризации работают, группируя наблюдаемые данные в кластеры, в соответствии с заданным коэффициентом подобия или линией отсчета. Существуют, по крайней мере, два подхода кластеризации основанных на обнаружении аномалий.

Метод согласованной идентификации в задаче ректификации...

Оценку вектора с, составленного из элементов фундаментальной матрицы, можно получить

Как уже отмечалось выше, алгоритм RANSAC обладая несомненно высокой точностью, в

2. Описание алгоритма. В методе согласованной идентификации из исходной системы (2)...

К вопросу биометрической идентификации | Статья в журнале...

Основная цель биометрической идентификации личности по изображению является создание и практическое использование системы обработки и

Для определения круга задач, связанных с вопросами предварительной обработки исходных изображений в проблеме биометрической...

Поиск объектов на изображении с использованием алгоритма...

Алгоритмы распознавания объектов | Статья в сборнике... Ключевые слова: распознавание образов, обработка изображений

Для этого формируется тестовая выборка из восьми образцов. Поиск объектов на изображении с использованием алгоритма адаптивного усиления.

Использование смарт-карт, построенных на RFID-технологии...

Данная работа описывает использование смарт-карт, построенных на RFID-технологии, в схемах биометрической идентификации, с использованием генерации ключевых последовательностей, для увеличения безопасности данных систем. Введение.

Задать вопрос