speech technologies
TRANSCRIPT
SpeechTechnologyCenter
SpeechTechnologyCenter
Современные речевые технологии: основные направления исследований
и применяемые подходы
Илья Опарин
201.03.2008 www.speechpro.comwww.speechpro.com
Acknowledgements
В презентации использованы материалы из лекций ЦРТ Е.Корольков К.Левин Е.Лысенко Т.Пеховский И.Тампель
Статьи Phoneme Based Acoustics Keyword Spotting in
Informal Continuous Speech. I. Szoke, P. Schwarz, P. Matejka, L. Burget, M. Karafiat, J. Cernocky
301.03.2008 www.speechpro.comwww.speechpro.com
Основные направления исследований
Распознавание речи Акустические модели Языковые модели
Выделение ключевых слов Определение языка сообщения Идентификация диктора Синтез речи
401.03.2008 www.speechpro.comwww.speechpro.com
Другие направления
Шумоочистка Определение эмоционального и
физического состояния Низкоскоростное кодирование речи Фоноскопические экспертизы Разделение дикторов Music Spotting
501.03.2008 www.speechpro.comwww.speechpro.com
Распознавание речи
Automatic Speech Recognition (ASR) Large Vocabulary Continuous Speech
Recognition (LVCSR )
601.03.2008 www.speechpro.comwww.speechpro.com
Распознавание речи
Распознавание цифр/команд IVR-системы Command-and-Control приложения
Навигаторы Логистика
Распознавание слитной речи Диктовка
Голосовой блокнот
Спонтанная речь Индексация речевых архивов Стенографирование Голосовые переводчики
701.03.2008 www.speechpro.comwww.speechpro.com
Распознавание команд
Динамическое программирование Исторически первый подход Создание шаблонов и сравнение с ними DTW (Dynamic Time Warping)
Статистические модели
801.03.2008 www.speechpro.comwww.speechpro.com
Распознавание слитной речи
Акустические модели Оценивают акустические вероятности
распознавания отдельных аллофонов Монофоны Трифоны
Языковые модели Оценивают вероятности следования слов
друг за другом
Декодер Выявление лучшей гипотезы в сети
распознавания
901.03.2008 www.speechpro.comwww.speechpro.com
Общая схема
1001.03.2008 www.speechpro.comwww.speechpro.com
Акустические модели
Статистические модели Скрытые марковские модели – HMM (Hidden
Markov Models) Смеси гауссовых распределений – GMM
(Gaussian Mixture Models)
Искусственные нейронные сети – ANN (Artificial Neural Networks)
Тренировка на размеченных речевых базах
Адаптация к диктору Нормализация на канал
1101.03.2008 www.speechpro.comwww.speechpro.com
Первичная обработка сигнала
ЦОС (цифровая обработка сигнала) Параметризация сигнала Создание векторов-признаков
Преобразование Фурье – FFT (Fast Fourier Transform)
MFCC (Mel-Frequency Cepstral Coefficients) PLP (Perceptual Linear Prediction)
1201.03.2008 www.speechpro.comwww.speechpro.com
HMM
21 43 65a5 6
a2 2
a4 5a 3 4a 2 3a 1 2
a 2 4 a 3 5
a3 3 a 4 4 a 5 5
С кры тая марков ская модель M
o1 o2 o3 o4 o5 o6
b 2(o 1) b2(o 2) b3(o 3) b4(o 4) b4(o 5) b5(o 6)
П оследов ательность наблю дений O
1301.03.2008 www.speechpro.comwww.speechpro.com
Формула Байеса
)(
)()()(
O
OO
P
wPwPwP iii
1401.03.2008 www.speechpro.comwww.speechpro.com
Параметры HMM
Параметры модели λ(A, B, π) π – начальное распределение вероятностей A={aij} – вероятность перехода из состояния
q(i) в q(j) Bj(x) – функция плотности вероятности
состояния si в пространстве признаков (вероятность эмиссии)
1501.03.2008 www.speechpro.comwww.speechpro.com
GMM
Аппроксимация функции плотности вероятности
где M – число гауссовых компонентов в распределении вероятностей, cjm – это вес m-го компонента смеси, N(o; μ, ∑) – это гауссова функция от нескольких переменных с вектором математического ожидания μ и корреляционной
матрицей ∑, которая определяется как
M
mjmjmtjmtj oNcob
1
),;()(
1601.03.2008 www.speechpro.comwww.speechpro.com
Моделирование распределения для 1 кепстрального коэффициента
1701.03.2008 www.speechpro.comwww.speechpro.com
Конкатенация HMM
2 11 1 4131 51
a 12 2
a 14 5a1
3 4a12 3a1
1 2
a 13 3 a 1
4 4
2 2 4 23 2 5 2
a 22 2
a 24 5a 2
3 4a 22 3a 2
1 2
a 23 3 a 2
4 4
М С М П 1 М С М П 2
1801.03.2008 www.speechpro.comwww.speechpro.com
Обучение HMM
Обучение
ГК1 ГК2 ГК3
С ловарь голосовы х команд
Обучающ ие последовательности векторов наблюдения
O 1 1 O1 2 O1 3
M г к1
O2 1 O 22 O2 3
M г к 2
O 3 1 O3 2 O3 3
M г к3
Модели голосовы х команд
Р аспознав ание
Н еизв естная O = o1, o2 .. oT
P (O|M г к1 ) P(O|M г к 2 ) P (O |M г к3 )
Вы бор максимальной вероятности
Алгоритм Баума-Уэлша (Baum-Welch) Разновидность EM-алгоритма
1901.03.2008 www.speechpro.comwww.speechpro.com
Нейронные сети
2001.03.2008 www.speechpro.comwww.speechpro.com
ANN
2101.03.2008 www.speechpro.comwww.speechpro.com
Модели языка
Оценка вероятности следования слов N-граммный подход Сложные лингвистические подходы до
сих пор мало применимы
Language Models (LM)
2201.03.2008 www.speechpro.comwww.speechpro.com
A statistical language model is simply a probability distribution P(s) over all possible sentences s.
Ronald Rosenfeld
2301.03.2008 www.speechpro.comwww.speechpro.com
Every time I fire a linguist the performance of the recognizer improves.
Fred Jelinek (IBM Speech Group)
2401.03.2008 www.speechpro.comwww.speechpro.com
Оценка LM
Word Error Rate (WER) Сложно сравнивать для разных ASR
платформ Сложно выделить вклад LM
Перплексия (Perplexity) Основана на понятии энтропии Можно оценить на основании только текста Соответствует среднему значению
ветвления LM
2501.03.2008 www.speechpro.comwww.speechpro.com
Правило Байеса
Задача распознавания: R = argmaxP(W|O)
По правилу Байеса
Так как P(O) константа для всех кандидатов
R = argmaxP(O|W)P(W)
P(O|W) – Acoustic Likelihood Вычисляется акустическими моделями
P(W) – Prior Probability Вычисляется моделью языка
)(
)()|(maxarg
OP
wPwOPR
2601.03.2008 www.speechpro.comwww.speechpro.com
Характеристики модели языка
Изолированная вероятность
Не учитывает контекст – чисто лексическая
Нужна более сложная оценка LM – часть общей системы
распознавания Должна обеспечивать улучшение
распознавания Не должна замедлять работу Должна быть достаточно простой, легко
параметризируемой и перестраиваемой
N
wCwP
)()(
2701.03.2008 www.speechpro.comwww.speechpro.com
N-граммный подход
Учет контекста Ограничиваемся левым контекстом
Chain Rule:
Вычислительно невыполнимо Количество независимых параметров n=Vi
Контекст ограничивается N непосредственными соседями
N
iiiN wwwwPwwwPWP
112121 )|()()(
2801.03.2008 www.speechpro.comwww.speechpro.com
N-граммы
N-непосредственных соседей слева Maximum Likelihood Estimation (MLE):
w1 w2 w3 w4 w5 w6 Триграмма w3 w4 w5 w3 w4 – N-граммная история для w5
)(
)(
)(
)()|()|(
11
1
11
111121
ini
ini
jjini
iniiniiii wwC
wwC
wwwC
wwCwwwPwwwwP
)(
)(
)(
)()|(
43
543
43
543435 wwC
wwwC
wwwC
wwwCwwwP
jj
2901.03.2008 www.speechpro.comwww.speechpro.com
Sparsity Problem
Наиболее популярные значения N = {2, 3, 4} Любого корпуса недостаточно для оценки всех
параметров Количество парметров в 4-граммной модели (словарь
65K): 654 = 1.8×1019
Количество реальных параметров примерно в 1011 раз меньше
И все равно слишком много
Техники сглаживания и отката/интерполяции Smoothing and Backoff Если в тренировочном корпусе не встретили N-
граммы, то скорее всего это проблема маленького корпуса, а не языковой невозможности N-граммы
3001.03.2008 www.speechpro.comwww.speechpro.com
Сглаживание и откат
Unseen N-grams Тренировочный корпус беден
Неправильное отсечение корректного кандидата
Сглаживание Забирает немного вероятностной массы от
“seen” N-грамм
Откат или интерполяция Распределяет выделенную массу среди
“unseen” N-грамм
Вероятности должны суммироваться в 1
3101.03.2008 www.speechpro.comwww.speechpro.com
Техники сглаживания
Add-one Witten-Bell Good-Turing Jelinek-Mercer Kneser-Ney
3201.03.2008 www.speechpro.comwww.speechpro.com
Backoff
Грамотное распределение вероятностной массы:
Если N-грамма “unseen”, используется вероятность “seen” (N-1)-граммы
Вероятность (N-1)-граммы берется с дискаунтом Вероятности должны суммироваться в 1
Вместо отката можно использовать интерполяцию N-грамм разных порядков
.)(~)(
0)(0)(),|(~)(
0)(),|(~
)|(ˆ
1
112112
1212
12
otherwisewPw
wwCandwwwCifwwPw
wwwCifwwwP
wwwP
in
iiiiiiinn
iiiiii
iii
3301.03.2008 www.speechpro.comwww.speechpro.com
N-граммы: за и против
Введены в распознавание более 30 лет назад (Ф.Елинек) – все еще основа любой LM
Легко тренировать Робастные
Учет только короткого контекста
Чистая статистика без лингвистики
Sparsity problem
3401.03.2008 www.speechpro.comwww.speechpro.com
Усовершенствования N-грамм
Немотивированные лингвистически Классовые модели Кэш-модели Topic-модели Модели триггеров Деревья решений Экспоненциальные модели
Лингвистически мотивированные Частеречная информация Морфология Синтаксис Семантика Факторные модели
3501.03.2008 www.speechpro.comwww.speechpro.com
Морфология в моделях языка
Значительное сжатие модели Меньший словарь Меньший тренировочный корпус Меньший размер модели
Улучшения на втором проходе Модель теряет преимущества компактности Модель усложняется
Улучшение распознавания на первом проходе В терминах WER – пока под вопросом Улучшение перплексии
Возможно, неправильно считают
Нужны очень сильные акустические модели
Использование грамматической информации
3601.03.2008 www.speechpro.comwww.speechpro.com
Синтаксис в моделях языка
“Long-span” синтаксические связи Контекст- целое предложение
Должны быть особенно полезны для языков со свободным порядком слов
Context-Free grammars Link Grammars Dependency grammars Structured Language Model (SLM)
3701.03.2008 www.speechpro.comwww.speechpro.com
Семантика в моделях языка
Реально работает только модель Скрытого семантического анализа Latent Semantic Analysis (LSA)
Основано на технике SVD из линейной алгебры
3801.03.2008 www.speechpro.comwww.speechpro.com
Putting Language Back to Language Modelling
Language modelling Модели очень сложны Нет явного общепризнанного успеха
В данной области необходим прорыв
3901.03.2008 www.speechpro.comwww.speechpro.com
Выделение ключевых слов
Keyword Spotting (KWS) Spoken Term Detection (STD)
4001.03.2008 www.speechpro.comwww.speechpro.com
Применяемые подходы
На основе ДП На основе KWS-сети
Методы распознавания речи HMM / GMM / ANN
Фоновая модель
На основе ASR Словные латтисы Фонемные латтисы
4101.03.2008 www.speechpro.comwww.speechpro.com
KWS на моделях ключевых слов
4201.03.2008 www.speechpro.comwww.speechpro.com
Монофонная KWS-сеть
4301.03.2008 www.speechpro.comwww.speechpro.com
Трифонная KWS-сеть
4401.03.2008 www.speechpro.comwww.speechpro.com
KWS на основе ASR – словные латтисы
Индексация звука при помощи LVCSR-системы
Поиск в словных латтисах Высокая скорость поиска Высокая надежность в случае хорошего
LVCSR
Проблемы Принципиально невозможно найти ключевое
слово, если оно OOV для системы распознавания
Сильно зависит от качества LVCSR-системы и ее ограничений
4501.03.2008 www.speechpro.comwww.speechpro.com
KWS на основе ASR – фонемные латтисы
Индексация звука при помощи системы пофонемного распознавания на фонемном уровне
Поиск ключевого слова Добавление слова в соответствующее место
словного латтиса Пересчет словного латтиса LVCSR-системой
Проблемы: огромный размер фонемных латтисов Сильно зависит от качества ASR-систем и их
ограничений
4601.03.2008 www.speechpro.comwww.speechpro.com
Современный уровень распознавания
Распознавание команд Зависит то количества
Диктовка Хорошее качество для английского
Адаптация к диктору Низкий уровень шума
Спонтанная речь - проблемно Адаптация моделей языка Устойчивость к шуму (Robustness)
4701.03.2008 www.speechpro.comwww.speechpro.com
Распознавание языка сообщения
Language Identification (LID) Language Recognition
4801.03.2008 www.speechpro.comwww.speechpro.com
Области применения
Контакт-центры IVR-системы
Службы безопасности
4901.03.2008 www.speechpro.comwww.speechpro.com
Применяемые подходы
GMM Построение GMM-моделей отдельных
языков
Фонотактический подход Phonotactic Approach
Комбинация подходов Формирование общей вероятностной меры
5001.03.2008 www.speechpro.comwww.speechpro.com
Фонотактический подход
Распознавание на фонемном уровне Использованием система фонемного
распознавания для одного фиксированного языка
Построение N-граммных фонемных моделей для каждого языка
Оценка фонемного латтиса, соответствующего тестовому сигналу каждой из фонотактических моделей
5101.03.2008 www.speechpro.comwww.speechpro.com
Идентификация диктора
Speaker Identification (SID) Speaker Recognition Speaker Verification/Authentication
5201.03.2008 www.speechpro.comwww.speechpro.com
Идентификация/Верификация
Идентификация диктора Речевые сервисы Службы безопасности
Мониторинг телефонных каналов
Как правило текстонезависима
Верификация диктора Системы доступа
Голосовой банкинг Голосовой замок и т.п.
Может быть как текстозависимой, так и текстонезависимой
5301.03.2008 www.speechpro.comwww.speechpro.com
Развитие идентификации
Экспертные методы «В круге первом» А.Солженицына
Автоматические методы Спектральный подход
Исследование мест и поведения формант
Основной тон Статистические модели
GMM Нейросетевые подходы
5401.03.2008 www.speechpro.comwww.speechpro.com
Меры оценки качества
Ошибка пропуска цели False Rejection
Ошибка ложного срабатывания False Alarm, False Acceptance
Равновероятная ошибка EER (Equal Error Rate)
DET-кривые Detection Error Tradeoff
5501.03.2008 www.speechpro.comwww.speechpro.com
Спектральные методы
Автоматическое выделение формант 3 и 4 форманты
Метод «ближайшего соседа» Сравнение векторов формант Нахождение ближайшего вектора из
присутствующих в базе
5601.03.2008 www.speechpro.comwww.speechpro.com
Distance Calculation
R
U
R
U
… …
… …
… …
… …
5701.03.2008 www.speechpro.comwww.speechpro.com
Статистические подходы - GMM
GMM-модели диктора Фоновая модель (модель импостера) Нормализация на канал
5801.03.2008 www.speechpro.comwww.speechpro.com
Базы данных
Один канал записи Несколько подходов для каждого диктора
Минимум 3 подхода
5901.03.2008 www.speechpro.comwww.speechpro.com
Модели диктора
Базовый вариант GMM-модель
Усовершенствования SVM
Для классификации средних в GMM NAP (Nuissance Attribute Projection)
Нормализации H-norm, T-norm, Z-norm SMS (Speaker Model Synthesis) Feature Warping MLLR (Maximum Likelihood Linear Regression) Joint Factor Analysis
– Собственный канал (Eigen Channel)– Собственный диктор (Eigen Voice)
Декореллирование и уменьшение размерности векторов-признаков LDA, HLDA (Linear Discriminant Analysis)
6001.03.2008 www.speechpro.comwww.speechpro.com
Фоновая модель
Универсальная фоновая модель Universal Background Model (UBM)
Описывается большим количеством гауссиан (напр. 2048)
6101.03.2008 www.speechpro.comwww.speechpro.com
Модель диктора с использованием UBM
Модели диктора и UBM не могут существовать отдельно друг от друга Модель диктора можно получить путем
адаптации UBM MAP-адаптация
Требуется много данных от диктора Серьезные вычислительные затраты
MLLR “Быстрая” адаптация
Eigen channel Наиболее перспективная технология
6201.03.2008 www.speechpro.comwww.speechpro.com
Синтез речи по тексту
Text-to-Speech (TTS) Speech Synthesis
6301.03.2008 www.speechpro.comwww.speechpro.com
Синтез речи
Исторически первое направление в речевых технологиях
Главная цель: достижение максимальной естественности «чтения» произвольного текста
6401.03.2008 www.speechpro.comwww.speechpro.com
Области применения
Независимое применение Слабовидящие люди Системы оповещения Чтение SMS, e-mail, объявлений…
В составе более крупных систем IVR системы Диалоговые системы Автоматический перевод с речи на речь
6501.03.2008 www.speechpro.comwww.speechpro.com
Главные проблемы
Разборчивость речи Задача решена
Естественность речи Человек быстро теряет концентрацию, если
речь неестественна Человек не склонен общаться с системой,
звучащей неестественно Тест Тьюринга
Компромисс между качеством, памятью и быстродействием
6601.03.2008 www.speechpro.comwww.speechpro.com
Системы синтеза речи - история
XIII век – Р.Бэкон 1779 – К.Краценштейн (артикуляторный синтез, 5
гласных) 1791 – В. Фон Кемпелен (модель языка и губ, синтез
гласных и согласных) 1930s –VOCODER (управление с клавиатуры,
разборчивая речь) 40-50-е – Дальнейшие механические улучшения в
артикуляторной модели 1968 – первая полноценный синтез на компьютере (Bell
labs) 70-е – Первые конкатенативные синтезаторы 80-е – Формантные синтезаторы, первые коммерческие
применения (DECTalk) 90-е – Компилятивные синтезаторы с полными речевыми
базами, Unit Selection 2000-е – Unit Selection, HMM/GMM синтезаторы
6701.03.2008 www.speechpro.comwww.speechpro.com
Системы русской речи - сейчас
Лучшее качество – Unit Selection Синтезаторы в реальном времени Относительно естественное звучание для основных
европейских языков Будущее
HMM синтез: быстрый прогресс, но изначальные ограничения модели
Unit Selection: увеличение вычислительных возможностей
Синтезаторы русской речи Elan ЦРТ Sacrament Loquendo
6801.03.2008 www.speechpro.comwww.speechpro.com
Артикуляторный синтез
Модель артикуляторных движений и характеристик речевого тракта Articulatory Synthesis
Крайне неестественное звучание Отсутствие индивидуальных характеристик
голоса в синтезированной речи Невозможность точного динамического
моделирования речевого тракта Сложность генерации сигнала возбуждения
6901.03.2008 www.speechpro.comwww.speechpro.com
Формантный синтез
Формантный синтез = синтез по правилам Rule-Based Synthesis
Отталкиваемся от акустики Построение формант и других характеристик
при помощи правил и фильтров
- Неестественность и роботизированность синтезированной речи
+ Высокая разборчивость (даже на высоких скоростях), компактность
7001.03.2008 www.speechpro.comwww.speechpro.com
Компилятивный синтез (Concatenative Synthesis)
Макросинтез Дифонный/Аллофонный синтез Unit Selection
7101.03.2008 www.speechpro.comwww.speechpro.com
Макросинтез (Domain-specific Synthesis)
Большие целиком записанные фразы Высокое качество
Мало стыков, большие речевые сегменты Но: рассогласование интонации
Жесткие ограничения по области применения Нельзя синтезировать произвольный текст Вокзалы, аэропорты и т.п.
7201.03.2008 www.speechpro.comwww.speechpro.com
Компилятивный синтез из единиц фиксированной длины
Баланс между размером звуковой базы (количество единиц) и качеством синтеза
Типы единиц Фонема
Не работает Дифон
Учет стыков между двумя аллофонами Аллофон
Полноценная контекстно-зависимая единица Слог
Проблемы с увеличением размера базы
Компактность речевой базы Относительно высокое качество звучания
Учет индивидуальных характеристик Модификации сигнала ухудшают качество
7301.03.2008 www.speechpro.comwww.speechpro.com
Модификации сигнала
Модификации в частотной области Повышение/понижение основного тона Моделирование интонации
Модификации во временной области Ускорение-замедление темпа
Модификации энергии сигнала Моделирование интонации
Любые модификации приводят к ухудшению качества сигнала
7401.03.2008 www.speechpro.comwww.speechpro.com
Unit Selection
Основные идеи Меньше склеек – лучше качество Меньше модификаций сигнала – лучше
качество
Уменьшение количества склеек Укрупнение единиц
Уменьшение модификаций Несколько реализаций для каждой единицы Реализации в разных интонационных
конструкциях
7501.03.2008 www.speechpro.comwww.speechpro.com
Общая структура TTS
7601.03.2008 www.speechpro.comwww.speechpro.com
Создание TTS – запись речевой базы
Богатый голос Профессиональный диктор
Заглушенная камера Аллофонный/дифонный синтез
Специально подобранные слова
Unit selection Несколько часов (5-10) чтения Осознанный выбор текста для чтения
Общеупотребительная лексика Наличие диалогов
Многоуровневая сегментация
7701.03.2008 www.speechpro.comwww.speechpro.com
Создание TTS – нормализация текста
Что-о-о??!! Слава КПСС! Около 12:37 в ночь на 15.06.2007 Настоятельно рекомендую одолжить мне
100$ до завтра 2*2=22
Мы любим Microsoft г. Бобруйск – центр вселенной Это очень любопы-
7801.03.2008 www.speechpro.comwww.speechpro.com
Создание TTS – анализ текста
7901.03.2008 www.speechpro.comwww.speechpro.com
Создание TTS – анализ текста
Определение места ударения и буквы ё Морфо-грамматический словарь
Омография Белок
сущ., м.р., им.п., ед.ч. бело<к сущ., ж.р., р.п., мн.ч. бе<лок сущ., м.р., в.п., ед.ч. бело<к сущ., ж.р., в.п., мн.ч. бе<лок
мел – мел/мёл
Правильное грамматическое согласование К 4 часам утра
8001.03.2008 www.speechpro.comwww.speechpro.com
Создание TTS – анализ текста
Выделение интонационных единиц На основании пунктуации
Вот и все, приехали…
На основании связей в тексте Обстоятельства и причина смерти моей весьма
фотогеничной матери были довольно оригинальные (пикник, молния)
Определение интонационного типа и места логического ударения На основании пунктуации
Удивительно!
На основании смысла текста Я считаю это ну полным бредом!
8101.03.2008 www.speechpro.comwww.speechpro.com
Создание TTS - транскриптор
8201.03.2008 www.speechpro.comwww.speechpro.com
Создание TTS - транскриптор
Фонетический алфавит G-to-P (Grapheme-to-Phoneme) Молоко → /m a2 l a1 k o0/
Редукция гласных Аканье Оглушение
снег Ассимиляция
сделать Выпадение
солнце Фузии
под столом
8301.03.2008 www.speechpro.comwww.speechpro.com
Создание TTS – модификация звука
8401.03.2008 www.speechpro.comwww.speechpro.com
Unit Selection - intuition
Большая размеченная база Можно найти единицу, которая будет
лучшей для синтеза из списка кандидатов
Главная проблема – найти лучшую Target Cost – соответствие целевым
параметрам Фонетический контекст F0, ударение, позиция во фразе
Concatenation Cost – плавность перехода между соседними единицами Форманты, энергия, F0…
8501.03.2008 www.speechpro.comwww.speechpro.com
Target Cost
Сумма sub-costs Ударение Позиция во фразе F0 Длительность Лексическое соответствие
C t u i , t ik 1
p
w kt C k
t u i , t i
8601.03.2008 www.speechpro.comwww.speechpro.com
Concatenation Cost
Мера гладкости соединения Измеряется для двух соседних единиц Состоит из суммы sub-costs
Спектральные характеристики F0 Энергия
C c u i 1 , u ik 1
q
w kc C k
c u i 1 , u i
8701.03.2008 www.speechpro.comwww.speechpro.com
Total Cost
C u , ti 1
n
C t u i , t ii 2
n
C c u i 1 , u i
8801.03.2008 www.speechpro.comwww.speechpro.com
Преимущества и недостатки US
Высокое качество звучания
Естественная (без модификаций) просодика
Местами качество может быть плохим Плохое качество на
фоне хорошего очень раздражает
Большие объем вычислений
Большой объем базы
8901.03.2008 www.speechpro.comwww.speechpro.com
HMM-синтез
Основан на статистических скрытых марковских моделях
Модели различных аллофонов тренируются на размеченной базе MFCC или PLP коэффициенты
Удобный подход для исследовательских целей Легко изменять различные параметры
(напр., интонационные) и отслеживать результат
9001.03.2008 www.speechpro.comwww.speechpro.com
Рекомендуемая литература
SPEECH and LANGUAGE PROCESSING. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition D.Jurafsky, R.Martin
The HTK book Young et al.
Spoken Language Processing X. Huang, A. Acero & H.-W. Hon
Statistical Methods for Speech Recognition F.Jelinek
9101.03.2008 www.speechpro.comwww.speechpro.com