mfcc trong nhẬn dẠng tiẾng nÓi
TRANSCRIPT
MFCC TRONG NHẬN DẠNG TiẾNG NÓI
Lớp : D07DTMT
Nhóm 13 : Lê Dương Ngọc
Lê Văn Trọng
Hệ thống nhận dạng tiếng nói
MFCC (Mel frequency cepstral coefficient)
MFCC là phương pháp trích chọn đặc trưng dựa trên các hệ số cepstral
- Tín hiệu tiếng nói sẽ được trích chọn các đặc trưng sau khi thu âm
- Kết quả sau quá trình này là tập các vecto đặc trưng âm học
- Là tiền đề cho quá trình huấn luyện hệ thống sau này
Sơ đồ khối quá trình phân tích MFCC
Quá trình phân tích MFCC
Pre-emphasis
- Tín hiệu tiếng nói s (n) được cho qua một bộ lọc thông cao
s2(n) = s(n) - a*s(n-1)
với hệ số cố định a thường chọn là 0.95
- Hàm truyền đạt:
H(z)=1-a*z-1
- Điều này làm cho phẳng phổ tín hiệu, ít bị ảnh hưởng bởi các phép biến đổi.
Output Pre-emphasis
Frame blocking
Tín hiệu tiếng nói đầu vào được chia nhỏ thành các khung hình từ 20 ~ 30 ms
Gồm các khung có N mẫu
Các khung cạnh nhau cách biệt M mẫu
Hamming windowing
Tín hiệu sẽ được trở về 0 ở phần bắt đầu và kết thúc của mỗi khung
-> Tức là giảm nhỏ sự không liên tục của tín hiệu
Cửa sổ hamming
w(n, a) = (1 - a) - a cos(2pn/(N-1)), 0 n N-1 ≦ ≦
Cửa sổ Hamming
Fast Fourier Transform or FFT
Phổ tín hiệu sau khi nhân với cửa sổ Hamming sẽ sử dụng phép biến đổi Fourier nhanh
-> Thu được biên độ phổ chứa các thông tin có ích của tín hiệu tiếng nói
Triangular Bandpass Filters(bộ lọc dải tam giác)
Hệ lọc này gồm 23 băng con(subbands)
Thành phần FFT phổ được nhân với một tam giác và được tích lũy vào một vùng tần số xác định
-> Đó là thành phần phổ Mel
Công thức tính tần số Mel:
mel (f) = 1.125 * ln (1 + f/700)
Discrete cosine transform(DCT)Để trích chọn thành phần đặc trưng
Ta áp dụng phép biến đổi Cosine rời rạc(DCT) cho logarit phổ Mel
-> Các đặc trưng độc lập này sẽ tạo thuận lợi cho việc mô hình tiếng nói và so sánh đối chiếu mẫu
Công thức thường dùng tính hệ số DCTi
Cm=Sk=1Ncos[m*(k-0.5)*p/N]*Ek, m=1,2, ..., L
Kết luận
Tốc độ tính toán cao
Độ tin cậy lớn
Được sử dụng rất hiệu quả trong các chương trình nhận dạng hiện nay
Tài liệu tham khảo
[1] https://ccrma.stanford.edu/~unjung/mylec/mfcc.html
[2] “Bài giảng xử lý tiếng nói ” Lê xuân Thành
[3] http://vi.wikipedia.org/wiki/Nh%E1%BA%ADn_d%E1%BA%A1ng_ti%E1%BA%BFng_n%C3%B3i