mfcc trong nhẬn dẠng tiẾng nÓi

15
MFCC TRONG NHẬN DẠNG TiẾNG NÓI Lớp : D07DTMT Nhóm 13 : Lê Dương Ngọc Lê Văn Trọng

Upload: ngocbik

Post on 25-Jun-2015

607 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: MFCC TRONG NHẬN DẠNG TiẾNG NÓI

MFCC TRONG NHẬN DẠNG TiẾNG NÓI

Lớp : D07DTMT

Nhóm 13 : Lê Dương Ngọc

Lê Văn Trọng

Page 2: MFCC TRONG NHẬN DẠNG TiẾNG NÓI

Hệ thống nhận dạng tiếng nói

Page 3: MFCC TRONG NHẬN DẠNG TiẾNG NÓI

MFCC (Mel frequency cepstral coefficient)

MFCC là phương pháp trích chọn đặc trưng dựa trên các hệ số cepstral

- Tín hiệu tiếng nói sẽ được trích chọn các đặc trưng sau khi thu âm

- Kết quả sau quá trình này là tập các vecto đặc trưng âm học

- Là tiền đề cho quá trình huấn luyện hệ thống sau này

Page 4: MFCC TRONG NHẬN DẠNG TiẾNG NÓI

Sơ đồ khối quá trình phân tích MFCC

Page 5: MFCC TRONG NHẬN DẠNG TiẾNG NÓI

Quá trình phân tích MFCC

Pre-emphasis

- Tín hiệu tiếng nói s (n) được cho qua một bộ lọc thông cao

s2(n) = s(n) - a*s(n-1)

với hệ số cố định a thường chọn là 0.95

- Hàm truyền đạt:

H(z)=1-a*z-1

- Điều này làm cho phẳng phổ tín hiệu, ít bị ảnh hưởng bởi các phép biến đổi.

Page 6: MFCC TRONG NHẬN DẠNG TiẾNG NÓI

Output Pre-emphasis

Page 7: MFCC TRONG NHẬN DẠNG TiẾNG NÓI

Frame blocking

Tín hiệu tiếng nói đầu vào được chia nhỏ thành các khung hình từ 20 ~ 30 ms

Gồm các khung có N mẫu

Các khung cạnh nhau cách biệt M mẫu

Page 8: MFCC TRONG NHẬN DẠNG TiẾNG NÓI

Hamming windowing

Tín hiệu sẽ được trở về 0 ở phần bắt đầu và kết thúc của mỗi khung

-> Tức là giảm nhỏ sự không liên tục của tín hiệu

Cửa sổ hamming

w(n, a) = (1 - a) - a cos(2pn/(N-1)), 0 n N-1 ≦ ≦

Page 9: MFCC TRONG NHẬN DẠNG TiẾNG NÓI

Cửa sổ Hamming

Page 10: MFCC TRONG NHẬN DẠNG TiẾNG NÓI

Fast Fourier Transform or FFT

Phổ tín hiệu sau khi nhân với cửa sổ Hamming sẽ sử dụng phép biến đổi Fourier nhanh

-> Thu được biên độ phổ chứa các thông tin có ích của tín hiệu tiếng nói

Page 11: MFCC TRONG NHẬN DẠNG TiẾNG NÓI

Triangular Bandpass Filters(bộ lọc dải tam giác)

Hệ lọc này gồm 23 băng con(subbands)

Thành phần FFT phổ được nhân với một tam giác và được tích lũy vào một vùng tần số xác định

-> Đó là thành phần phổ Mel

Công thức tính tần số Mel:

mel (f) = 1.125 * ln (1 + f/700)

Page 12: MFCC TRONG NHẬN DẠNG TiẾNG NÓI

Discrete cosine transform(DCT)Để trích chọn thành phần đặc trưng

Ta áp dụng phép biến đổi Cosine rời rạc(DCT) cho logarit phổ Mel

-> Các đặc trưng độc lập này sẽ tạo thuận lợi cho việc mô hình tiếng nói và so sánh đối chiếu mẫu

Công thức thường dùng tính hệ số DCTi

Cm=Sk=1Ncos[m*(k-0.5)*p/N]*Ek, m=1,2, ..., L

Page 13: MFCC TRONG NHẬN DẠNG TiẾNG NÓI

Kết luận

Tốc độ tính toán cao

Độ tin cậy lớn

Được sử dụng rất hiệu quả trong các chương trình nhận dạng hiện nay

Page 14: MFCC TRONG NHẬN DẠNG TiẾNG NÓI

Tài liệu tham khảo

[1] https://ccrma.stanford.edu/~unjung/mylec/mfcc.html

[2] “Bài giảng xử lý tiếng nói ” Lê xuân Thành

[3] http://vi.wikipedia.org/wiki/Nh%E1%BA%ADn_d%E1%BA%A1ng_ti%E1%BA%BFng_n%C3%B3i

Page 15: MFCC TRONG NHẬN DẠNG TiẾNG NÓI