[advanced] speech & audio signal processing es 157/257: speech and audio processing prof....

[Advanced] Speech & Audio Signal Processing ES 157/257: Speech and Audio Processing Prof. Patrick Wolfe, Harvard DEAS 02 February 2006

Upload: dylan-bradford

Post on 14-Dec-2015

223 views

Category:

Documents

3 download

Report

Download

Tags:

Embed Size (px):

TRANSCRIPT

[Advanced] Speech & Audio Signal Processing

ES 157/257: Speech and Audio ProcessingProf. Patrick Wolfe, Harvard DEAS

02 February 2006

State of the Art in Speech/Audio

Speech and audio processing may be divided into “low-level” and “high-level” inference Speech enhancement, compression, and

coding are all widely used technologies This low-level work is the most mature

High-level tasks will drive future advances Speech/music database information retrieval Automatic speaker and speech recognition

But low-level issues also remain…

Page 3: [Advanced] Speech & Audio Signal Processing ES 157/257: Speech and Audio Processing Prof. Patrick Wolfe, Harvard DEAS 02 February 2006

Fundamental Questions

How to obtain highly structured representations of speech and audio signals? Time frequency “atoms”

as building blocks How can statistical inference

enable advances in speech signal processing? A means to obtain an

“atomic decomposition” Statistical modeling of time-

frequency coefficients provides a principled solution

Page 4: [Advanced] Speech & Audio Signal Processing ES 157/257: Speech and Audio Processing Prof. Patrick Wolfe, Harvard DEAS 02 February 2006

Representative Applications

Missing data in the context of VOIP: Original Missing Restored

Source / Speaker Separation Source 1 Source 2

Mixture 1 Mixture 2

Recovery 1 Recovery 2

Page 5: [Advanced] Speech & Audio Signal Processing ES 157/257: Speech and Audio Processing Prof. Patrick Wolfe, Harvard DEAS 02 February 2006

Digital Speech/Audio Processing

Page 6: [Advanced] Speech & Audio Signal Processing ES 157/257: Speech and Audio Processing Prof. Patrick Wolfe, Harvard DEAS 02 February 2006

Speech Production

Page 7: [Advanced] Speech & Audio Signal Processing ES 157/257: Speech and Audio Processing Prof. Patrick Wolfe, Harvard DEAS 02 February 2006

Time-Scale Modification

Page 8: [Advanced] Speech & Audio Signal Processing ES 157/257: Speech and Audio Processing Prof. Patrick Wolfe, Harvard DEAS 02 February 2006

Time-Scale Modification

Male & Female Speaker Original Fast Faster Slower

Trumpet Original Fast Slow

Speech and Quasi-Periodic Audio Sinewave-based Modification Voicing-dependent Rate Factor

Page 9: [Advanced] Speech & Audio Signal Processing ES 157/257: Speech and Audio Processing Prof. Patrick Wolfe, Harvard DEAS 02 February 2006

More Time-Scale Modification

Falling Can, Bongo Drums, Loon Original Slow

Complex Non-Speech Signals Phase-Vocoder-based Modification Event-Dependent Phase Coherence

Page 10: [Advanced] Speech & Audio Signal Processing ES 157/257: Speech and Audio Processing Prof. Patrick Wolfe, Harvard DEAS 02 February 2006

Pitch and Vocal Tract Change

Male & Female Speaker Original Low pitch/Long vocal

tract High pitch/Short vocal

tract

Male Speaker Original and Monotone

Sinewave-based Modification

Page 11: [Advanced] Speech & Audio Signal Processing ES 157/257: Speech and Audio Processing Prof. Patrick Wolfe, Harvard DEAS 02 February 2006

Speech Coding

Female Speaker Original CELP 8000 bps Sine 4800 bps Sine 2400 bps

Sinewave-based Code-Excited Linear Prediction

Male Speaker Original CELP 8000 bps Sine 4800 bps Sine 2400 bps

Page 12: [Advanced] Speech & Audio Signal Processing ES 157/257: Speech and Audio Processing Prof. Patrick Wolfe, Harvard DEAS 02 February 2006

Noise Reduction

Cell Phone Noise, Cocktail Party, Automobile Noise Original Enhanced

Adaptive Wiener Filter Adaptation Based on Spectral Change

Page 13: [Advanced] Speech & Audio Signal Processing ES 157/257: Speech and Audio Processing Prof. Patrick Wolfe, Harvard DEAS 02 February 2006

Compression

Low-noise case Original 1.5 dB Reduction 3.0 dB Reduction

Reduction of Peak-to-RMS amplitude ratio Based on Sinewave Analysis/Synthesis

High-noise case Original 1.5 dB Reduction 3.0 dB Reduction

IEEE TRANSACTIONS ON AUDIO, SPEECH, AND …home.deib.polimi.it/...Sarti/...IEEE_TrASLP_virtual_analog_modeling_W… · IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING,

IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING…people.csail.mit.edu/jrg/2007/ming-aslp07.pdf · 2007. 10. 10. · IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING,

Audio-Visual Speech Processing: Progress & Challengesusers.cecs.anu.edu.au/~vishci/VisHCI2006/Papers/VisHCI... · 2007. 7. 11. · • Why audio-visual speech in human-computer interaction

RASTA processing of speech - Speech and Audio …labrosa.ee.columbia.edu/~dpwe/papers/HermM94-rasta.pdf · Title: RASTA processing of speech - Speech and Audio Processing, IEEE Transacti

166 IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING

IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, … · 2005. 7. 24. · IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL. 12, NO. 6, NOVEMBER 2004 561 Speech Enhancement Based

Digital signal processing IC for speech and audio applications · Digital signal processing IC for speech and audio applications Features • 24-bit, fixed point, 120 MIPS DSP core

Information for Speech Recognition Joint Processing of ... · Joint Processing of Audio and Visual Information for Speech Recognition ... speech understanding, speech synthesis,

ELEC9344: Speech and Audio Processingeemedia.ee.unsw.edu.au/contents/elec9344/LectureNotes/Chapter 8.pdf · ELEC9344: Speech and Audio Processing ... including Speech and Audio processing,

IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, … TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 22, NO. 2, FEBRUARY 2014 493 Bayesian Nonparametrics for Microphone Array Processing

14ec3029 Speech and Audio Signal Processing

Digital Audio and Speech Processing Speech Processing

IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING 1

IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING… · 2016. 9. 2. · IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 14, NO. 5, SEPTEMBER 2006 1557

Audio Pre-processing and Speech Recognition for Broadcast News

IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, …dtyeh/papers/yeh12_taslp.pdf · 2017-02-15 · IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL. 18, NO. 3, MARCH 2011 1

Digital Speech and Audio Processing E. Nemer Spring 2008€¦ · Digital Speech and Audio Processing E. Nemer Spring 2008 -3 Autocorrelation Function • The autocorrelation function

838 IEEE TRANSACTIONS ON AUDIO, SPEECH, AND …spl.telhai.ac.il/speech/pub/IEEE_ASL_04100696.pdf · 838 IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 15, NO. 3,

State of the art in speech and audio processing

Information for Speech Recognition Joint Processing of ... Speech Recognition ... speech onset cues with audio-based speech energy Audio-Visual Speech synthesis ... speech recognition

Audio-Visual Speech Processing: Progress & Challenges

Audio/Speech Signal Processing An Overview - IIT Kanpurhome.iitk.ac.in/~nnaik/pdf/PPT_AudioSpeech.pdf · Signal Processing Tasks •Audio/Speech Encoding/Decoding - Codecs ( DFT –Spectral

Audio and Speech Processing Topic 5: Acoustic Feedback Control

Audio-visual processing of speech with DNN...Audio-visual processing of speech with DNN Ido Ariav Electrical Engineering Department Technion - Israel Institute of Technology Supervised

RASTA processing of speech - Speech and Audio Processing ...dpwe/papers/HermM94-rasta.pdf · Title: RASTA processing of speech - Speech and Audio Processing, IEEE Transacti ons on

Digital Audio Signal Processing DASPhomes.esat.kuleuven.be/~dspuser/dasp/material/Slides_2017_2018... · 1 Speech & Audio Processing / Part-I Digital Audio Signal Processing DASP

Digital signal processing IC for speech and audio · PDF fileDigital signal processing IC for speech and audio applications ... Order code Package Packing ... 8 Package information

Speech and Audio Processing and Coding

712 IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL

Speech and Audio Processing Recognition and Audio Effects ... · Digital Signal Processing and System Theory| Recognition and Audio Effects | Beamforming Slide 2 Contents Beamforming

96 IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING

Speech and Audio Processing and Coding (cont.)

IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING

14 IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING…tabus/2013GhidoTabus.pdf · 2013-11-16 · 14 IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 21,

IEEE TRANSACTIONS ON AUDIO, SPEECH, AND …music.cs.northwestern.edu/publications/Rafii-Pardo - REpeating... · IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 21,

[advanced] speech & audio signal processing es 157/257: speech and audio processing prof....

Documents

speech production slide

speechaudio speech

timescale modification

speech recognition

speech signal processing

spectral change slide

principled solution

db reduction reduction