extrakce melodie z audio signálu
DESCRIPTION
Extrakce melodie z audio signálu. Ladislav Vincourek 5.12.2006. Úvod. Co je to melodie , audio signál, tón. Short-Time Fourier transform Support Vector Machine Multi-track, MIDI soubor Testovací data ISMIR 2004. Extrakce melodie. Audio signál. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/1.jpg)
Extrakce melodie z audio signálu
Ladislav Vincourek5.12.2006
![Page 2: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/2.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
2
Úvod
• Co je to melodie, audio signál, tón.
• Short-Time Fourier transform
• Support Vector Machine
• Multi-track, MIDI soubor
• Testovací data ISMIR 2004.
![Page 3: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/3.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
3
Extrakce melodie
![Page 4: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/4.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
4
Audio signál
• signál (z latinského signalis - dávat znamení)
![Page 5: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/5.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
5
Zvukové vlnění
• Jako zvuk označujeme mechanické vlnění, které vnímáme sluchem. jeho frekvence leží v intervalu přibližně 16 Hz až 16 000 Hz (16 kHz).
• Mechanické vlnění s frekvencí menší než 16 Hz je infrazvuk, frekvenci vetší než 16 kHz má ultrazvuk.
• Fyzikálními ději, které jsou spojeny se vznikem zvukového vlnění, jeho šířením a vnímání zvuku sluchem se zabývá akustika.
![Page 6: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/6.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
6
Šířka pásma pro různé zdroje zvuku
Zdroj zvuku Šířka pásmaradio (FM) 50Hz - 15 kHzradio (AM) 80Hz - 5 kHzCD přehrávač 20 Hz - 20 kHzzvuková karta SB16 30 Hz - 20 kHz(levný ) mikrofon 80 Hz - 12 kHztrubka 180 Hz - 8 kHztelefon 300 Hz - 3 kHzdětské uši 20 Hz - 20 kHzuši příznivce rocku 50 Hz - 10 kHzmužský hlas 120 Hz - 7 kHzženský hlas 200 Hz - 9 kHz
![Page 7: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/7.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
7
Melodie
• Skladatelem rytmicky organizovanou sekvenci jednotlivých tonů, navazujících na sebe tak, aby byla vyjádřena hudební myšlenka nebo její frakce.
• Tónovou strukturu s přihlédnutím k uspořádání jednotlivých tónů v určitém sledu.
![Page 8: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/8.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
8
Tón
• je v akustice považován každý zvuk se stálou frekvencí.
• v hudbě je tón základním stavebním kamenem.
![Page 9: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/9.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
9
Základní vlastnosti tónu
• výška – ta je dána především frekvencí,
• délka – jak dlouho tón zní,
• síla – ta je dána amplitudou,
• barva – závisí na spektrálním složení zvuku, tvaru kmitů či poměru amlitud alikvotních tónů. Závisí na hudebním nástroji, který tón vydává.
![Page 10: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/10.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
10
Další
• Oktáva - je hudební interval mezi prvním a osmým tónem diatonické stupnice, v rovnoměrně temperovaném ladění obsahuje dvanáct půltónů.
![Page 11: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/11.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
11
Decibel dB síly zvuku
zvuk síla (dB)12́ ́dělo 220raketový motor 190tryskový motor 150hranice bolesti 140letištní dráha 130rocková skupina 100nákladní auto 90křik 80hlučná ulice 70řeč 60tichý domov 40nahrávací studio 20šepot 10
![Page 12: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/12.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
12
Využití extrakce melodie
• Melodie poskytuje důležité shrnutí z polyfonní hudba.
• Její aplikace je důležitá pro analýzu struktury hudby.
• Pro přepis audiosignálu na jednotlivé notové zápisy a posléze její další aplikace (detekce plagiátů atd.).
![Page 13: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/13.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
13
Melodie x Audio signál
• Melodie poskytuje konzistentní a přirozený popis hudby.
• Převládající melodie je nejpohodlnější reprezentace pro popis a ukládání.
• Melodie je nezávislá na okolních jevech (hlasitost, hudební nástroje atd. ).
![Page 14: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/14.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
14
Typy extrakce melodie
• Většina převádí jen specifický audio signál– Každá část hudby je realizována
harmonickou sadou základních tónů.– Např.: automatické rozpoznávání hlasů
• Předchozí znalost štítků– Rozpoznávací mechanismus není schopen
rozpoznat bez předchozí znalosti reprezentantů.
• Přes dominantní melodii
![Page 15: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/15.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
15
Postup
1. Vstupní audio signál transformujeme na charakteristickou reprezentaci(short-time magnitude spectrum).
2. Support Vector Machine (SVM ) určí pro každý rám jakou má dominantní kvantovanou výšku do půltónových úrovní.
![Page 16: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/16.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
16
Zvukové rysy
• Originální zvuk musíme převést na mono o max. rozpětí 8 kHz
• Tato vlnová křivka x[n] je převedena short-time Fourier transform (STFT)
![Page 17: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/17.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
17
STFT
• Pro STFT se používá N=1024 (t.j. 128 ms), pro N-bodů Hanningova okna w[n], a 944 bodů přes překrývající přilehlé okno (mřížka
po 10ms)
![Page 18: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/18.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
18
STFT (2)
• Nejčastěji je v zásobnících pouze 2 kHz (používá se prvních 256 zásobníků).
• Pro zdokonalení zobecnění rozdílného nástrojového zabarvení a normalizaci se aplikují upravené STFT.
![Page 19: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/19.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
19
Support Vector Machine (SVM)
• Zabývá se řešením úloh vyhledávání v znalostních databázích.
• Řešení problému minimalizace strukturálního risku je převeden na problém maximalizace vzdálenosti nadroviny klasifikátoru k bodům z trénovací množiny. - margin
![Page 20: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/20.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
20
SVM (2)
• Maximalizace marginu je převedena na problém minimalizace kvadratického kritéria.
• Vhodné vyjádření kritéria se trénovací množiny vyskytují pouze jako skalární součin.
![Page 21: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/21.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
21
Trénovací data
• Je zapotřebí soubor dvojic obsahující charakteristický vektor spolu s jeho základním pravdivou vrstvou.
• Obvykle, větší množství a různé druhy dat má za následek vznik přesnějšího a úspěšnějšího rozdělení.
• Problém najít vhodná tréninková data.
![Page 22: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/22.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
22
Trénovací data (2)
• Ačkoliv je počet digitálních skóre v reálném zvuku velmi skromný, existuje návod jak ulehčit zpracování.
• Zdroje mohou být:– Multi-track záznamy– MIDI soubory
![Page 23: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/23.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
23
Multi-track záznamy
• Nahrávky populární hudby jsou obvykle vytvořené navrstvením několika nezávisle- nahranými zvukovými stopami.
• Základní četnost melodie je odhadována YIN fundamental frequency estimator (de
Cheveigne and Kawahara, 2002).
• 10 ms omezená
• 100 hodnot na 1kHz
![Page 24: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/24.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
24
YIN
• Určuje pravidelný rozsah.
• PPERIODIC je celková síla harmonického kmitu objeveného pravidelně.
• PTOT je celková síla v rámu.
![Page 25: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/25.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
25
Jistota tónu
• Jen rámy s pravidelností přinejmenším 95% (odpovídají zřetelně výškou vyjádřenému tónu).
• Data se musí ručně ověřit pro integritu tréninku.
• Cílové vrstvy jsou přepočítány k nejbližšímu MIDI půltónovému číslu v rozdělení odpovídající STFT.
![Page 26: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/26.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
26
MIDI soubory
• Převedený ze standardu MIDI formát do souboru s příponou audio souboru (.WAV).
• Melodie byla izolována využitím MIDI konverzí pro konverzi hlavní melodie.
• Obvykle v pop MIDI souboru je hlavní melodie v samostatné vrstvě.
![Page 27: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/27.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
27
MIDI soubory (2)
• V případě mnohonásobných melodií v hlavní stopě, je předpoklad že melodie je nejvyšší tónová reprezentace.
• Cílové vrstvy byli přepočítány vzorkováním MIDI přepisu odpovídajícímu STFT.
![Page 28: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/28.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
28
Půltónové posuny
• Při omezeném tréninku.– Kvalita, kvantita a různorodost
• Po zpětné vzorkování nahrávky může dojít k efektu globálního tónového posunu.
• multi-track a MIDI byli převzorkovány v hodnotách odpovídajícímu souměrnému půltónovému posunu nad chromatickou stupnicí.
![Page 29: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/29.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
29
ISMIR 2004 Melody Contest
• 10 zvukových úryvků s melodickým předpisem převládajícího hlasu pro předladění algoritmů.
• 2 úryvky skládající se z MIDu syntetizovaného z polyphonického zvuku s převládajícím hlasem.
• 2 úryvky vygenerované z saxofonového syntetizátoru se zvukovou kulisou.
• 2 úryvky vygenerované ze zpívajícího hlasu syntetizátoru se zvukovou kulisou.
• 2 úryvky z operního zpívání, jeden s mužským a další se ženským hlasem.
• 2 úryvky z populární hudby se zpěvákem.
![Page 30: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/30.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
30
Hodnocení ISMIR 2004
• Jsou navržené tři možné metriky:1. Správná výška. Okamžité srovnání mezi
odhadovanou a správnou výškou(kvantovaný k půltónovému rozdělení).
2. Správná výšková třída. Oktávové chyby budou ignorovány a považovány za správné.
3. Edituje vzdálenost mezi odhadovanou a správnou melodií.
• Správná melodie nebo intonace bude získána analyzováním izolovaného hlasu a ruční kontrolou.
![Page 31: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/31.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
31
Melodie zpěváka
![Page 32: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/32.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
32
Melodie opery
![Page 33: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/33.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
33
Úspěšnost
![Page 34: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/34.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
34
Zdroje 1/2
• Články– Audio Melody Extraction Based on
TimbralSimilarity of Melodic Fragments
(www.ieeexplore.ieee.org/ )– A CLASSIFICATION APPROACH TO
MELODY TRANSCRIPTION(www.ee.columbia.edu/~dpwe/pubs/ismir05-
melody.pdf)
![Page 35: Extrakce melodie z audio signálu](https://reader034.vdocuments.mx/reader034/viewer/2022050819/56814290550346895daebc76/html5/thumbnails/35.jpg)
5.12.2006 Vyhledávání v multimediálních databázích - DBI030
35
Zdroje 1/2
• RNDr. Tomáš Dvořák, CSc.– http://ksvi.mff.cuni.cz/~dvorak/
• Zvuk• Kvantizace
• Internet– http://cs.wikipedia.org/– http://en.wikipedia.org/– http://www.gbl.cz/seminarky/– http://cmp.felk.cvut.cz/ (SuVeMa Vojtěch Franc)