biosignale und benutzerschnittstellen -...
Post on 17-Sep-2018
220 Views
Preview:
TRANSCRIPT
1 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t
Biosignale und Benutzerschnittstellen
Biosignal: Muskelaktivität
Entstehung, Messung (EMG), Anwendungen
Prof. Dr. Tanja Schultz
Dipl. Math. Michael Wand
Vorlesung WS 2012/2013
2 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Literatur für diese Vorlesung
R. Schandry, Biologische Psychologie – Ein Lehrbuch. 2. Auflage, 2006, BeltzPVU
• „Bewegung“, Kapitel 9, pp. 194-216
• „Die zelluläre Basis der Informationsverarbeitung im Nervensystem“, Kapitel 4, 47-69
R. Kramme, Medizintechnik. Kapitel 11
Lena-Maier Hein: Speech Recognition Using Surface Electromyography. Diplomarbeit 2005, UKA http://csl.anthropomatik.kit.edu -> Publikationen ->
Diplomarbeiten
3 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Taxonomie Biosignale – Muskelaktivität
Biosignale
Mechanische Biosignale
Elektrische Biosignale
Akustische Biosignale
Chemische Biosignale
Sprache
Nichtsprachl. Artikulation
Hirn EEG
Augen EOG
Muskeln EMG
Herz EKG
Bewegung
Mimik
Wärme MEG/PET
fMRI
Körper- geräusche
Thermische Biosignale
Gestik
4 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Überblick
• Einführung
• Aufbau des Muskels
• Muskelkontraktion
• Elektromyographie (EMG)
• Anwendungsbeispiele
• Emotionserkennung
• Spracherkennung
• Weitere Anwendungen
5 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Einstieg
• Ziel: Wir wollen die menschliche Bewegung erfassen, beispielsweise zur Steuerung von Maschinen (im weitesten Sinne)
• Bewegungserfassung ist auf verschiedene Arten möglich:
• visuelle Erfassung durch Kameras
• direkte Erfassung der Bewegung z.B. durch Winkelmesser oder Beschleunigungssensoren
• indirekt durch die Erfassung der Muskelaktivität, die die Bewegung erzeugt
• Wir betrachten hier die Elektromyographie (EMG), die die elektrischen Potentiale erfasst, die durch Muskelaktivität entstehen
• Wir wollen Maschinen steuern und daher insbesondere willentliche Bewegungen erfassen, im Gegensatz zu autonom motorischen Bewegungen
• Daher Einschränkung auf somatisch motorische innervierten Muskulatur Skelettmuskeln
• Diese Vorlesung beschränkt sich auf die Betrachtung des Signals ab dem Rückenmark (α-Motoneuronen)
• Vorgänge im Hirn haben wir bereits behandelt
6 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Motivation
Warum ist es interessant für Mensch-Maschine Schnittstellen, die Bewegung zu erfassen?
Große Bedeutung der Bewegung für den Menschen:
• Bewegung ist ein wesentliches Merkmal des Belebten
• Ein Mensch, dessen Körper völlig starr ist und bei dem keine Bewegungen auslösbar sind, ist tot oder im Koma
• Fluss und Vielfalt der Bewegung drückt Lebendigkeit + Lebensfreude aus, ermöglicht Kunst, Musik, Malerei
7 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Motivation
• Differenzierte Bewegungssteuerung und fein abgestimmter Bewegungsapparat erlauben Beherrschung der Umwelt
• Sprache durch besondere Anatomie des Artikulationsapparates und komplexes sprachmotorisches System
• Fortbewegung
• Mimik, Gebärden, Körperhaltung
• Ausdruck von Emotionen, Persönlichkeit
• ...
• Alle diese Erscheinungsformen der Bewegung können für Benutzerschnittstellen interessant sein!
8 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t
Definition: Bewegungen sind räumliche Verschiebungen von Gewebe
• Großräumige Bewegungen, z.B. ausgreifende Bewegungen der Beine beim Gehen
• Kleinste, fast unmerkliche Bewegungen, z.B. Mimik, Augenbewegungen, Körperbalance
Jegliche Bewegung geschieht durch Muskeln.
• Skelettmuskeln: Muskeln des Bewegungsapparates
• Glatte Muskeln: Muskeln der inneren Organe und Gefäße (autonome Kontraktion, keine oder wenig direkte Kontrolle durch das Bewusstsein)
• Unser Augenmerk gilt den Skelettmuskeln
• Ziel ist die Erfassung willentlicher (und gezielter) Bewegungen
Bewegung
9 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Überblick
• Einführung
• Aufbau des Muskels
• Muskelkontraktion
• Elektromyographie (EMG)
• Anwendungsbeispiele
• Emotionserkennung
• Spracherkennung
• Weitere Anwendungen
10 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Aufbau des Skelettmuskels
• Es gibt zwei Haupttypen von Muskeln: glatte Muskulatur und quergestreifte / Skelett- Muskulatur.
• Muskeln der inneren Organe = glatte Muskulatur
• Muskel des Bewegungsapparates = Skelettmuskel = quergestreifte Muskulatur
• Wir betrachten nur die Skelettmuskeln.
• Skelettmuskeln sind das ausführende Glied beim Ablauf eines motorischen Programms
• Bewegung (und Muskelarbeit) kommt dadurch zustande, dass sich der Muskel verkürzt (Muskelkontraktion).
• Die Elemente, die zur Kontraktion fähig sind, heißen Myofibrillen.
11 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t
• Skelettmuskeln sind über Sehnen mit dem Skelett (Knochen) verbunden
Aufbau des Skelettmuskels
12 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t
• Die kleinste funktionelle Einheit des Skelettmuskels ist die Muskelzelle = Muskelfaserzelle = Muskelfaser
• Muskelfasern schließen sich zu Faserbündeln zusammen, die man mit bloßem Auge als „Fleischfasern“ erkennen kann
Aufbau des Skelettmuskels
13 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t
• Muskelfaser
• 1/100 – 1/10 mm Durchmesser
• Bis 20cm Länge
• Das Zytoplasma (Zellplasma) der Muskelfaser (Sarkoplasma) wird von der Membran (Sarkolemm) umschlossen
• Im Inneren der Muskelfaser befinden sich die Myofibrillen
• Nehmen größten Teil des Zellvolumens ein
• Myofibrillen
• Langgestreckt
• Durchmesser ca. 1/1000 mm
Aufbau des Skelettmuskels
14 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t
• Myofibrillen sind in Zonen unterteilt
• Unter dem Lichtmikroskop erkennt man, dass diese Zonen weiter untergliedert sind: in A-Bande (stark brechend) und I-Bande (schwach brechend)
• Innerhalb der I-Bande befindet sich die Z-Linie
• Der Bereich zwischen zwei Z-Linien heißt Sarkomer.
• Unter dem Mikroskop erkennt man die A/I-Bande als Querstreifen, woraus sich der Name „quergestreifte Muskulatur“ herleitet.
Aufbau des Skelettmuskels
15 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Aufbau des Skelettmuskels
• Myofibrillen bestehen aus 2 Typen von parallel gelagerten fadenartigen Filamenten
• Myosinfilamente
• Aktinfilamente
• Myosinfilament: langgestreckte Myosinmoleküle (Protein)
• Aktinfilament: kugelförmiges Protein, kettenförmig gelagert verdrillt zu Faden
• Die beiden Filamenttypen berühren sich, wo Ausstülpungen des Myosinmoleküls, die Myosinköpfe, die Aktinfilamente berühren.
F-Aktin G-Aktin (Wikipedia)
16 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Überblick
• Einführung
• Aufbau des Muskels
• Muskelkontraktion
• Elektromyographie (EMG)
• Anwendungsbeispiele
• Emotionserkennung
• Spracherkennung
• Weitere Anwendungen
17 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t
• Bei einer Muskelkontraktion läuft folgender Vorgang ab:
• Aktivierung der Myosin-Aktin-Querbrücke
• Myosinköpfe verändern ihre Konformation
• Dadurch verschieben sich die Aktin- und Myosinfilamente in Längsrichtung gegeneinander (Filamentgleitmechanismus)
• Dies sind minimale Verschiebungen, aber ….
• … in vielen hintereinander geschalteten Sarkomeren!
• Insgesamt ergibt sich so eine beachtliche Längenverkürzung
Diesen Prozess nennt man Muskelkontraktion
Aufbau des Skelettmuskels
18 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Muskelkontraktion
Ausgangssituation:
• Muskeln in erschlafftem Zustand
• ATP (Adenosintriphosphat) gespalten in ADP + P und an Myosinkopf gebunden
• Bindungsstellen des Aktins mit Tropomyosin belegt
Vorgang bei Erregung:
• Muskelfaser wird erregt, dadurch strömt Ca2+ in die Muskelfibrillen
• Diese Depolarisierung breitet sich als Aktionspotential aus
• Ca2+-Ionen binden sich an Troponinmoleküle Tropomysin löst sich von Aktin-Bindungsstellen Myosin kann an Aktin andocken Quelle: http://www.lukashensel.de/
19 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Muskelkontraktion
Erregung (Fortsetzung)
• ADP und P wurden freigesetzt Myosinhals knickt um
• Myosinfilament zieht sich an Aktin entlang
• Muskel kontrahiert
Nach der Kontraktion:
• ATP bindet sich an Myosinköpfchen
• Das ATP wird aufgespalten
• Durch Energie, die bei Spaltung in ADP+P frei wird klappt Myosinkopf zurück in Ausgangsposition und löst sich von Bindungsstelle
http://www.lukashensel.de/
21 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Neuromuskuläre Übertragung
Woher kommt die Erregung eines Muskels, die eine Kontraktion bewirkt?
• Die Aktivierung einer quergestreiften Muskelfaser erfolgt durch einzelnes Motoneuron.
• Die spinalen Motoneuronen = -Motoneuronen sind sehr gut erforscht und die mit am besten untersuchten Neuronen überhaupt!
• Das Axon des -Motoneuron bildet im Bündel mit anderen Axonen einen efferenten Nerv, der vom Rückenmark zur Peripherie läuft.
• Das Axon endet in einer oder mehreren Synapsen, die an den Muskel andocken und als motorische Endplatten bezeichnet werden.
22 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Aktivierung einer Muskelfaser
• Wenn das Motoneuron feuert, entsteht im Muskel ein Aktionspotential (MUAP, motor unit action potential)
• Dieses breitet sich längs der Muskelfaser vom Ursprung aus
• Führt zu Kalziumeinstrom
• Dieser Kalziumeinstrom führt zur Konformationsänderung der Myosinköpfe und somit zur Muskelkontraktion
23 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Aktivierung einer Muskelfaser
• Die Zahl der von einem Motoneuron versorgten Muskelfasern liegt zwischen 1 und mehreren Tausend
• Je größer die Anforderungen an die muskuläre Feinsteuerung, desto geringer ist die Zahl der Muskelfasern pro Einheit
• Augenmuskel 1:1; Arme oder Beine etwa 1:5000
• Jede Muskelfaser hat nur eine motorische Endplatte, d.h. wird von genau einem Motoneuron innerviert.
• Als motorische Einheit (MU, motor unit) bezeichnet man ein Motoneuron + alle von ihm innervierten Muskelfasern.
• Um eine Muskelkontraktion aufrechtzuerhalten, muss das Motoneuron wiederholt feuern. Damit entsteht im Muskel eine Abfolge von Aktionspotentialen, die als MUAPT (motor unit action potential train) bezeichnet wird.
• Die Intervalle zwischen den einzelnen MUAPs einer MUAPT sind etwa gaussverteilt, wobei der Mittelwert der Intervalllänge von der Innervierung abhängt.
24 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Kontraktionsstärke
Die Stärke der Kontraktion hängt von Zahl der den Muskel versorgenden gleichzeitig feuernden Motoneuronen und von der Frequenz ihres Feuerns ab.
Oben: Schematische Darstellung
Unten: Kontraktionsstärke versus „rekrutierte“ MUs und ihre Aktivitätsraten
Die Darstellung basiert auf einer Zerlegung des gemessenen EMG- Signals
Quelle: C. J. de Luca et al.; Decomposition of Surface EMG Signals. J Neurophysiol, 2006, 9
25 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Überblick
• Einführung
• Aufbau des Muskels
• Muskelkontraktion
• Elektromyographie (EMG)
• Anwendungsbeispiele
• Emotionserkennung
• Spracherkennung
• Weitere Anwendungen
27 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Aktionspotentiale
• Reizung der Muskelzelle erzeugt Aktionspotential in der Muskelfaser (MUAP)
• Aktionspotential entsteht durch Einstrom von Ionen in den Muskel, es breitet sich vom Ursprung ausgehend gerichtet aus und erhält und verstärkt sich dabei selbst (siehe Vorlesung "Nervensystem/Informationsfluss").
• Die durch das Aktionspotential entstehenden Potentialdifferenzen kann man sowohl invasiv (durch Nadelelektroden) als auch an der Hautoberfläche messen.
• Besonders an der Hautoberfläche hat man allerdings immer eine Überlagerung vieler Aktionspotentiale, die einzelnen Potentialquellen zu identifizieren, ist eine schwierige Aufgabe!
28 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Aktionspotentiale
Betrachten wir ein einzelnes Aktionspotential an der Hautoberfläche!
• Platziert man zwei Elektroden an zwei Positionen links (A) und rechts (B) auf dem Muskel, beobachtet man folgende Abfolge:
1. Muskel in Ruhe: überall Ruhepotential, keine Differenz zwischen A und B
2. Muskel wird aktiviert, d.h. Aktionspotential AP entsteht
3. Da AP sich nur längs der Muskel- fasern ausbreitet, wird die Elektrode nahe der Quelle (A) schneller von der Depolarisation erfasst als die quellferne Elektrode (B) Potentialdifferenz A – B > 0
4. AP wandert weiter und erreicht nun Elektrode B nun ist A – B < 0
5. AP wandert noch weiter, Potential- differenz ist wieder 0
Der positive und der negative Ausschlag sind etwa gleich groß.
29 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Das EMG-Signal
• Wenn eine Muskelkontraktion aufrecht erhalten werden soll, müssen die dazugehörigen Motoneuronen wiederholt feuern.
• Bei einer längeren Muskelkontraktion entsteht somit eine ganze Serie von Aktionspotentialen, die MUAPT (motor unit action potential train) genannt wird.
• Die Grafik unten zeigt das Signal an einem Muskel, gemessen mit einer
• Oberflächenelektrode (sEMG – surface EMG – Oberflächen-EMG, oben)
• Nadelelektrode (iEMG, indwelling EMG – Nadel-EMG, unten)
• Man erkennt eine Abfolge von Ausschlägen, die Aktionspotentialen entsprechen
• Was sind die Unterschiede zwischen den Signalen?
• Oberflächen-EMG:Viel mehr Rauschen, Formen der einzelnen MUAPs eher schlecht erkennbar, erscheint tiefpassgefiltert (!)
30 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Messung – Nadel- vs. Oberflächenelektrode
• Nadelelektrode: mit Mikroelektrodentechnik können Potenzialschwankungen einzelner motorischer Einheiten erfasst werden, mit Spezialnadeln sogar einzelner Muskelfasern
• Wird direkt in Muskel eingebracht
+ Spezifische, eng umrissene Aufzeichnungszone
+ Erfasst auch kleine und tiefliegende Muskeln
- Nadeln sind unbequem und erfordern sterile Bedingungen, und nur durch Arzt einzubringen
- Schwierig, exakte Position wiederholt zu treffen
• Oberflächenelektrode: zeitliche und räumliche Summe der Aktionspotenziale aller aktiven Motoreinheiten in der Aufzeichnungszone der Elektrode an der Haut
+ Keine Schmerzen, kein Risiko
- Mehr Cross-talk, schlechtere räumliche Auflösung
• Für Anwendungen im Bereich der Benutzerschnittstellen verwenden wir nur Oberflächenelektroden!
31 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Der Muskel als Leiter
• Der Muskel ist ein relativ schlechter elektrischer Leiter.
• Durch die isolierende Wirkung seiner inaktiven Fasern werden Potentialfolgen mit höheren Frequenzen 8 - 10 mal schneller gedämpft als tieferfrequente Signale.
• Der Muskel wirkt somit als Tiefpassfilter.
• Weiterhin ist die Leitfähigkeit in Richtung der Muskelfasern höher als senkrecht zu ihnen.
• Infolgedessen sind die Daten abgeleiteter Potentiale stark von der Elektrodenpositionierung abhängig.
• Eine entscheidende Rolle spielt hier vor allem der Elektrodenabstand von der aktiven Faser.
• In einem Abstand von nur 0,5 mm von der Faseroberfläche fallen die Potentialamplituden auf ein Zehntel ihres Ausgangswertes ab!
32 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Nadel- vs. Oberflächenelektromyographie
Betrachten wir noch einmal ein identisches Ursprungssignal, einmal mit Nadelelektrode (unten) und einmal mit Oberflächenelektrode (oben) erfasst.
Probleme bei Oberflächen-EMG:
• Nicht genau zu klären, welche motorischen Einheiten erfasst werden
• Keine Aussagen zu Entfernungen zwischen Elektrode und motorischer Einheit. Einflussfaktoren sind:
• Stärke des Unterhautfettgewebes (Filter!)
• Genaue Richtung des Aktionspotentials
• Struktur des aktivierten Muskelgewebes
• Die elementare Auswertung des Oberflächen-EMG-Signals gibt somit lediglich Aufschluss über die allgemeine Kraftentwicklung und die grobe Lokalität der Kraftentwicklung.
• Mehr Informationen sind nicht so einfach zu erhalten! (Man versucht es aber trotzdem.)
34 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Überblick
• Einführung
• Aufbau des Muskels
• Muskelkontraktion
• Elektromyographie (EMG)
• Anwendungsbeispiele
• Emotionserkennung
• Spracherkennung
• Weitere Anwendungen
35 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Klinische Anwendung
Wendet man Elektromyographie in der Medizin an,
• ... untersucht man das Verhalten des Muskels bei gewissen wohldefinierten Reizen.
• Nur ganz bestimmte Kontraktion erwünscht
• Kontraktion soll messbar sein, z.B. mit Kraftmesser
• Muskel soll seine Länge nicht verändern (weil sich sonst auch das Signal ändert), muss also fixiert werden
• ... ist man an exakt quantifizierbaren Eigenschaften des Signals interessiert.
• Welche MUs feuern? Mit welcher Frequenz?
• Haben die Signale die richtige Form, oder liegt Anomalie vor?
• Ist der Ablauf der Kontraktion so, wie er sein soll?
• Man verwendet nach Möglichkeit Nadelelektroden!
• Die gewünschte Information aus Oberflächen-EMG zu extrahieren, ist viel schwieriger.
36 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Klinische Anwendung
Quelle: De Luca et al., Decomposition of Surface EMG Signals. J Neurophysiol 96: 1646–1657, 2006
Der erste Schritt bei der medizinischen/physiologischen Anwendung von EMG ist oft die Zerlegung des Signals in die einzelnen MUAPTs.
• Jedes einzelne AP muss identifiziert werden.
• Die APs, die zur selben MU gehören, müssen gruppiert werden.
• Am Ende steht eine lückenlose Auflistung der MUs, die an einem EMG-Signal beteiligt sind, und ihren Aktivitätsmustern.
• Rechts unten: Deutlich erkennbar ist, wie bei zunehmender Kontraktionsstärke mehr MUs „rekrutiert“ werden.
37 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Klinische Anwendung
• Der übliche Algorithmus zur Zerlegung eines EMG-Signals besteht aus folgenden Schritten:
1. Suche nach nächstem Peak im Rohsignal. Dieser wird Kandidat für MUAP.
2. Ordne diesen Peak einer Klasse von MUAPs zu, oder erzeuge eine neue Klasse. Jede Klasse wird durch die bishere zugeordneten MUAPs definiert. Bei der Zuordnung wird auch die Statistik über die Aktivität jeder MU berücksichtigt. Bei Bedarf kann ein menschlicher Experte eingreifen.
3. Nach erfolgter Zuordnung wird der Peak von Rohsignal subtrahiert, und dieses Restsignal wird dann mit Schritt 1 weiterverarbeitet.
• Der Algorithmus bricht ab, wenn im Restsignal keine Peaks mehr vorhanden sind.
Dieser Algorithmus wird seit ca. 30 Jahren entwickelt und kann mittlerweile weitgehend problemlos angewendet werden. Aktuelle Forschung befasst sich besonders damit, wie der Algorithmus mit extrem geringer menschlicher Intervention noch exakter werden kann.
38 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Zerlegung des Obenflächen-EMG-Signals
• Bei der Zerlegung eines sEMG-Signals gibt es weitere Schwierigkeiten:
• Die SNR ist geringer
• Die Formen der MUAPs ähneln sich mehr (wegen der Filtereigenschaften der Haut), gleichzeitig ist der Crosstalk höher!
• Üblicherweise verwendet man Mehrkanalelektroden, um höhere Diskriminanz zu erreichen.
• ICA o.ä. können hier auch weiterhelfen.
• Ungelöstes Problem!
Quelle: De Luca et al., Decomposition of Surface EMG Signals. J Neurophysiol 96: 1646–1657, 2006
39 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Anwendung im Bereich der Benutzerschnittstellen
• Alle weiteren Anwendungen, die wir in dieser Vorlesung vorstellen, haben das Ziel, das EMG-Signal zu interpretieren und es dann weiterzuverwenden, z.B. zur Steuerung von Maschinen.
• Das Ziel ist jetzt also weniger die exakte Untersuchung des Signals.
• Viel wichtiger ist es, möglich gut unterscheidbare Klassen zu bekommen.
• Es werden so gut wie ausschließlich Oberflächenelektroden verwendet.
40 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Überblick
• Einführung
• Aufbau des Muskels
• Muskelkontraktion
• Elektromyographie (EMG)
• Anwendungsbeispiele
• Emotionserkennung
• Spracherkennung
• Weitere Anwendungen
41 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Erkennung von Emotionen mittels EMG
Dieser Abschnitt: Diplomarbeit von Martin Pruzinec am CSL
• Frage: wie kann man menschliche Emotionen computerbasiert erkennen und für affektive Benutzerschnittstellen nutzen?
• Emotionen werden oft durch Gesichtsausdrücke vermittelt
• Sechs interkulturell erkennbare Basisemotionen (Ekman)
Erkennung des Gesichtsausdrucks anhand der Muskelbewegungen im Gesicht
Erkennung durch Oberflächenelektromyographie
Freude Ärger Sorgen Angst Überraschung Ekel
42 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Warum EMG?
• Nicht-invasive Methode
• Kleines Device
• Elektroden sind einfach anzubringen
• Warum keine Videoerkennung?
• EMG ist in der Lage, Bewegungen aufzunehmen, die auf Videos nicht sichtbar sind
Geeignet für Ausdrücke, die nicht sehr deutlich gezeigt werden
• Bei Verwendung außerhalb des Labors ist der Umgang mit Videokamera recht umständlich
• Mobiler kabelloser Rekorder kann überall mit hingenommen werden
• Benutzte Elektroden sind klein und leicht nicht störend!
43 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Elektrodenplatzierung und Datensammlung
Elektroden werden auf Muskeln platziert, die an Gesichtsausdruck beteiligt sind:
• Es werden in dieser Arbeit strenggenommen keine Emotionen aufgenommen, sondern gestellte Gesichtsausdrücke.
• Probanden erhalten Bilder gezeigt, die einer der 6 Basisemotionen oder einem neutralen Ausdruck entsprechen. Dieser Ausdruck soll nachgeahmt werden.
• 4 Sessions, 350 Aufnahmen pro Session (50 Aufnahmen pro Gesichtsausdruck)
44 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Datenvorverarbeitung und Erkenner
• SVM-basierter Erkenner, in Matlab implementiert.
• Verschiedene Arten der Feature Extraction wurden getestet, meist Features im Zeitbereich:
• Zunächst Filterung (Butterworth-Filter, 20Hz high-pass)
• frame-based power, frame-based mean, Gradient, Komplexitätsmaße (Nulldurchgangsrate...)
• Jede Session wird in Trainings- und Testmenge aufgespalten.
• Bestes Erkennungsergebnis: ca. 86% korrekt klassifiziert
• Chance Level: 14.3% (=100%/7, dies ist die Erkennungsrate, wenn der Erkenner ein zufälliges Ergebnis ausgeben würde)
45 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Überblick
• Einführung
• Aufbau des Muskels
• Muskelkontraktion
• Elektromyographie (EMG)
• Anwendungsbeispiele
• Emotionserkennung
• Spracherkennung
• Weitere Anwendungen
46 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Elektromyographie – lautlose Sprache
Ziel: Spracherkennung durch (Oberflächen-)Elektromyographie
• Wir messen die elektrischen Aktivierungs- potentiale der Gesichtsmuskeln
• Da wir nur die Bewegung aufnehmen, nicht das akustische Signal, ist lautloses Bewegen der Lippen ausreichend
Motivation: Erkennung lautloser Sprache
• Keine Interferenz lautloses Sprechen stört keine anderen Personen (z.B. in Bibliothek, auf Meetings)
• Robustheit das Signal wird nicht durch laute Umgebung gestört
• Privatsphäre/Vertraulichkeit die Information kann nicht von jemand anderem mitgehört werden
• Sprechen in einer fremden Sprache
• Kombination von lautloser Spracherkennung, Übersetzung und Resynthese
• Medizinische Anwendung: kann gewissen sprachbehinderten Personen helfen
47 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Lautlose Sprache - Noise
Robustheit:
• Das Signal wird nicht durch Umgebungsgeräusche gestört (Restaurant...) ...na ja, es gibt schon Störungen, aber von anderer Art als bei der akustischen Spracherkennung
1. Störung durch Muskelsignale Alle Muskelkontraktionen (willentlich oder autonom), die nicht zur Sprachproduktion gehören, sind ein Problem (Essen, Mimik, Emotionen, Augenblinzeln...)
2. Elektromagnetische Effekte z.B. 50/60 Hz-Brummen oder Felder benachbarter Geräte
3. Elektrode-Haut-Kontakt Probleme bei Bartträgern, Schweiß, Luftfeuchtigkeit, Änderung des Signals über längeren Zeitraum
4. Cross-Talk Signale durch benachbarte Muskeln, die ebenfalls im Bereich der Elektrode liegen
49 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Entwicklung der Forschung
NASA, USA: 2 Elektroden, lautlose Sprache 6-Worte-Vokabular: 92% 16-Worte-Vokabular: 73% 23 Konsonanten: 33%
University of New Brunswick, Canada 5 Elektroden in Sauerstoffmaske 10-Worte-Vokabular: 93%
NTT DoCoMo R&D center, Japan 3 Elektroden, lautlose Sprache 5 japanische Vokale: 95%
Angegeben sind die Erkennungsraten
50 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Entwicklung der Forschung
Lena Maier-Hein: Beginn der Arbeiten an den Interactive Systems Labs, Karlsruhe/Pittsburgh 10-Worte-Vokabular: 97.3% nach Repositionierung der Elektroden: 76.2% Mit Adaption: 87.1% Unterschiede in der Artikulation zwischen gesprochener und lautloser Sprache
Szu-Chen (Stan) Jou (und weitere): Übergang zur Erkennung kontinuierlicher Sprache Erkennung von Unterworteinheiten (kontextunabhängigen Phonemen) 101-Worte-Vokabular: 68% Modellierung durch phonetische (oder artikulatorische) Features (später) Angepasste Signalvorverarbeitung (später)
Angegeben sind die Erkennungsraten
51 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t
• EMG signals for speech – pilot’s oxygen masks, digit recognition A.D.C. Chan, K.Englehart, B. Hudgins, and D.F. Lovely: Hidden markov model classification of myoelectric signals in speech. Engineering in Medicine and Biology Magazine, IEEE, vol. 21, pp. 143–146, 9 2002.
• Augment normal ASR by MES A.D.C. Chan, K.Englehart, B. Hudgins, and D.F. Lovely: Myoelectric signals to augment speech recognition. Medical and Biological Engineering and Computing, vol. 39, pp. 500–506, 2001.
• Application to non-audible speech C. Jorgensen, D. Lee, and S. Agabon: Sub auditory speech recognition based on EMG/EPG signals. Proceedings of the International Joint Conference on Neural Networks, 2003.
Weiterführende Literatur
52 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t
• First move towards phoneme recognition (vowels) C. Jorgensen and K. Binsted: Web browser control using emg based sub vocal speech recognition. Proceedings of the 38th Annual Hawaii International Conference on System Sciences, 2005.
• Ring-shaped electrodes wrapped around fingers H. Manabe, A. Hiraiwa, and T. Sugimura: Unvoiced speech recognition using EMG - mime speech recognition. In Proceedings of the 2003 Conference on Human Factors in Computing Systems, Florida, 2003.
• MES signal is effected by tissue, temperature, positioning … Selected topics in surface electromyography for use in the occupational setting: Expert perspective. 3 1992, DHHS(NIOSH) Publication No 91-100.
• Recognition on sub-word units Szu-Chen (Stan) Jou, Tanja Schultz, et al.: Towards Continuous Speech Recognition using Surface Electromyography
• … und weitere aktuelle Papers auf unserer Homepage
Weiterführende Literatur
53 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Der aktuelle EMG-Spracherkenners
• Unsere aktuellen Systeme erkennen kontinuierliche Sprache auf mittelgroßen Vokabularen (Erkennungs- vokabular Standard 108 Wörter, bester Erkenner >2100 Wörter).
• Der Grundaufbau ist wie bei einem akustischen Spracherkenner.
• Welche Bestandteile muss man wohl verändern?
• Welche Probleme sind zu lösen?
EMG (fünf Kanäle)
Erzeugung des initialen Alignments Merkmalsextraktion Erzeugung initialer Modelle für Phoneme und phonetische Features Viterbi-Training Sprachmodellintegration
Erkennung der Wortsequenz
"TEXT"
EMG-Signal des Wortes „four“ (3 Wdh)
EMG-Signal des Wortes „zero“ (3 Wdh)
54 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Elektroden, Kanalauswahl
• Positionierung der Elektroden
• Die Elektroden sollen möglichst alle Muskeln erfassen, die für‘s Sprechen relevant sind
• … oder?
• Herausforderungen
• Dürfen nicht beim Sprechvorgang stören
• Elektrodengröße limitiert die Platzierungsdichte
• Sind die Positionen bei jedem gleich, d.h. sitzen die Muskel bei jedem am identisch gleichen Ort...?
• Repositionierung, auch bei demselben Sprecher
• Ansatz: Erst einmal geeignete Muskeln identifizieren, dann ausprobieren, welche Positionen gut funktionieren
56 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Elektrodenpositionierung
Wir messen das EMG-Signal von sechs artikulatorischen Muskeln:
• levator angulis oris (EMG2,3),
• zygomaticus major (EMG2,3),
• platysma (EMG4,5),
• depressor angulis oris (EMG5),
• anterior belly des digastric (EMG1),
• und der Zunge (EMG1,6,7)
• EMG 2,6,7: Bipolare Ableitung, ca. 2 cm voneinander entfernt
• EMG 1,3,4,5: Unipolare Ableitung, direkt auf dem Muskel platziert Referenz: Nase (EMG1) oder beide Ohren (EMG3,4,5)
• EMG7 liefert keine zusätzliche Information, kann entfallen
57 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Muskeln für Sprachproduktion
59 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Elektroden
Von uns verwendete Elektrodentypen.
Oben rechts: Gewöhnliche Einwegelektrode für Masseverbindung
Unten: Spezialelektroden für Gesichts-EMG (Becker Meditec)
60 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t
Worauf müssen wir bei der Signalvorverarbeitung achten?
Signalvorverarbeitung
Noise Bedeutungstragende Anteile?
Mehrere Kanäle
Überlagerung von Signalen
Entstehungsprozess
Spektrogramme: Sprache und EMG
61 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Signalvorverarbeitung
Die grundlegende Signalverarbeitung für den EMG-Spracherkenner:
• Schritt 1: Betrachte Eigenschaften des Signals im Zeitbereich: fensterbasierte Energie und Mittelwert, Nulldurchgangsrate
• Schritt 2: Verwende Kontextfilter, um den zeitlichen Ablauf der Aktionspotentiale zu erfassen. Solche Filter erzeugen aus einem bestehenden Feature (also einer Serie von Frames im Zeitbereich) durch Kombination benachbarter Vektoren ein neues Feature. Beispiel:
• Delta-Filter: Differenz zweier benachbarter Frames, approximiert Ableitung, hatten wir schon mal bei der Spracherkennung
• Trend-Filter: Wie Delta-Filter, Differenz über größeren Abstand hinweg
• Stacking-Filter: „stapelt“ benachbarte Frames, siehe Bild
ein Feature, entstanden z.B. durch STFT
auch ein Feature
62 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t
Durch geeignete Wahl einer Vorverarbeitung (frame-based power, mean, zero-crossing rate, stacking filter) verbessert sich die Wortfehlerrate.
Datenkorpus aus einer Session: 78% -> 32%
Auffällig hier: sehr hohe Dimensionalität der Vektoren, Kompression (LDA) nötig
Vorverarbeitung
nach Stan Jou: Links
Baseline mit STFT
(+ Kontextfilter),
Rechts Time-Domain
Features + Kontextfilter
Signalvorverarbeitung: Resultate
63 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Signalvorverarbeitung – Probleme
• Noise: Durch Signale anderer Muskeln und Artefakte der Aufnahme ist das Signal gestört, die Störungen unterscheiden sich von denen, die bei akustischer Spracherkennung auftreten
• Cross-Talk (Überlagerung): Signale verschiedener Muskeln überlagern sich
• Mehrere Kanäle: Wir haben z.B. sechs EMG-Kanäle – was lässt sich daraus machen?
• Signalcharakteristik: Das EMG-Signal entsteht aus den Aktivationspotentialen der Muskeln
• Signal setzt sich also nicht aus Frequenzanteilen zusammen, sondern aus vielen zeitlokalisierten Aktivierungspotentialen, die bei gleichbleibender Kontraktion in nicht exakt periodischer Abfolge auftreten
• Spektralbetrachtung erweist sich als wenig nützlich
• Können wir das EMG-Signal in seine konstituierenden Aktionspotentiale zerlegen?
64 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Signalvorverarbeitung – Ausblick
Die folgenden Forschungsansätze werden (von uns) verfolgt:
• Artefaktreduktion durch bessere Filterung
• Zerlegung des Signals in konstituierende Aktionspotentiale
• Haben wir vorhin besprochen
• Schwierig bei Oberflächenelektromyographie
• Die meisten Forschungsgruppen verwenden Mehrkanalelektroden
Bieten mehrere „Ansichten“ desselben Signals
Blind Source Separation (BSS)-Techniken möglich
• Verwendung von Elektrodenarrays
• Räumliche Filterung möglich, um die Ausbreitung eines Signals zu erfassen und eine Signalquelle zu lokalisieren
• ICA und/oder BSS möglich
• Liefert mehr Eingabekanäle
• Kann auch bei Zerlegung in Aktionspotentiale helfen (diverse Arbeiten)
Alles work in progress!
65 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Modellierung
• Wir erinnern uns: In der Spracherkennung modelliert man in aller Regel kontextabhängige Phoneme.
• Unser Problem: Wegen der kleinen Datenmengen in unserem EMG-Korpus kann keine kontextabhängige Modellierung durchgeführt werden.
• Lösung: Modellierung durch phonetische Features und phonetic feature bundling als Ersatz für Kontextabhängigkeit.
66 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Modellierung von phonetischen Features
Phonetische Features (PFs, auch artikulatorische Features genannt) repräsentieren Eigenschaften von Phonemen.
Die folgende Tabelle zeigt einige Beispiele:
Wir verwenden binärwertige phonetische Features, d.h. jedes PF hat den Wert true oder false, abhängig vom aktuellen Phonem.
•Phone type
•
•
•Phone type •CONSONANT VOWEL APPROXIMANT
•Place of articulation (for consonants)
•GLOTTAL VELAR LABIAL
•Vowel articulation •CLOSE OPEN ROUND FRONT BACK
67 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Phoneme vs. Phonetische Features
Ein phonembasiertes HMM für das Wort „Hallo“
Ein HMM für das selbe Wort, basierend auf dem PF „VOWEL“. Es ist zu beachten, dass das HMM immer noch Phoneme enthält (es sollen ja auch Phoneme erkannt werden!), nur werden diese jetzt durch PFs modelliert.
H A L O
H A L O
H A L O
NON-VW VOWEL NON-VW VOWEL
HMM Gaussian models
HMM Gaussian models
68 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Phonetic Feature Bundling
• Ein zentraler Vorteil der PFs: Jedes PF vereint Trainingsdaten mehrerer Phoneme auf sich. PFs sind also bei kleinen Datenmengen besser zu trainieren.
• Ein einzelnes PF reicht natürlich nicht ("HALO" vs "HOLA")?
• Informationen von phonetischen Features werden mittels einem Multi-Stream-Modell gewichtet kombiniert (siehe Grafik)
vgl. Metze/Waibel, A Flexible Stream Architecture for ASR Using Articulatory Features, Proc. ICSLP 2002
69 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Phonetic Feature Bundling
• Aber die binärwertigen PFs alleine reichen nicht zur Spracherkennung (egal ob mit Akustik oder mit EMG).
• Als Modelle zu ungenau (zu hohe Entropie)
• Beobachtung: Realisierungen von PFs sind nicht unabhängig voneinander – z.B. dürfte die Akustik eines Frikativs extrem davon abhängig sein, ob dieser stimmlos ist oder nicht.
• Idee: phonetic feature bundling
• PFs werden gebündelt, so dass wir am Ende Modelle der Form „stimmhafter Frikativ“ oder „runder vorderer Vokal“ entstehen.
• Dies entspricht einer iterativen Aufspaltung der einzelnen PF-Modelle: Anstatt z.B. einem Modell Frikativ gibt es nun zwei Modelle Frikativ (stimmhaft) und Frikativ (stimmlos) (in der Praxis werden es noch viel mehr Modelle sein).
• Prinzip der unabhängigen Streams (Multi-Stream-Modell) bleibt gleich.
• Wir sprechen von BDPF-Modellen (bundled phonetic features).
70 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Phonetic Feature Bundling
• Ein Beispiel für phonetic feature bundling: Das Modell Consonant wird aufgespalten.
• Die Aufspaltung lässt sich als Frage nach dem aktuellem Phonem beschreiben (0=Voiced – ist das aktuelle Phonem stimmhaft?)
• Aber welche Fragen sind sinnvoll?
• Hatten wir das Problem nicht schon mal?
• Doch – bei der kontextabhängigen Phonemmodellierung!
• Wir verwenden den selben CART-Algorithmus, separat für jeden Stream, nur die Menge der Fragen enthält jetzt Fragen nach dem aktuellen Phonem. Schließt man noch Fragen nach dem Phonemkontext ein (warum auch nicht?), spricht man von kontextabhängigen BDPFs.
• Aufspaltung erfolgt iterativ bis zu Abbruchkriterium.
CONSONANT
NON-CONSONANT
CONSONANT
NON-CONSONANT
CONSONANT
(VOICED)
CONSONANT
(NON-VOICED)
0=VOICED?
no yes
71 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Gesamtsystem: Bundled Phonetic Features
Hier ist ein Überblick über das Gesamtsystem. Der aktuelle EMG-Sprach- erkenner verwendet neun Feature-Streams. Jeder Stream hat 70-220 akustische Modelle (Gauss-Mischverteilungen, Zahl abhängig von Trainings- datenmenge, muss vorher festgelegt werden)
72 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t BDPFs – Anwendung
• Auf dem EMG-PIT-Sprachdatenkorpus haben wir Versuchsreihen zur BDPF-Modellierung durchgeführt. Als optimale Parameter ergaben sich:
• Abbruchkriterium für Bundling: 70 nodes (Modelle) pro Stream in den sprecherabhängigen Systemen, 220 nodes bei sprecherunabh. Systemen
• Verwendung der neun häufigsten PFs (Voiced, Consonant, Vowel, Alveolar, Unround, Fricative, Unvoiced, Front, Plosive)
• Stream-Gewichte: 0.11 pro PF stream, 0.01 für den Phonemstream!
• Die Ergebnisse sind wie folgt: Für CD BDPFs ergibt sich eine Gesamtverbesserung gegenüber Phonemmodellen von über 33%!
Experiment Average WER Relative Gain
Baseline (context-independent phoneme models) 47.15%
PF modeling, no bundling, no context dependency 45.50% 3.5%
BDPFs 35.78% 21.3%
Context-dependent BDPFs 31.49% 12.0%
73 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t BDPFs – Beobachtungen
• Wenn man das BDPF-Clustering sehr lange durchführt, erhält man am Ende wieder Phonemmodelle. Beispiel: Consonant -> Voiced Consonant -> Voiced Plosive Consonant -> Bilabial Voiced Plosive Consonant = ‚b‘.
• Ungebündelte PFs sind andererseits die einfachsten Modelle überhaupt, weil sie nur eine binäre Entscheidung treffen.
• BDPFs sind also Zwischenstufen zwischen Phonemen und Binärklassifikatoren
• Durch datengetriebenen Prozess optimal geclustert
• Besonders für kleine Korpora geeignet
• Bisher hauptsächlich bei EMG-Daten angewendet
• Experimente mit Audio-Daten laufen gerade
• Ob BDPFs auch bei Daten von geringer Qualität eine robustere Erkennung ermöglichen, ist noch nicht geklärt.
74 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Hörbare und lautlose Sprache
• Zur Erinnerung: EMG-Spracherkennung kann insbesondere lautlose Sprache erkennen! Alle bisherigen Ergebnisse zeigen Resultate bei normaler Sprache.
• Wir unterscheiden zwischen verschiedenen Sprachmodi:
• hörbares EMG (=EMG von hörbarer Sprache)
• lautloses EMG (=EMG von lautloser Sprache)
• Problem: Um den sprecherabhängigen EMG-Erkenner zu trainieren, brauchen wir ein Phonemalignment der Trainingsdaten (wir müssen also wissen, welche Phoneme an welchen Stellen zu finden sind).
• Bei hörbarem EMG nehmen wir dazu das parallel aufgenommene Audiosignal!
• Bei lautlosem EMG: ???
• Idee: Trainiere einen EMG-Erkenner auf hörbarer Sprache, verwende die trainierten Modelle, um einen Erkenner für lautloses EMG zu bauen.
• Problem: Klappt nicht optimal, weil sich die Signale von hörbarem und lautlosem EMG unterscheiden.
• Ist aber trotzdem die beste bekannte Lösung.
75 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t
• Probieren wir etwas anderes: Können wir Unterschiede zwischen hörbarem und lautlosen EMG quantifizieren?
• Grafik: Beispiele für Amplitudenspektra von hörbarem, geflüstertem und lautlosem EMG von zwei Sprechern. Beim linken Sprecher ist die Erkennungs-rate bei Silent EMG deutlich schlechter als bei Audible EMG, beim rechten Sprecher kaum Unterschied. Rechts sind die Spektra auch unter- schiedlicher als rechts.
• Idee: Spektraler Gehalt korreliert mit Erkennungsrate von Silent EMG.
• Idee: Definiere spektrales Mapping (eine Adaptionsmethode im Frequenzbereich), das diese Unterschiede ausgleicht!
Hörbare und lautlose Sprache
76 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Hörbare und lautlose Sprache
• Ergebnisse für zwei Silent-EMG-Erkenner:
• cross-modal testing: Verwende auf audible EMG trainierten Erkenner direkt, um silent EMG zu testen
• cross-modal labeling: Verwende auf audible EMG trainierten Erkenner, um ein Phonemalignment zu erzeugen, und trainiere dann einen völlig neuen Erkenner für silent EMG.
• Ergebnisse mit und ohne Spectral Mapping (Janke, Wand & Schultz, 2010)
77 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Session-Abhängigkeit
Eine weitere Herausforderung der EMG-basierten Spracherkennung
• Sprecherabhängigkeit (Sprachstil, Sprachgeschwindigkeit)
• Sessionabhängigkeit: Performance hängt stark von Elektrodenposition, Hauteigenschaften, ... ab
• Aus der akustischen Spracherkennung kennt man ähnliche Effekte: Kanalabhängigkeit (Mikrophon, Übertragungsqualität, ...)
• Können wir ein sprecherunabhängiges System trainieren?
• Oder der Einfachheit halber ein sessionunabhängiges?
• Idee: Adaption
• Man nehme ein großer sprecher- bzw. sessionunabhängiges System
• Dieses System wird mit einer kleinen Menge spezifischer Daten angepasst.
• Wie viele Anpassungsdaten sind nötig? (wird noch erforscht)
78 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Session-unabhängiges System
Aktuelle Forschung (Wand & Schultz, Session-Independent EMG-based Speech Recognition, Biosignals 2011):
• Trainiere Systeme auf Daten mehrerer Sessions
• Nett: Dadurch stehen mehr Trainingsdaten zur Verfügung!
• Vergleich ist daher nur bedingt möglich, weil wir nicht so viele "große" Sessions haben
• Resultat: Ein Session-Independent System funktioniert gut, bei 7 Trainigssessions mit je 40 Sätzen noch etwa 20% WER
• Großer Unterschied: Sind Daten der Testsession im Training enthalten?
79 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Session-adaptives System
Können wir das Ergebnis noch verbessern, wenn wir Adaption zulassen?
• Idee: Es kommt in der Praxis darauf an, dass das System möglichst schnell zur Verfügung steht
• Alte Trainingsdaten sind viel leichter zu bekommen
• Also: Trainiere ein SI-System auf vielen alten Sessions und adaptiere es mit möglichst wenig Daten von einer neuen Session
• Resultat: Funktioniert hervorragend, mit >=30 Adaptionssätzen (das ist nicht viel!) deutlich bessere Ergebnisse als auf den ursprünglichen 40 Sätzen mit einem Session-dependent system
80 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Session-unabhängiges System
• Ein Session-independent system ist auch stabiler, wenn Daten aus unbekannten Sessions erkannt werden sollen.
• Die Grafik zeigt Erkennungsergebnisse auf unbekannten Sessions:
• Bei Session-dependent training: Na ja
• Bei Session-independent training: super! Ca. 21% WER.
81 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Sprecherunabhängiges System
Unten: Ergebnisse für sprecherunabhängiges System (Wand & Schultz, 2009):
Rot: Getesteter Sprecher war nicht in den Trainingsdaten vorhanden
Grün: Wie Rot, aber zusätzlich Adaption der Modelle
Pink: Sprecherabhängiges System (Baseline)
Ergebnis: Adaption geht schon, aber es gibt noch viel zu tun.
82 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Demovideo zur EMG-Spracherkennung
83 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Überblick
• Einführung
• Aufbau des Muskels
• Muskelkontraktion
• Elektromyographie (EMG)
• Anwendungsbeispiele
• Emotionserkennung
• Spracherkennung
• Weitere Anwendungen
84 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Praktikum: Bewegungserkennung
Mit Material von den Teilnehmern des Praktikums Biosignale 2008 (danke!)
Immer im Sommersemester am CSL: Praktikum Biosignale
Im Jahr 2008:
• Erkennung von Bewegungsabfolgen mit EMG- und Beschleunigungssensoren (bei mir kurz „ACC“)
• Entwurf eines Experimentalszenarios
• Datenerfassung
• Bau eines Erkenners, Anpassung von Modellierung und Vorverarbeitung
• Optimierung der Resultate
• Erfolg: Erkennungsraten von über 80%
Nächsten Sommer wieder! Praxisnahe Aufgabenstellung, gute Vertiefung des Themas „Biosignale“, hervorragende Vorbereitung auf SA/DA/BA/MA am CSL. Bitte rechtzeitig melden!
85 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Bewegungserkennung: Szenario
Szenario:
• 3 Bewegungsabläufe (Rühren, Stampfen, Schneiden) aus dem Bereich Küche (vgl. SFB 588: Roboter zum Einsatz in Küchenszenario)
• Unterscheidung von 12 Einzelbewegungen (Messer_holen, Messer_weglegen, Schneiden, …)
• Es sollen jeweils Einzelbewegungen erkannt werden
• Bigramm-Bewegungsmodell (es ist bekannt, mit welcher Wahrscheinlichkeit von einer Bewegung in eine bestimmte Folgebewegung übergegangen wird)
86 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Bewegungserkennung: Datenerfassung
Datenerfassung:
• Ein Proband
• Synchrone Aufnahme von EMG- und ACC-Signal
• 3x40 Aufnahmen
• 6 EMG-Elektroden, 3 Beschleunigungs- sensoren (d.h. 9 Kanäle für jeweils 3 räumliche Dimensionen)
• 1 kHz Sampling Rate
• EMG-Sensoren: Bipolare Ableitung, meist Agonist & Antagonist
• ACC-Sensoren: Blaue Punkte
87 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Bewegungserkennung: Datenbearbeitung
Die aufgenommenen Daten müssen jetzt so vorbereitet werden, dass der Erkenner mit ihnen trainiert werden kann
• Formatkonversion
• Synchronisierung durch parallel aufgenommene Videos mit Hilfe eines Markersignals
• In EMG- und ACC-Aufnahme: Markerkanal
• In Video: Leuchtdiodenblitz
• Time-Alignment durch manuelle Zuordnung von Videosequenzen und Bewegungen
Merke: Die Bearbeitung der Daten, bis der Erkenner überhaupt laufen kann, ist oft sehr aufwendig!
88 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Bewegungserkennung: Der Erkenner
Herausforderungen beim Bau des eigentlichen Erkenners:
• Welche Signalvorverarbeitung ist geeignet?
• Für ACC: Nur Mittelwertssubtraktion + Resampling
• Für EMG: Wavelet-Zerlegung (RDWT)
• Resampling des Signals
• Die ursprüngliche Samplingrate war im Featurebereich zu hoch
• Modellierung: HMMs
• Zustandszahl
• Topologie (Zustandsübergänge)
89 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Bewegungserkennung: Ergebnis
Zur Bestimmung der Erkennungsrate wird ein Alignment der Referenz und der Hypothese durchgeführt
Hier: 1 Ersetzung, 1 Deletion auf 6 Bewegungen: 1/3 Fehlerrate, also 2/3 Accuracy
Ergebnis (Zusammenfassung)
• Beschleunigungssensoren: Über 80% korrekt
– Eignen sich gut für die Aufgabe
• EMG-Elektroden: etwas geringer (war eigentlich zu erwarten)
– Noch viel Optimierung möglich
Holen Pause Schneiden Schneiden Pause Weglegen Referenz
Holen Schneiden Schneiden Schneiden Pause Hypothese
90 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Was kann man noch so mit EMG machen?
• NASA
• Jorgensen
• Barnif
• Kevin Warwick - Cyborg
• Stelarc – Performance
• FES
• … und vieles mehr, was NICHTS mit Sprache zu tun hat
91 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Jorgensen: Unterarm EMG - Biosleeve
• Jorgensen NASA 2001
• Training am richtigen Objekt, Anwendung virtuell
• Latenzzeit so gering, dass von Benutzer unbemerkt
• Anwendung
• suit-integrated tele-operation devices
• silent communication
• automated interface adaptation via state assessment
• virtual cockpit/command consoles
• tele-presence
• tele-operation in the presence of delays
• Weitere Infos unter http://www.nasa.gov/centers/ames/research/ technology-onepagers/human_senses.html
Oben: Bedienung eines Tastenfelds Unten: Steuerung Flugsimulator
92 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Yair Barniv: Vorhersage von Bewegungen
• Yair Barniv, NASA
• Vorhersage von Kopfbewegungen für die Steuerung von Bildern und Orientierung in virtuellen Realitäten
• Problem: Erfassen mit Beschleunigungsmessern dauert zu lang!
• Vorhersage mittels EMG
• Frühe Bereinigung der Effekte
• Weiteres unter:
http://vision.arc.nasa.gov/personnel/
yair/yair.html
93 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Barretto, Scargle & Adjouadi: Kopfmaus
• Ableitung der Muskelsignale am Kopf
• Steuerung einer Maus durch spezifische Muskelbewegungen
Quelle: A real-time assistive computer interface for users with motor
Disabilities, ACM SIGCAPH Computers and the Physically Handicapped
Issue 64 (June 1999), pages: 6 - 16
94 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t Kevin Warwick - Cybernetics
• Kevin: „the first cyborg“
• Universität Reading in England
• Ließ sich 1997 einen Chip in den Arm implantieren
• Verbindet sich wirelessly mit anderen Geräten
• Telepräsenz ….
• Schritt 2: Implantat, was an die Nerven andockt
• Armbewegung wird direkt auf eine künstliche Hand remote übertragen
• http://www.kevinwarwick.com/
Video!
95 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t FES – Funktionale Elektrische Stimulation
• FES Funktionale Elektrische Stimulation
• Verfahren zur Wiederherstellung der Bewegungsfunktion der Gliedmaßen
• Anwendungsgebiet: Bei Lähmungen als Folge von Krankheiten oder Verletzungen, bei denen nur die Nervenbahnen zum betreffenden Muskel, aber nicht der Muskel selbst geschädigt sind
• Ziele:
1. Verhinderung von Muskelschwund, Sehnenkontraktion
2. „Fernsteuerung“ des betreffenden Muskels
96 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t FES – Funktionale Elektrische Stimulation
Idee FES:
• Elektroden werden am Muskel angebracht
• Oberflächenelektroden oder Implantat
• Übertragen elektrische Impulse an Muskel
• Muskel kontrahiert
• Steuerung der Impulse?
• Sensoren an gesunde Körperteilen anbringen
• Erfassen der Bewegungen
• Übertragung auf defekten Muskel
97 Bio
sign
ale
un
d B
en
utz
ersc
hn
itts
telle
n –
Mu
skel
akti
vitä
t FES-Interfaces: kommerzielle Anwendungen
• Neurocontrol http://www.neurocontrol.com
• Cleveland FES Center Grasp System für Querschnittgelähmte
• Neurorehabilitation http://www.nessltd.com
Video!
• Nicht bewusst kontrolliert: Bsp. Unterschenkel-Prothesenträger oder Schlaganfall – typischer Schlurf- und Stolpergang: erfasst die Elektrode eine Beugung im Kniegelenk, wird Fuß angewinkelt
top related