seguiment ocular en entorns virtuals i interfícies gràfiques per a l’interacció usuari màquina

“Seguiment ocular en entorns virtuals i interfícies

gràfiques per a l’interacció usuari-màquina”

Javier Flaque Menéndez, Jordi Borrell Sala

Universitat Ramon Llull, La Salle, Barcelona, Catalunya

Abstract

Aquest paper tracta sobre un marc de treball pel seguiment per ordenador d’objectes en els quals l’usuari hi posa atenció mentre navega per entorns virtuals interactius.

Primer construïm un mapa de notorietat a nivell de píxel amb un sistema bottom-up, per trobar aquells píxels més visibles en funció del color, lluminositat, profunditat, mida i moviment, aplicant una operació que els relaciona amb el píxels del seu entorn.

Aquest mapa es convertit a un mapa a nivell d’objecte agrupant els píxels que formen part d’un mateix objecte, i finalment s’hi afegeixen característiques del context top-down, com per exemple el comportament de l’usuari a nivell espacial i temporal en la navegació interactiva.

D’aquesta manera ens fem una idea de la zona o direcció on l’usuari més probablement està mirant fixament centrant la seva atenció.

El marc i cost computacional permet crear mapes de notorietat de 256 x 256 a temps real usant una GPU.

Aquest marc de treball pot ser usat per la renderització basada en la percepció, com per exemple efectes segons la profunditat de camp o nivell de detall, sense l’ús de cars artefactes de seguiment de l’ull,

Paraules clau: Entorns virtuals, seguiment ocular, interacció maquina-usuari.

1. Estat de l’art Hem trobat diferents articles relacionats amb aquest tema de forma directe o indirecte, de forma que ens situem en un marc de coneixement ampli relacionat amb la realitat virtual i l’enginyeria multimedia. En primer lloc tenim l’article principal [1], que ens aporta una metodologia per deduir on probablement l’usuari està mirant de la pantalla a partir de característiques de la pantalla i la navegació de l’usuari, en un entorn totalment immersiu sense aparells incomodes. Per altra banda tenim dos

articles [3] i [4] que ens descriuen uns mètodes per calcular de forma força exacte els moviments i direcció de l’ull, a partir d’aparells com per exemple, ulleres, “eye” i “head trackers”, elèctrodes, ... Un altre article [2], que ens descriu un software o entorn que permet interactuar amb l’entorn virtual a partir dels moviments de l’ull com si aquest fos un ratolí. Una altre article o línia d’investigació, el [5], ens relaciona el seguiment de l’ull en interfícies virtuals de treball amb diferents models cognitius humans. Finalment també hem trobat un article [6] molt interessant que relaciona el moviment de l’ull en interfícies virtuals amb la usabilitat i possibles mètriques relacionades. 2. Resum Article Principal

2.1. Introducció. Saber on l’usuari està mirant i fixant l’atenció, es molt útil per a la creació d’entorns virtuals interactius, en qüestions com el nivell de detall, simplificació de la geometria,... Una forma d’aconseguir-ho es mitjançant aparells de seguiment de l’ull, però son cars, incomodes, difícils de calibrar i restringeixen moure el cap... Una alternativa es usar mètodes que es basen amb la percepció visual humana per calcular per ordinador on probablement l’usuari esta mirant i parant atenció. Es conegut que la atenció humana respon a un equilibri entre els estímuls bottom-up, com el color, la lluminositat, i els contexts top-down, com la memòria, el coneixement previ, i els objectius.

Primer, aquest marc permet el seguiment d’objectes ja que es basa en la generació de mapes de notorietat dels objectes en escena, enlloc de quedar-se només a nivell de pixel, ja que segons recents estudis l’atenció humana es basa amb els objectes més que en la posició. Segon, basar-se només amb característiques bottom-up, no reflecteixen les intencions de l’usuari, de forma que cal usar contexts top-down com intencions a nivell temporal i espacial per tal de deduir el comportament de l’usuari durant la navegació per entorns virtuals i així determinar més fidelment la regió d’interès. Tercer, el cost computacional per generar els mapes de notorietat és relativament elevat, per tant ha estat necessari l’ús d’unitats GPU i hardward midmad.

2.2. Visió General. Com mostra la figura 1, el marc de treball consisteix en dues parts, per una cantó construir el mapa de notorietat bottom-up i per altre banda modular-lo usant contexts top-down.

El mapa de notorietat bottom-up es construeix a partir de dos caracterísques d’imatge: color i lluminositat, i tres característiques de moviment 3D: profunditat, mida de l’bjecte i moviment, generant un mapa per cada caracteristica com a imatge piramidal, i a partir de les diferencies amb el seu entorn generar uns mapes de contrastos.

Finalment aquests mapes de contrastos son combinats linearment per formar un únic mapa de notorietat bottom-up.

Aquest mapa de notorietat bottom-up per píxels es convertit en un mapa de notorietat d’objectes, i modulat per els contextos top-down de distribució espacial (intencions a curt termini) i a nivell temporal ( intencions a més llarg termini). Obtenint un mapa que és filtrat linearment per un filtre de Kalman.

2.3. Mapa de notorietat bottom-up a temps real

La lluminància Bl i el color (to) Bh son

obtinguts de la conversió de RGB a HSL on H= color i L = lluminància.

La produnditat Bd de es determina

mitjançant la formula:

on z és la profunditat del píxel i zfar i

znear les profunditats de clipping màxima i mínima

La mida de l’objecte Bs, es considera com a píxels totals de l’objecte dividit pels píxels totals de la imatge.

El moviment Bm, es troba partir de la diferència de la posició entre dos frames (r i r-1) per a cada objecte k:

Convertint els 5 mapes de

caracteristiques a 5 mapes de contrastos Cl, Ch, Cd, Cs, Cm , usant la diferencia multiescala de centre-envolvent, on f Є {l,h,d,s,m}.

Finalment obtenim un únic mapa topogràfic de notorietat Sp, que és una combinació linear dels mapes de contrastos:

on , els pesos wf responen a:

i Sp varia entre [0,1].

2.4. Modulació amb contexts top-down.

Primer convertim el mapa de notorietat a

nivell de píxel Sp, en un mapa de notorietat a nivell de objecte Ŝo .

on n(k) son el nombre de pixels de l’objecte k, (u,v) es la posició del pixel i Ti(k) es el valor relatiu de la tasca de l’usuari, la qual es afegida per excluir objectes del fons sense valor.

Finalment a partir dels contextos espacial Ts i temporal Tt, que son usats per

deduir les intencions de l’usuari, determinem el mapa final de notorietat d’objectes So.

El context espacial depèn del moviment

de l’usuari en l’entorn virtual. Podem distingir tres tipus de comportament espaial: Em primer lloc, essent la diferencia de x (distancia normalitzada en eix X entre objecte i usuari: veure figura 2) entre dos fotogrames, i , i y (distancia normalitzada en eix Y entre objecte i observador: veure figura 2) i <v> la direcció on mira l’usuari i <w> la direcció on es mou l’usuari, llavors s’observen tres comportaments:

- una caiguda exponencial entre la distancia de la pantalla amb els objectes del centre.

- Distribució de Weibull. - Si <v · w> = 0 i Δx>0 llavors vol dir que ens allunyem de l’objecte en la navegació. Obtenim:

on Ts(k) està entre [ 0 , 0.5 ].

El context temporal és la observació del context espacial al llarg del temps o de diferents fotogrames per tal d’establir les intencions a llarg termini.

2.5. Detalls d’implementació i funcionament computacional

Aquest entorn o marc de treball de

seguiment en temps real esta implementat usant OpenGL Shading Language GLSL en un PC Pentium 4 a 3.2 GHz Pentium 4 PC i una targeta gràfica GeForce 7900GTX. Durant temps d’execució, s’ha usat una GPU per accelerar el funcionament a temps real. Tenim 4 parts o nivells de computació: (1) Actualitzar caracteristiques a nivell d’objecte i contexte Top-Down ( contexte espacial i temporal).

(2) Construir el mapa de notorietat a nivell de píxel usant GPU. (3) Convertir el mapa a nivell de píxel en el mapa a nivell d’objecte segons els contexts top-down. (4) Guardar el resultat en una llista d’intencions dels objectes i filtrar usant un filtre linear de Kalman.

El model de renderització ha estat exclòs de l’anàlisi del cost computacional. S’observa que el cost de càlcul dels contextos top-down es pot considerar negligible en comparació amb els costos de creació de del mapa de notorietat bottom-up, com podem observar a la figura 3. El càlcul i aplicació del marc de treball es possible a temps real per a mapes de 256 x 256 fins i tot incloent el temps del model de renderització i entorns 3D per sobre de un milió de polígons.

2.6. Experiment per estimar el grau d’encert.

Per validar la finura del sistema de

seguiment de l’atenció del nostre patró de seguiment, s’ha afectuat un experiment, enregistrant els moviments de l’ull amb un aparell de seguiment monocular (ulleres amb una camera). S’ha analitzat amb un entorn virtual dinàmic i un d’estàtic, amb 16 participants.

S’han calibrat els aparells per a cada participant i s’han fet unes sessions de navegació lliure per l’entorn virtual per controlar les tecles i sistema de navegació per aquest.

De les dades obtingudes s’ha observat tres tipus de moviment: vista fixa, moviment ràpid i deambulació.

S’han obtingut dos tipus de mesura. El nombre de fotogrames en que la vista del participant coincidia amb la predicció del sistema per l’objecte d’atenció més probable A1, i el nombre de fotogrames que la vista del participant coincidia amb els objectes segon i tercer de més probable atenció, A2 i A3, tal i com mostra la figura 4.

També s’ha intentat determinar la contribució de cada element del marc de treball en l’encert del sistema, essent B:

característiques de la imatge, E: característiques dels objectes i T: contexts top-down.

Tal com podem observar en la taula 2 i figura 5, T té una rellevància estadística superior a B i E, tot i que aquests també contribueixen significativament. Podem doncs concloure doncs que l’aproximació top-down basada en contexts espacial i temporal que pretén determinar les intencions i motivacions del usuari tenen un paper clau. 3. Comparativa

Una alternativa a la solució plantejada a

l’article principal, seria la solució “”, que proposa el seguiment de l’ull mitjançant una tècnica basada amb la electrooculografia, que permet detectar moviments oculars basant-se amb la diferencia de potencial entre la córnea i la retina (EOG). Aquest senyal després és usat per controlar una interfície gràfica (GUI) de forma que l’ull fa la mateixa funció que el ratolí.

La tècnica de seguiment de l’ull, EOG, s’aconsegueix col·locant dos elèctrodes a la part exterior de l’ull i per a derivació horitzontal i dos més per a la derivació vertical, controlant així els moviments en ambdues direccions.

Apareixen alguns problemes derivats d’aquesta tècnica:

1. Processament de dades: Eliminar soroll i compensar errors de calibració.

2. Disseny de tècniques d’interacció usuari-màquina.

Podem aplicar diferents comandes a

imatge del ratolí, de 2 tipus: 1. Desplaçament del cursor, per accés

directe ( situar el cursor amb la vista) i tècnica d’escombrat ( moure el cursor amb la vista).

2. Validació d’accions, com per exemple click o doble click mitjançant moviments oculars o accions facial predefinits, com aclucada d’ulls.

Una altra alternativa o possible aplicació del seguiment ocular, més a alt nivell, seria el “EyePoint”. Aquest sistema, prèvia calibració i ús d’un “eye tracker” estandard comercial, ofereix a l’usuari un mecanisme per interactuar

amb una GUI. Per fer això usa la combinació de la vista i el teclat. L’usuari es fixa amb un punt de la pantalla i aquesta es ampliada pel sistema. L’ampliació és quadriculada per uns punts ataronjat, els quals faciliten a l’usuari l’atenció de la vista i un millor selecció de l’objecte de la pantalla. Les accions d’interacció de l’usuari amb la GUI són creades mitjançant Hotkeys (tecles predefinides per l’usuari). Per exemple, l’usuari es fixa en un botó o link, i posteriorment apreta la tecla corresponent del teclat a imatge del botó esquerra del ratolí.

Per calcular el vector de direcció de la mirada, també podem aplicar una metodologia que consisteix en a partir de unes ulleres amb dues cameres, una d’elles fa el seguiment de la pupil·la i l’altre mira cap a l’escena o visió de l’usuari. A més a més tenim un “head tracker” que calcula el moviment i orientació de la camera. A partir d’aquest aparells podem calcular un punt de visió (PoG) amb unes coordenades (x,y) sobre la imatge de vídeo de la camera d’escena. A partir d’aquesta informació podrem calcular i convertir a coordenades del nostre món virtual.

Un experiment amb diversos usuaris, sobre models cognitius i la seva relació amb el moviment ocular, ens aporta una nova dimensió de coneixement. Aquest experiment es fa a partir d’una interfície de control del tràfic aeri on el usuaris han d’actuar com a controladors aeris. L’anàlisi tracta amb models de predicció sobre funcionament de les tasques a realitzar, temps de reacció i càrrega de treball, en tres nivells de demanda de tràfic i dos visualitzacions: per text o per colors, en dos regions principals: la pantalla del radar i la finestra de missatges (figures 8, 9 i 10). El resultat es que els usuaris van més lents i amb més esforç en entorns de text i a més gasten molt més temps de visió llegint els missatges de la finestra de missatges (25 %) i menys temps en la pantalla (55%) en relació amb entorns amb colors amb un (12%) i (71%).

Finalment, relacionant la direcció o punt de la mirada en una interfície gràfica amb la usabilitat, hem observat l’existència de diverses mètriques que ens ajudaran fa fer una anàlisi tal com mostra la taula 1. Diferenciem les següents mètriques.

1. Nombre de fixacions: mostra eficiència de la cerca d’elements.

2. Temps de mirada en una àrea d’interès: mostra la importància de l’element.

3. Duració d’una fixació: mostra la dificultat d’extraure informació.

4. Nombre de fixacions en una àrea d’interès: mostra la importància de l’element.

5. Nombre de fixacions voluntàries i/o involuntàries: involuntàries (<240ms) i voluntàries (>320ms).

6. Temps de la primera fixació en una àrea d’interès: mesura si existeix una cerca d’un objectiu.

4. Resultats 4.1. Taules Taula 1. Mètriques del seguiment ocular en usabilitat.

Taula 2. Errors d’estimació per les vuit combinacions.

4.2. Figures Figure 1: procediment a temps real.

Figure 2: Exemple de context espacial.

Figura 3. Costos computacional del càlcul del mapa de notorietat per diferents mides i processadors.

Figura 4. Encert en la predicció

Figura 5. Errors de predicció amb o sense alguna de les característiques.

Figura 6. Exemple del Eyepoint.

Figura 7. Software de calibració del Eyepoint.

Figura 8. Zones de la interfície de control aeri.

Figura 9. Àrees de visió en mode color.

5. Conclusions i treball de futur

S’ha proposat un sistema de seguiment dels objectes atesos per l’usuari en entorns virtuals interactius 3D, que utilitza

característiques preatentives bottom-up com lluminància, color, profunditat, mida i moviment, i hem afegit característiques top-down que aporten informació del context espacial i temporal per deduir les intencions de l’usuari a partir de la seva navegació. S’ha observat que gracies a una GPU podem calcular i renderitzar en temps real mapes de notorietat de 256 x 256, i que les característiques top-down juguen un paper clau per a la predicció. En un futur es pretén millorar i desenvolupar els models de predicció top-down. Una línia de futur conseqüència de la fusió de totes les alternatives, podria ser la creació d’entorns virtuals i interfícies gràfiques, des d’un punt de vista de disseny i usabilitat, a partir de les característiques bottom-up i top down (més immersives), color vs. text, que ens ofereixen aquests articles, i fer-ne una comprovació del seu bon funcionament a partir de mètriques d’usabilitat, models cognitius i aparells de seguiment ocular més precisos.

Bibliografia. [1] Sungkil Lee, Gerard Jounghyun Kim, Seungmoon Choiame

Real-Time Tracking of Visually Attended Objects in Interactive Virtual Environments. VRST, Association for Computing Machinery, 2007. 29-38.

[2] Manu Kumar, Andreas Paepcke, Terry Winograd Brown. EyePoint: Practical Pointing and Selection Using Gaze and Keyboard. CHI 2007. [3] R. Barea, L. Boquete, M. Mazo, E. López, L.M. Bergasa. Diseño de un ratón electrooculográfico para el control de Interfaces Gráficos. Departamento de Electrónica. Universidad de Alcalá. [4] Adrian Haffegee_, Vassil Alexandrov, Russell Barrow. Eye

tracking and gaze vector calculation within immersive virtual environments VRST, Association for Computing Machinery, 2007. 225-226.

[5] Mike Bartels, Sandra P. Marshall. Eye Tracking Insights into Cognitive Modeling. ETRA 2006. 141-178.

[6] Robert J. K. Jacob and Keith S. KarnEye Tracking in Human-Computer Interaction and Usability Research: Ready to Deliver the Promises. Oxford, England, 2003. 573-599.

seguiment ocular en entorns virtuals i interfícies gràfiques per a l’interacció usuari màquina

Documents