interfaces naturais e o reconhecimento das línguas de sinais · nas novas interfaces, por meio do...

130
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO PUC-SP Renato Kimura da Silva Interfaces Naturais e o Reconhecimento das Línguas de Sinais MESTRADO EM TECNOLOGIAS DA INTELIGÊNCIA E DESIGN DIGITAL São Paulo 2013

Upload: others

Post on 07-Jul-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO

PUC-SP

Renato Kimura da Silva

Interfaces Naturais e o

Reconhecimento das Línguas de Sinais

MESTRADO EM TECNOLOGIAS DA INTELIGÊNCIA

E DESIGN DIGITAL

São Paulo 2013

Page 2: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO

PUC-SP

Renato Kimura da Silva

Interfaces Naturais e o

Reconhecimento das Línguas de Sinais

MESTRADO EM TECNOLOGIAS DA INTELIGÊNCIA

E DESIGN DIGITAL

Dissertação apresentada à Banca Examinadora da Pontifícia Universidade Católica de São Paulo, como exigência parcial para obtenção do título de Mestre em Tecnologias da Inteligência e Design Digital - Design Digital e Inteligência Coletiva sob a orientação do Prof. Dr. Hermes Renato Hildebrand

São Paulo 2013

Page 3: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

Banca Examinadora

______________________________

______________________________

______________________________

Page 4: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

AGRADECIMENTOS

Esse trabalho só se tornou possível por meio do incentivo e encorajamento de

pessoas importantíssimas em minha vida. Duas dessas pessoas fundamentais são

meus pais: Joana e Roberto. Brilhantes no ensino do que é a Vida, viabilizaram não

só essa, mas muitas outras conquistas. Batalharam para que eu tivesse todos os

recursos necessários para meu desenvolvimento, e comemoram juntos comigo cada

uma dessas vitórias. Sem eles, não só essa pesquisa não existiria, mas eu como

pessoa não seria nada.

Meu especial agradecimento ao meu irmão, precoce atencioso de tudo o que

me cerca, companheiro para os mais diversos momentos, e um fiel escudeiro.

Agradeço também aos amigos, que tanto incentivaram a seguir adiante, e

compreenderam as recusas de passeios e saídas – horas que foram despendidas

para os propósitos dessa dissertação. Uso esse parágrafo para também agradecer a

eterna melhor amiga, minha namorada, Marta. Compreensão, Carinho e Apoio. Por

tudo isso, mais uma vez sou grato.

Por fim, mas não menos importante, agradeço ao professor Dr. Hermes

Renato por toda a paciência e disposição em ajudar, cumprindo com maestria a

função de orientar, mas atuando principalmente como amigo. A ele, à Edna –

sempre tão solícita, atenciosa e compreensiva com o lado humano do pesquisador –

e a todos os relacionados direta ou indiretamente com essa pesquisa, o meu eterno

Obrigado.

Page 5: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

“Novas maneiras de pensar e conviver

estão sendo elaboradas no mundo das

telecomunicações e da informática. As

relações entre os homens, o trabalho, a

própria inteligência dependem, na verdade,

da metamorfose incessante de dispositivos

de todos os tipos.”

Pierre Lévy

Page 6: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

RESUMO

SILVA, Renato K. Interfaces Naturais e o Reconhecimento das Línguas de Sinais. 2013. 130 p.

Dissertação (Mestrado) – Pontifícia Universidade Católica de São Paulo, São Paulo, 2013.

Interface é uma camada intermediária que está entre duas faces. No contexto

computacional, podemos dizer que interface existe na intermediação interativa entre

dois sujeitos, ou ainda entre sujeito e programa. Ao longo dos anos, as interfaces

vêm evoluído constantemente: das linhas de texto monocromáticas, aos mouses –

com o conceito exploratório da interface gráfica – até as mais recentes interfaces

naturais – ubíquas e que objetivam a transparência da interação. Nas novas

interfaces, por meio do uso do corpo, o usuário interage com o computador, não

sendo necessário aprender a interface. Seu uso é mais intuitivo, com o

reconhecimento da voz, da face e dos gestos. O avanço tecnológico vai de encontro

com necessidades básicas do indivíduo, como a comunicação, tornando-se factível

conceber novas tecnologias que beneficiam pessoas em diferentes esferas. A

contribuição desse trabalho está em entender o cenário técnico que possibilita

idealizar e criar interfaces naturais para o reconhecimento dos signos das Línguas

de Sinais e considerável parte de sua gramática. Para tanto, essa pesquisa foi

primeiramente pautada no estudo do desenvolvimento das interfaces

computacionais e da sua estreita relação com os videogames, fundamentando-se

nas contribuições de autores como Pierre Lévy, Sherry Turkle, Janet Murray e

Louise Poissant. Em momento posterior, aproximamo-nos de autores como William

Stokoe, Scott Liddell, Ray Birdwhistell, Lúcia Santaella e Winfried Nöth, a respeito de

temas gerais e específicos que abarcam a multidisciplinaridade das Línguas de

Sinais. Por fim, foi realizado um levantamento do Estado da Arte das Interfaces

Naturais voltadas ao Reconhecimento das Línguas de Sinais, além do estudo de

pesquisas notáveis relacionadas ao tema, apresentando possíveis caminhos futuros

a serem trilhados por novas linhas de pesquisa multidisciplinares.

Palavras-chave: evolução das interfaces, reconhecimento de língua de sinais,

interfaces naturais.

Page 7: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

ABSTRACT

SILVA, Renato K. Natural Interfaces and the Sign Language Recognition. 2013. 130 p. Essay

(Master) – Pontifícia Universidade Católica de São Paulo, São Paulo, 2013.

Interface is an intermediate layer between two faces. In the computational context,

we could say that the interface exists on the interactive intermediation between two

subjects, or between subject and program. Over the years, the interfaces have

evolved constantly: from the monochromatic text lines to the mouse – with the

exploratory concept of graphic interfaces – to the more recent natural interfaces –

ubique and that aims the interactive transparency. In the new interfaces, through the

use of body, the user can interact with the computer. Today is not necessary to learn

the interface, or the use of these interfaces is more intuitive, with recognition of voice,

face and gesture. This technology advance fits well to basic needs from the

individuals, like communication. With the evolution of the devices and the interfaces,

is more feasible conceive new technologies that benefits people in different spheres.

The contribution of this work lays on understanding the technical scenario that allow

thinking and conceiving natural interfaces for the signal recognition of Sign

Languages and considerable part of its grammar. To do so, this research was guided

primarily in the study of the development of computer interfaces and their close

relationship with videogames, basing on the contributions of authors such as Pierre

Lévy, Sherry Turkle, Janet Murray and Louise Poissant. Thereafter, we approach to

authors as William Stokoe, Scott Liddell, Ray Birdwhistell, Lucia Santaella and

Winfried Nöth, concerning general and specific themes spanning the

multidisciplinarity of Sign Languages. Finally, a research was made of State of Art of

Natural Interfaces focused on the recognition of Sign Languages, besides the

remarkable research study related to the topic, presenting possible future paths to be

followed by new lines of multidisciplinary research.

Keywords: interfaces evolution, sign language recognition, natural interfaces.

Page 8: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

LISTA DE FIGURAS

Figura 1: A Multidisciplinaridade do Design de Interfaces ........................................................... 18

Figura 2: Evolução das Interfaces Computacionais ...................................................................... 21

Figura 3: Cena do filme Minority Report, de Steven Spielberg ................................................... 28

Figura 4: Dan Edwards (esquerda) e Peter Samson jogando Spacewar! ................................. 33

Figura 5: A evolução dos controles de videogames ..................................................................... 34

Figura 6: Controle do Nintendo Wii .................................................................................................. 36

Figura 7: Microsoft Kinect.................................................................................................................. 37

Figura 8: Playstaion 3, Playstation Eye e Sony Move .................................................................. 38

Figura 9: Acessórios para o Nintendo Wii ...................................................................................... 38

Figura 10: Total de vendas por console de videogame ............................................................... 39

Figura 11: Imagem do jogo R.O.G.E.R. .......................................................................................... 43

Figura 12: Gesto do Kinect – Focalizar para selecionar .............................................................. 44

Figura 13: Tríade semiótica de Peirce ............................................................................................ 53

Figura 14: “Como o computador nos enxerga” .............................................................................. 57

Figura 15: Exemplo de sinais em LIBRAS e seus parâmetros ................................................... 60

Figura 16: Parâmetro das Línguas de Sinais: configuração das mãos ..................................... 61

Figura 17: Parâmetro das Línguas de Sinais: ponto de articulação ........................................... 62

Figura 18: Parâmetro das Línguas de Sinais: movimento ........................................................... 63

Figura 19: Parâmetro da LIBRAS: orientação ............................................................................... 64

Figura 20: Parâmetro da LIBRAS: expressões faciais ................................................................. 64

Figura 21: Parâmetro da LIBRAS: expressões faciais afirmativa e interrogativa .................... 65

Figura 22: Parâmetro da LIBRAS: expressões faciais ................................................................. 66

Figura 23: Diferença entre Símbolo (A) e Substituto(B) ............................................................... 69

Figura 24: Sinal composto de ZEBRA – (1) CAVALO (2) LISTRAS (Quadro 1). ..................... 73

Figura 25: Árvore genealógica dos sistemas de transcrição ....................................................... 77

Figura 26: Etapas dos sistemas de Visão Computacional........................................................... 79

Figura 27: Data Glove – CyberGlove .............................................................................................. 81

Figura 28: Sistema de Simulação 3D das mãos com Luvas Coloridas ..................................... 82

Figura 29: Semelhança da mão despida e diferença de padrões da mão com luva ............... 83

Figura 30: Reconhecimento de Alfabeto de Sinais com Luvas Coloridas ................................. 83

Figura 31: Luva com marcadores codificados únicos................................................................... 84

Figura 32: Componentes de hardware do dispositivo DIGITS .................................................... 84

Figura 33: Reconhecimento empregado em Avatar ..................................................................... 87

Page 9: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

Figura 34: Reconhecimento de usuário do Kinect ........................................................................ 89

Figura 35: Rastreamento facial – avatar e usuário no Kinect ..................................................... 89

Figura 36: Reconhecimento de sinais utilizando o Kinect ........................................................... 90

Figura 37: Estrutura física do 3Gear ............................................................................................... 92

Figura 38: Estrutura física do 3Gear montada ............................................................................... 92

Figura 39: Ilustração da câmera DepthSense 325 e 311 da Softkinect .................................... 94

Figura 40: Exemplo de reprodução digital dos movimentos das mãos ..................................... 94

Figura 41: Volume e pontos do corpo do usuário capturados pelo Softkinect ......................... 95

Figura 42: Comparativo do disposivo The Leap com um laptop ................................................. 97

Figura 43: The Leap – reconhecimento individual dos dedos e pequenos objetos ................. 97

Figura 44: The Leap – LEDs infravermelhos e mini câmeras ..................................................... 99

Figura 45: The Leap – reconhecimento da mão ............................................................................ 99

Figura 46: Leitura de atividade elétrica dos músculos ............................................................... 100

Figura 47: Interface Gestual Put-That-There ............................................................................... 108

Figura 48: A Multidisciplinaridade do Design de Interfaces ....................................................... 120

Page 10: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

SUMÁRIO

AGRADECIMENTOS.................................................................................................................................. 4

RESUMO .................................................................................................................................................. 6

ABSTRACT ................................................................................................................................................ 7

LISTA DE FIGURAS.................................................................................................................................... 8

SUMÁRIO ............................................................................................................................................... 10

INTRODUÇÃO ........................................................................................................................................ 12

Capítulo 1 – Proposta e Questões da Pesquisa ............................................................................ 14

1.1 Objetivo Geral ............................................................................................................... 14

1.2 Objetivos Específicos ................................................................................................... 14

1.3 Justificativa .................................................................................................................... 15

Capítulo 2 – Um Breve Histórico da Evolução das Interfaces ..................................................... 19

2.1 Interfaces Homem Máquina ........................................................................................ 20

2.2 Interação – Interfaces Naturais .................................................................................. 24

2.3 A evolução das interfaces e o mundo dos Games .................................................. 32

2.4.1. Nintendo Wii .................................................................................................... 40

2.4.2. Microsoft Kinect ............................................................................................. 42

Capítulo 3 – Línguas de Sinais e Características ......................................................................... 45

3.1 Contextualizando a Língua de Sinais ........................................................................ 45

3.2 Gesto e Sinal ................................................................................................................. 49

3.3 A semiótica das Línguas de Sinais ............................................................................ 52

3.4 Estrutura, parâmetros e aspectos particulares ........................................................ 59

3.4.1. Espaços mentais: Real, Substituto e Simbólico ........................................ 67

3.4.2. Gradiente ......................................................................................................... 71

3.4.3. Sinais Compostos .......................................................................................... 72

3.5 Sistemas de Transcrição ............................................................................................. 73

Capítulo 4 – Técnicas, Dispositivos e Estado da Arte .................................................................. 79

4.1 Aquisição de imagens .................................................................................................. 80

4.1.1. Gloves – Luvas ............................................................................................... 80

4.1.2. Visão Computacional ..................................................................................... 85

4.1.2.1. Microsoft Kinect para Windows .................................................................... 88

4.1.2.2. 3GEAR.............................................................................................................. 91

4.1.2.3. Softkinetic ....................................................................................................... 93

Page 11: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

4.1.2.4. Leap Motion ..................................................................................................... 96

4.1.3. Novas abordagens – MYO ........................................................................... 100

4.2 Segmentação, Extração de características e Classificação ................................ 101

4.3 Ação .............................................................................................................................. 104

Capítulo 5 – Aspectos Relevantes de interfaces gestuais para Línguas de Sinais ............... 107

5.1 Dificuldades ................................................................................................................... 112

CONSIDERAÇÕES FINAIS ...................................................................................................................... 117

REFERÊNCIAS BIBLIOGRÁFICAS ........................................................................................................... 121

APÊNDICES .......................................................................................................................................... 129

Glossários de gestos de interfaces multitouch .................................................................... 129

Page 12: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

12

INTRODUÇÃO

Por anos os principais dispositivos de interação com o computador

restringiram-se, basicamente, ao teclado e ao mouse. Esses dispositivos precisam

ser aprendidos, não sendo, portanto, naturais. Com o desenvolvimento dos sensores

das máquinas e tecnologias de interação, surgem interfaces de reconhecimento

facial, de escrita e gestual. Primeiramente no âmbito comercial, essas interfaces,

chamadas de naturais, passam a se popularizar, sendo encontradas em aplicações

cotidianas, como é o caso dos celulares com telas de toque e com reconhecimento

de comandos por voz.

No campo do reconhecimento gestual, o uso das interfaces naturais permite

aos usuários interagir com o digital através de gestos convencionados, de fácil

assimilação. Em especial aos portadores de deficiência auditiva, essas interfaces

são capazes de captar gestos, componentes da língua que utilizam – Línguas de

Sinais – possibilitando um novo modo de interação, que não obriga os surdos a

utilizarem a língua portuguesa para interação computacional. Também se cria uma

nova gama de aplicações possíveis, como a tradução dessas Línguas de Sinais para

o português, ou para línguas orais, permitindo maior amplitude da comunicação

desses indivíduos.

Contudo, é importante não reduzir os signos das Línguas de Sinais a simples

gestos. As Línguas de Sinais possuem gramática própria que diferem de outras

linguagens. Exatamente por possuírem uma gramática específica, as Línguas de

Sinais podem ser reconhecidas pelo computador, mas implicam em especial

atenção quanto as suas particularidades, como nuances do movimento e de

expressão facial.

Page 13: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

13

Na concepção dessa dissertação, pretendia-se desenvolver uma interface em

dispositivos móveis ou um sistema computacional que possibilitasse transformar os

signos da Língua de Sinais em textos. No entanto, dada a acelerada evolução dos

instrumentos computacionais, optamos por pesquisar sobre o Estado da Arte nesta

área de conhecimento.

Nesse trabalho é apresentado um breve histórico da evolução das interfaces,

delineando a evolução do sensoriamento da máquina e a consequente ampliação de

leitura do corpo do usuário, principalmente das mãos. Também são abordados

alguns aspectos além do simples reconhecimento de padrões, como letras e seus

sinais correspondentes, o que implica em certa complexidade de reconhecimento

das Línguas de Sinais. Por fim, observam-se questões relativas ao estado da arte

das tecnologias de reconhecimento de gestos, apontando possíveis dispositivos de

reconhecimento das Línguas de Sinais que melhor se adéqua as suas

particularidades.

Page 14: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

14

CAPÍTULO 1 – PROPOSTA E QUESTÕES DA PESQUISA

1.1 Objetivo Geral

O objetivo geral dessa dissertação é identificar, no Estado da Arte das

Interfaces de Reconhecimento Gestual, como as novas tecnologias computacionais

vêm sendo e podem ser utilizadas na tarefa do reconhecimento das Línguas de

Sinais. A fim de analisar de que maneira essas interfaces se propõe a atender os

requisitos das Línguas de Sinais, considerando seus aspectos gramaticais, é

necessário identificar que aspectos são esses. Por meio da relação dessas

interfaces, pretende-se delinear o caminho que vem sendo seguido quanto ao

reconhecimento da gramática complexa dos signos das Línguas de Sinais, e quão

próximos estamos de uma interface completa de reconhecimento dessas Línguas.

1.2 Objetivos Específicos

- Delinear a evolução das interfaces computacionais, compondo seu

desenvolvimento até as atuais Interfaces Naturais e suas novas

possibilidades;

- Definir o Estado da Arte das tecnologias de reconhecimento gestual,

apresentando as diferentes abordagens no que tange o reconhecimento das

Línguas de Sinais;

- Eleger os principais aspectos que serão considerados para esta análise das

interfaces de reconhecimento gestual, voltadas às Língua de Sinais, de modo

que esses aspectos sejam considerados na construção de interfaces com

esse fim.

Page 15: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

15

1.3 Justificativa

O estado da arte das tecnologias interativas mudou radicalmente em um curto

espaço de tempo. O acelerado desenvolvimento das indústrias de componentes

eletrônicos torna cada vez menor e mais potente os processadores e as memórias

desses dispositivos, colaborando para um processo de “miniaturização”. Celulares,

tablets, netbooks, proliferam-se à medida que incorporamos seu uso no dia-a-dia,

movimentados pela força da Internet, tornando a computação cada vez mais

presente no cotidiano – surgem os termos computação ubíqua1 e pervasiva2, com a

onipresença da informática em nossas vidas.

Esse movimento evolutivo não se limitou aos hardwares: as possibilidades

advindas da computação e do desenvolvimento de novos softwares se estenderam

também às interfaces. Traçando um histórico evolutivo deste desenvolvimento, antes

tínhamos as linhas de comando monocromáticas, as chamadas CLI – Command-line

Interface – Interfaces de Comando Textual, que só permitiam interagir com a

máquina através de linhas de texto, geralmente escritas em inglês, e se obtinha

como resultado um texto.

Com a evolução dos computadores, surgiu o mouse e a ideia de Interface

Gráfica do Usuário (do inglês Graphical User Interface – GUI). Por meio de uma

cultura exploratória, a GUI incentiva o usuário a navegar pelos sistemas,

aprendendo graficamente como interagir. É nesse contexto que o computador se

populariza, surgindo o conceito de Computador Pessoal – PC (Personal Computer).

1 O termo é utilizado como sinônimo de onipresente, ou é aquele ou aquilo que está em todas as partes e o tempo todo. A computação ubíqua é a capacidade de se estar conectado à rede e utilizá-la a todo o momento. 2 Empregado para definir o conceito da distribuição dos meios de computação aos usuários de forma imperceptível.

Page 16: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

16

Nessa nova interface, o usuário não precisa de comandos complexos para a

interação, mas sim de vontade de explorar o sistema.

A evolução dos outros dispositivos eletrônicos, até então, acompanha o

computador. É o caso dos videogames, com seus joysticks combinatórios, que

necessitam do apertar de diversos botões para diferentes ações. Nos celulares,

passam a surgir menus mais complexos, alguns jogos formados por frames, e as

telas coloridas.

Com o passar dos anos, a indústria eletrônica sofre nova aceleração. Surgem

os videogames de sétima geração que são verdadeiras revoluções quanto ao

quesito gráfico. Surgem também os celulares touch em que a regra geral é o toque

do dedo na tela para a interação. Nessas interfaces, passamos a usar menos o

polegar, explorando a tela gráfica com a mão. No campo dos jogos, surgem novas

formas de interação que utilizam partes do corpo como controle. A interface passa a

dispor de sensores mais complexos, em um processo que quase percebe3 o usuário.

Entramos na era das Interfaces Naturais do Usuário (Natural User Interface – NUI).

As novas possibilidades tecnológicas permitiram pensar em novas interfaces,

assim como foi necessário, no surgimento das interfaces gráficas, pensar em novos

padrões estéticos e interativos. De fato, situamo-nos em um estado da arte tal, que é

preciso entender de que forma as interfaces ditas “naturais” podem colaborar para a

interatividade digital. É necessário conhecer suas capacidades e entender o quanto

ainda devem e podem evoluir.

3 Utilizamos aqui a licença poética para a analogia entre os sensores de que o computador dispõe e do processo de percepção humano através dos sentidos – até então não sintéticos, digitais.

Page 17: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

17

Nesse cenário, surge a possibilidade da interação por gestos, em que o

computador utiliza de sensores para capturar movimentos do usuário como entrada

de dados. Uma interação supostamente natural e fluída, que pode ser utilizada no

reconhecimento das línguas utilizadas por deficientes auditivos, as Línguas de

Sinais.

As Línguas de Sinais são compostas por sinais que, diferente dos gestos

simples, possuem a função estrita de comunicar, seguindo uma estrutura definida e

complexa. O presente trabalho é composto pelo Estado da Arte de reconhecimento

de sinais das Línguas de Sinais – seus signos. Através desse estudo, pretende-se

compreender quais as particularidades e limitações que nos aproximam e nos

distanciam de uma interface completa de reconhecimento gestual para os signos

das Línguas de Sinais.

O reconhecimento gestual “é uma tarefa complexa, que envolve aspectos

como modelagem do movimento, análise do movimento, reconhecimento de padrões

e aprendizado de máquina, e até mesmo estudos psicolinguísticos” (WU & HUANG,

1999b, p. 1). O aprofundamento detalhado deste assunto, principalmente no que

tange as novas interfaces de reconhecimento, se dará nas referências dos capítulos

que seguem. Para este cenário de trabalho, utilizaremos o leque do Design de

Interfaces conforme esquema a seguir:

Page 18: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

18

Figura 1: A Multidisciplinaridade do Design de Interfaces

Fonte: (PASSOS, 2008, p. 37)

Cientes dos aspectos multidisciplinares relacionados ao Design de Interface,

a temática desse trabalho é recortada aos campos da Ergonomia Cognitiva

(percepção), Semiótica (geral), Comunicação (informação visual) e, principalmente,

da Tecnologia (geral) das Interfaces Gestuais. Os demais aspectos, apesar de

imbricados, não serão abordados profundamente nesse estudo ou serão tratados de

maneira pontual conforme as necessidades de explicação.

Page 19: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

19

CAPÍTULO 2 – UM BREVE HISTÓRICO DA EVOLUÇÃO DAS INTERFACES

O computador vem sofrendo aceleradas modificações. Assim, nesse capítulo

iniciaremos nossa reflexão observando como as máquinas vêm evoluindo com o

decorrer dos anos, atendo-se ao modo como a interação computacional se

transforma até um modo natural. Para tanto, precisamos abordar o campo das

interfaces homem-máquina, o mundo dos videogames – diretamente relacionado

com as interfaces computacionais –, e o conceito das interfaces naturais.

Winfried Nöth declara que:

Se nos libertarmos de uma visão estritamente antropocêntrica da mente, se

formos além de uma concepção da mente como sinônimo de consciência, se

começarmos a pensar a mente como um processo que não se limita ao

universo do humano, mas que tem nesse universo apenas sua forma mais

desenvolvida e complexa, o limiar entre mente e matéria se dissolve na

questão dos graus da presença de mente na máquina. Que os animais

apresentam comportamentos reveladores de processos mentais de várias

ordens não é disputado, mas a noção ampliada da mente não se restringe a

este insight. Com base nesse argumento, não deve causar estranheza pensar

que as máquinas inteligentes, por mais rudimentar que essa inteligência ainda

possa ser, exibem um comportamento que pode ser chamado de mental.4

Libertemo-nos então dessa visão antropocêntrica da mente, e vejamos como

a máquina e as novas interfaces digitais colaboram para um novo modelo de

interação e reconhecimento gestual.

4 Ementa da Disciplina 5121A - Seminário sobre Aprendizagem e Semiótica Cognitiva (Doutorado) do Curso de

Pós-graduação do TIDD – Tecnologia da Inteligência e Design Digital, da PUCSP – Pontifícia Universidade Católica de São Paulo, ministrada pelo Prof. Dr. Winfried Nöth.

Page 20: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

20

2.1 Interfaces Homem Máquina

O computador é uma máquina relativamente nova, datando aproximadamente

da década de 40. Até sua concepção mais disseminada, o termo computador foi

utilizado com diversos significados, como por exemplo, máquina de tear – Joseph

Marie Jacquard; calculadora – Charles Babbage; máquina de guerra – Howard

Aiken, entre outros usos.

Vejamos uma definição de computador segundo a Wikipedia:

Computador é uma máquina capaz de variados tipos de tratamento automático

de informações ou processamento de dados. Um computador pode prover-se

de inúmeros atributos, dentre eles armazenamento de dados, processamento

de dados, cálculo em grande escala, desenho industrial, tratamento de

imagens gráficas, realidade virtual, entretenimento e cultura. No passado, o

termo já foi aplicado a pessoas responsáveis por algum cálculo. Em geral,

entende-se por computador um sistema físico que realiza algum tipo de

computação. Existe ainda o conceito matemático rigoroso, utilizado na teoria da

computação. Assumiu-se que os computadores pessoais e laptops são ícones

da Era da Informação; e isto é o que muitas pessoas consideram como

"computador". Entretanto, atualmente as formas mais comuns de computador

em uso são os sistemas embarcados, pequenos dispositivos usados para

controlar outros dispositivos, como robôs, câmeras digitais ou brinquedos

Computador (s.d.). Consultado em 17 de março de 2013. No site Wikipedia:

http://pt.wikipedia.org/wiki/Computador.5

A forma como utilizamos o computador vem se transformando dia a dia, de

modo que podemos ampliar a denominação de computador às interfaces digitais que

nos permitem realizar operações de forma mais fácil, por meio de cálculos não

perceptíveis. A definição atribuída pela Enciclopédia Eletrônica Wikipedia é genérica

e fiel a todos os possíveis usos dessas máquinas: o computador ainda é uma

ferramenta composta por uma parte física: hardware, seu conjunto de engrenagens

5 As entradas da Wikipedia têm autoria coletiva, raramente são assinadas e são revistas frequentemente. Logo,

a referência a “Autor” e “Data” de publicação não são requeridas.

Page 21: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

21

e circuitos, e a parte lógica: software, composta por programas e rotinas. Porém, é

cada vez mais tênue a definição desse conceito. À medida que o computador evolui,

distinguimos menos hardware de software. O que passamos a perceber com mais

clareza são as interfaces. Isso parece ocorrer porque as interfaces são as partes

mais diretamente ligadas à interação do homem com os computadores.

A respeito de interface, (ROCHA, 2009, p. 6) define o conceito de acordo sua

etimologia, sendo a palavra formada

...pelo prefixo latino inter, [entre, no meio de] e pelo radical latino face,

[superfície, face] o termo interface, tomado pela sua origem etimológica, diz

daquilo que está entre duas faces, duas superfícies. Ela é, neste contexto, um

terceiro elemento que se coloca entre dois outros, sem qualquer relação de

pertencimento a uma ou outra extremidade, mas de mediação.

Metaforicamente é uma ponte que conecta, liga duas margens. A ponte não

pertence a um lado nem a outro, ela é um terceiro elemento.

Utilizando o conceito de interface homem-máquina de Lévy, que “designa o

conjunto de programas e aparelhos materiais que permitem a comunicação entre um

sistema informático e seus usuários humanos” (1993, p. 176), observamos

transformações significativas dessas interfaces ao longo dos anos (figura 2).

Figura 2: Evolução das Interfaces Computacionais

Fonte: (SÁ, 2011, p. 13)

No início a interação era feita através de linhas de comando (Command Line

Interfaces – CLI), utilizando, em sua maioria, o inglês para codificar e comandar a

Page 22: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

22

máquina. Já em 1977, Steve Jobs e Steve Wozniak popularizam o conceito de

computador, lançando o Apple II. A Apple cria espaço para um novo tipo de usuário

dos sistemas computacionais. Surge a “interface amigável”, com sistemas que

passam a interagir com os usuários, convidativos a uma navegação em um mundo

de exploração (TURKLE, 1995). Rompe-se o modo mecânico e antigo de se interagir

com a máquina, principalmente com o surgimento do mouse.

A respeito dessa sedução pela máquina, Pierre Lévy aborda o conceito de

Douglas Engelbart, da coerência das interfaces, “uma espécie de interface elevada

ao quadrado, representa um princípio estratégico essencial em relação a esta visão

em longo prazo. Ela seduz o usuário em potencial e o liga cada vez mais ao

sistema”. Esse conceito, somado a “crença na necessidade de uma comunicação

codificada e desprovida de sentido para o usuário”, contribuem para “humanizar a

máquina”. Assim, “essas interfaces, essas camadas técnicas suplementares

tornaram os complexos agenciamentos de tecnologias intelectuais e mídias de

comunicação, também chamados de sistemas informáticos, mais amáveis e mais

imbricados ao sistema cognitivo humano” (LÉVY, 1993, p. 52).

Além das questões de usabilidade, a nova capacidade de interação através

de janelas gráficas (GUI) altera o modo como nos relacionamos com o computador.

As janelas do computador se relacionam com nosso self, a noção de presença no

mundo digital. A presença do usuário se torna mais diluída. Em uma janela é

possível conversar com uma pessoa, em outra janela podemos jogar um jogo, e em

outra ter o editor de textos Word aberto para edição de um texto acadêmico. A

multiplicidade de cenários aumenta, à medida que nossa presença digital também se

expande. A identidade do usuário no computador passa a ser a soma da sua

presença distribuída (TURKLE, 1995, p. 13).

Page 23: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

23

Sobre o termo bricolagem, e a definição do antropologista Claude Levi-

Strauss (1908-2009):

Recentemente, os computadores se tornaram os primários e pós-modernos

objetos-a-se-pensar-com, não simples parte de um amplo movimento cultural,

mas carregados de novas formas de descoberta. O antropólogo francês Claude

Levi-Strauss descreveu o processo de pensamento teórico – bricolagem –

através do qual indivíduos e culturas utilizam os objetos ao seu redor para

desenvolver e assimilar ideias. (TURKLE, 1995, p. 48)

Esse conceito de bricolagem é expandido por Turkle para objetos da cultura

pós-moderna de simulação, como os desktops dos computadores. Nos desktops, o

usuário faz a analogia automática de um ícone de representação como sendo uma

lixeira, um arquivo ou uma pasta, sem ao menos saber como é o funcionamento

computacional atrelado a essa representação. Em 1990, Turkle já dizia que os

usuários de computador estavam “cada vez mais confortáveis com a substituição da

realidade por representações” (TURKLE, 1995, p. 48).

Surge uma cultura de exploração, reforçada pela ideia da interface gráfica,

que possibilita o novo modelo de visitação ao mundo digital. Em seus primórdios, foi

adotado o verbo to browse – recolher, dar uma olhada –, “empregado em inglês para

designar o procedimento curioso de quem navega em um hipertexto” (LÉVY, 1993,

p. 35).

A navegação amigável por exploração obedece a alguns princípios básicos:

(LÉVY, 1993, p. 36):

- Representação figurada, diagramática ou icônica das estruturas de

informação e dos comandos (por oposição a representações codificadas ou

abstratas);

Page 24: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

24

- O uso do “mouse” que permite ao usuário agir sobre o que ocorre na tela de

forma intuitiva, sensório-motora e não através do envio de uma sequência de

caracteres alfanuméricos;

- Os “menus” que mostram constantemente ao usuário as operações que ele

pode realizar;

- A tela gráfica de alta resolução.

Fica bem definido o caráter informativo da interface dada à definição de Lévy.

O usuário conhece os limites das representações dentro do digital, porque na

interface há menus que regem as possibilidades interativas. Como em um mapa,

esses menus podem ser explorados através do uso do mouse. Com a evolução das

interfaces, o mouse passa a um papel secundário em certos tipos de interação.

Algumas interfaces eliminam por completo seu uso, como é o caso das interfaces de

toque – touch ou multitouch –, em outras, como as interfaces de voz e gestuais,

pode assumir um papel secundário. A seguir veremos como novos elementos do

cenário interativo renovam os antigos modos de interação digital.

2.2 Interação – Interfaces Naturais

Janet Murray (1997), especialista no campo da narrativa interativa, aborda o

assunto da interação em seu livro, “Hamlet no Holodeck”. Seus estudos abrangem

os campos da literatura, vídeo, cinema e a própria linguagem digital. A autora se

mostra preocupada com a questão da destruição da narrativa e da trama ilusória.

Para ela, a participação em ambientes imersivos deve ser estruturada e restringida.

O ideal é que a participação se estruture por meio da ideia de uma visita,

“particularmente indicada para estabelecer uma fronteira entre o mundo virtual e a

vida real” (MURRAY, 1997, p. 108).

Page 25: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

25

Murray faz uma referência análoga ao termo “quarta parede” do teatro,

utilizado para definir a quarta parede imaginária, criada involuntariamente pelo

público para imergir na cena, tornando-a mais real. Se não for bem construída a

narrativa, a quarta parede é derrubada, desestruturando a experiência. Esse ato de

derrubar a quarta parede pode ser notado em uma peça de teatro, quando, por

exemplo, o ator interage com o público. O público é convidado a entrar na peça,

quebrando a ilusão da cena.

O mesmo ocorre com outros tipos de interação, inclusive em ambientes

eletrônicos, em que “a própria tela é a tranquilizadora quarta parede, e o controlador

(mouse, joystick ou dataglove [...]) é o objeto liminar que lhe permite entrar e sair da

experiência” (MURRAY, 1997, p. 109).

Quando Murray escreveu sobre a experiência e a quarta parede, o modo de

interação mais comum com o computador era através do teclado e mouse, e nos

videogames, a interação era por joysticks. Todas estas interfaces não possuem grau

de naturalidade por correspondência, o que significa que é necessário aprender a

usar um teclado, assim como é necessário entender como a movimentação do

mouse em um plano horizontal, desloca o cursor digital na tela do computador.

As interfaces naturais surgem como uma evolução da interface gráfica. Essas

novas interfaces estão associadas ao termo NUI, do inglês Natural User Interface,

em uma tradução livre, Interface Natural do Usuário. O termo é “uma metodologia de

interação computacional emergente, focada nas habilidades humanas como toque,

Page 26: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

26

visão, voz, movimento e funções cognitivas especialistas, como expressão,

percepção e recordação” (NUI Group, 2009)6.

Por meio do uso do corpo, essas interfaces se relacionam diretamente com os

usuários, sendo seu uso mais natural. Em uma superfície multi-touch, como a de um

celular, ainda é necessário aprender que o movimento de pinça7, normalmente dá

zoom em uma imagem, ou que o toque em um arquivo abre o mesmo; porém essas

experiências possuem um grau maior de naturalidade e correspondência corpórea,

sendo mais dedutivo o seu uso.

Movimento semelhante é observado em diferentes aplicações tecnológicas,

notoriamente no campo dos videogames, mas em campos distintos como artes.

Louise Poissant (2009, p. 83) observa que:

Por quarenta anos, as interfaces - intermediárias entre duas linguagens ou dois

sistemas - têm se infiltrado em todos os lugares. Esses agentes de ligação ou

de passagem, esses filtros de tradução entre humanos e máquinas anunciam

mudanças que ainda são difíceis de delinear, embora se antecipe que sejam

muito substanciais. As interfaces se multiplicam e se incorporam em vários

dispositivos, tornando seu uso cada vez mais natural. Não há necessidade de

botões ou manivelas. As telas logo serão transparentes; os controles,

invisíveis. Muito paradoxalmente, essa invasão generalizada é feita de maneira

discreta e silenciosa, a tecnologia se torna invisível ao infiltrar-se em todos os

lugares. Esquecemos a "boa" interface exatamente porque é transparente. Sua

invisibilidade – muitas vezes sinônimo de disfunção – interessa somente a

6 O NUI Group é uma comunidade aberta estabelecida em 2006, que cria e compartilha padrões e

técnicas de interação que beneficiam designers e desenvolvedores através do mundo. O grupo é

composto por mais de 16.900 membros (dado de agosto de 2012), sendo a maior parte usuários dos

Estados Unidos, seguido por Alemanha, Reino Unido, França, Canadá, Rússia, China e outros.

7 Para maior entendimento, verificar o Apêndice A, referente a convenções dos gestos em interfaces multitouch.

Page 27: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

27

especialistas, artistas ou engenheiros curiosos para entender seu

funcionamento.

No digital em geral, os usuários passam a interagir cada vez mais com uma

tecnologia invisível e uma interface de fácil aprendizado e manuseio. Começam a

surgir interfaces de reconhecimento de voz, reconhecimento facial, de presença ou

gestual, meios em que a quarta parede se torna ainda mais diluída. Podemos supor

que os limites nessas interfaces fazem parte das representações e que podemos

colocá-los e tirá-los de acordo com a nossa capacidade de simulação. A relação

entre a interatividade e a quarta parede passa a ser corpórea. O corpo do usuário

que interage passa a ser a quarta parede, capaz de construir ou desconstruir a

experiência imersiva.

Uma das primeiras mídias a fazer alusão a essas novas formas de interação

foi o cinema, no filme Minority Report (figura 3), um filme de ficção científica, lançado

em 2002, estrelado por Tom Cruise e dirigido por Steven Spielberg. O Filme é

ambientando no ano de 2054 e Tom Cruise é um investigador da elite policial de

uma divisão de pré-crimes. Em uma das cenas futurísticas do filme, o ator interage

com diversas informações sobre um caso, entre elas fotos, vídeos e outras mídias.

Através de movimentação das mãos, as imagens são manipuladas em frente à

personagem.

Page 28: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

28

Figura 3: Cena do filme Minority Report, de Steven Spielberg

Fonte: Internet

Anos depois, John Underkoffler – projetista da interface ficcional do filme –

demonstrou uma versão funcional e não ficcional da interface em uma apresentação

TED8, em 2010. A interface, chamada G-Speak 9, permite o mesmo tipo de interação

do filme, como a manipulação de objetos 3D em uma projeção de computador, ou

em um monitor comum. Outros pesquisadores e entusiastas pelo mundo todo se

inspiraram com as ideias do filme, sendo que surgiram várias iniciativas quanto a

interfaces interativas.

O Horizon Reports10 de 2011 apontou a computação baseada em gestos

como uma tecnologia emergente a ser adotada em médio prazo – três a quatro

anos. Graças a tecnologias como o iPhone, o mais recente iPad, o Nintendo Wii e o

8 TED é uma fundação privada sem fins lucrativos, devotada ao conceito Ideas Worth Spreading (Vale a Pena Compartilhar Ideias), divulgando palestras por meio do site www.ted.com. 9 http://oblong.com (acesso em 01/09/2012)

10 Publicação periódica anual que é fruto de uma parceria entre o New Media Consortium (NMC) e da EDUCASE Learning Initiative (ELI).

Page 29: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

29

Microsoft Kinect, as pessoas tem mais acesso às interfaces gestuais. O

desenvolvimento desse tipo de interação é natural, assim como tende a crescer o

número de aparelhos e jogos a incorporar interações gestuais intuitivas, trazendo

com eles uma nova era de design de interface. Podemos dizer que é um movimento

natural, especialmente para a nova geração, acostumada a tocar, clicar, trocar, pular

e se movimentar como uma forma de se envolver com as informações (JONHSON et

al., 2011, p. 24).

Diferente das interfaces gráficas, exploratórias, muito caracterizadas por

menus, onde o usuário compreende os limites da exploração, as interfaces naturais

apresentam a dificuldade da limitação da interação. A regra geral do design das

interfaces gráficas é a visibilidade: o sistema pode ser aprendido por meio da

exploração (NORMAN, 2010, p. 6). Já as Interfaces Naturais têm como principal

característica o aprendizado por intuição.

Um exemplo que demonstra o fator arbitrário dessas interfaces é o caso do

Nintendo Wii, videogame da sétima geração que utiliza um controle para rastrear os

movimentos do corpo do usuário, e utilizá-los na interação com o jogo (ver capítulo

4.1 Videogames). Em seu lançamento, em 2006, o Wii apresentou o fator mimético

da interface que estimulava os jogadores a agir com certo grau de naturalidade. No

jogo Wii Sports Bowlin, que é um simulador de jogo de boliche, o jogador deveria

segurar o controle na mão, apertar o botão B do controle, que correspondia ao ato

de segurar uma bola de boliche, fazer o movimento correspondente ao de lançar

uma bola de boliche real em uma pista, e soltar o botão B. Porém o grau de imersão

no jogo era tão alto, que alguns jogadores lançavam o controle como se o objeto

representasse a bola.

Page 30: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

30

O erro do jogador denota como a quarta parede está diluída na representação

corpórea para essas interfaces. Ainda assim, nos jogos com interação gestual, esta

se estrutura de forma mais guiada, com um objetivo bem delineado, e um grau

estabelecido de correspondência entre ato real e ação digital. O modelo de interação

é mais complexo em outras interfaces de reconhecimento gestual, em que os gestos

são mais efêmeros.

Diferente dos jogos, essas interfaces não deixam um rastro, um caminho, o

que significa que se o usuário faz um gesto e não recebe resposta alguma, ou

recebe a resposta errada, há pouca informação disponível para ajudá-lo a entender

os significados estabelecidos pelas interfaces, isto é, falta o feedback necessário

(NORMAN, 2010, p. 8).

Como uma das soluções possíveis, Norman aponta para o caso da Xerox

PARC (Palo Alto Research Center), divisão da Xerox fundada em 1970, berço de

invenções como a interface gráfica, hoje adotada pela Microsoft e a Apple. Quando a

interface gráfica surgiu, foi necessário pensar em questões de usabilidade, como

quando um ícone era arrastado em uma pasta, e naturalmente o ícone desaparecia

e ficava dentro da pasta. De forma natural o mesmo ícone sumia quando era

arrastado para uma lixeira. Mas esse movimento natural foi rompido: quando se

pegava um ícone e o arrastava para a impressora, o arquivo era impresso e o ícone

sumia da tela. Foi necessário repensar a interação.

Alguns estudos apontam para uma padronização das interações nessas

interfaces naturais, como a análise dos aspectos do mundo físico e virtual, utilizando

metáforas para uma representação coesa (TERRENGHI et al., 2007);

desenvolvimento de ícones segundo fatores como tamanho do ícone, dinâmica,

qualidade do toque, da cor e do formato, entre outros (HUANG & LAI, 2008); e o livro

Page 31: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

31

de Dan Saffer (2008), Designing Gestural Interfaces, voltado para desenvolvedores

de interface que se deparam com o novo desafio de construir interfaces naturais.

Essas padronizações buscam esclarecer questões tais como se as interfaces

naturais devem compreender várias formas possíveis de se chegar a um mesmo

resultado – como quando queremos criar uma nova pasta no Microsoft Windows, e

clicamos com o botão direito no mouse onde queremos que seja criada a pasta, ou

vamos até o menu correspondente e escolhemos a opção “Nova pasta” (Microsoft

Windows).

De acordo com estudos sobre as interfaces gestuais, gestos manuais podem

ser classificados em diferentes categorias, como gestos de conversação, gestos de

controle, gestos de manipulação e gestos comunicativos (WU, 1999a). Considera-se

que as Línguas de Sinais são compostas de gestos comunicativos importantes a

serem utilizados para estudos a respeito de reconhecimento gestual, fornecendo

base para testes de mesa em algoritmos – estrutura dessas interfaces. De forma

semelhante, também se oferecem como importante modo de interação

computacional (WU, 1999b).

Portanto, dada sua gramática complexa e estruturada, a importância do

reconhecimento das Línguas de Sinais serve tanto ao propósito de teste das

interfaces puramente gestuais, como também podem ser utilizados os sinais das

Línguas de Sinais para a padronização da interatividade no digital.

O segundo uso dessas interfaces é especialmente interessante aos surdos,

pois possibilitaria a concepção de uma interface computacional natural para que o

surdo interagisse com o computador por meio de sua língua materna, Língua de

Sinais. Somando a essa interatividade, os esforços de empresas para traduzir sites

Page 32: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

32

e conteúdos textuais para a Língua de Sinais (PRODEAF11), o surdo teria meios de

interação computacional fundamentados somente em Línguas de Sinais, não o

obrigando a utilizar exclusivamente a Língua Portuguesa no uso do computador.

Independente do uso das interfaces gestuais, se para fins de interação com o

sistema, ou se para fins de tradução das Línguas de Sinais para línguas orais e vice-

versa, o sistema que se propõe a reconhecer as Línguas de Sinais deve considerar

características importantes quanto a sua gramática. Antes de nos debruçarmos

sobre as particularidades dessas línguas, vejamos no próximo item (2.3) questões

referentes ao desenvolvimento das tecnologias e das interfaces naturais,

particularmente às referentes aos videogames, e o que esse desenvolvimento

promissor tem a oferecer no campo da interação gestual.

2.3 A evolução das interfaces e o mundo dos Games

No ano de 1961 o fundador da Digital Equipment Corporation, Ken Olsen,

doou ao Departamento de Engenharia Elétrica do Massachusetts Institute of

Technology (MIT) um computador de $120.000,00 chamado PDP-1. A expectativa

era que o computador fosse usado para descobrir a cura do câncer, ou resolver

grandes problemas da humanidade. Ao invés disso, Steve Russell que trabalhava no

Laboratório de Pesquisas em Eletrônica do MIT, e alguns outros estudantes, usaram

o super computador para criar o primeiro jogo interativo de computador, o Spacewar!

11 Empresa brasileira focada no tema de acessibilidade digital ao surdo. Composta por uma equipe multidisciplinar de programadores, linguistas, designers e surdos, propõe-se a traduzir textos de páginas de empresas para Língua Brasileira de Sinais – LIBRAS, por meio de avatares animados. (disponível em http://prodeaf.net/, acesso em 26/02/2013).

Page 33: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

33

(figura 4). Desde então, o desenvolvimento de jogos se atrelou a capacidade

computacional (ADVENTURE, 2007).

Figura 4: Dan Edwards (esquerda) e Peter Samson jogando Spacewar!

Fonte: http://pdp-1.computerhistory.org/pdp-1/index.php?f=showitem&id=26.54&popupwin=1

O jogo Spacewar! devia ser jogado por duas pessoas, cada uma controlando

uma das espaçonaves. Cada jogador tinha como objetivo destruir a aeronave do

outro, através de uma constelação com características que refletiam o mundo real

(Computer History Museum). Anos depois surgiu o primeiro videogame que poderia

ser jogado em casa, o Odissey.

Desde o primeiro videogame até os videogames atuais, muita coisa mudou,

como os gráficos, cores, enredo dos jogos, entre outros. O que mudou

principalmente foi o modo como se joga: a interface. Na figura 5 temos um exemplo

da transformação dos controles de videogames.

Page 34: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

34

Figura 5: A evolução dos controles de videogames

Fonte: http://www.pitacosmodernos.com.br/2010/12/evolucao-do-controle-para-videogames.html

Analisando os controles dos primeiros videogames produzidos, percebemos –

com o perdão do termo – uma forte “cultura do dedão”. Em sua maioria, os

videogames sempre demandaram do jogador o uso do polegar da mão esquerda

para o controle do direcional, sendo necessário associar movimentos do tipo

direcional direito, com o ato de movimentar um avatar para o lado direito na tela da

televisão, ou ainda virar o volante de um carro, dirigir uma aeronave, etc.; e o uso do

dedão da mão direita para controles de uso genérico, como socos e chutes, para um

jogo de luta, ou acelerar e frear para jogos de corrida. Da combinação desses

botões, geralmente é executado algum comando especial.

Com as novas capacidades computacionais e as novas tecnologias

emergentes, surgem novas formas de interação com os games. Sobre as interfaces

Page 35: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

35

naturais, os estudos mais difundidos a respeito dos novos modos de interação

derivam da indústria dos games.

Podemos usar as gerações para categorizar o estado da arte dos videogames

ao longo dos anos. Em 2012, encontramo-nos na oitava geração dos consoles, com

o lançamento de novos portáteis em 2011, capazes de explorar a tecnologia 3D e o

touch.

As gerações de consoles foram marcadas por grandes revoluções no modo

de se jogar videogame, como, por exemplo, a quinta geração, marcada pelos

videogames de 32 bits12, e a sexta geração, com os consoles de 128 bits. A partir da

sétima geração, iniciada em 2005 com o lançamento do Microsoft Xbox 360, não se

usa mais como parâmetro de destaque os bits, ou seja, a capacidade gráfica de

cada aparelho, e sim as novas possibilidades interativas.

Na sétima geração, cada empresa adotou uma forma de atuação no mercado

dos games. O Xbox 360 possui gráficos poderosos, e um sistema de jogo on-line,

para engajamento dos jogadores além dos enredos off-line, o que estende o jogo. O

Nintendo Wii apostou em franquias de jogos de sucesso, com personagens

conhecidos do universo Nintendo, como Mario, Donkey Kong e Zelda. Apesar de

utilizar capacidade gráfica considerada ultrapassada, a Nintendo apresentou novas

formas interativas de jogar, por meio de controles sensíveis ao movimento. O Sony

Playstation 3 adotou uma nova forma de armazenamento dos jogos, o Blu-Ray, com

capacidade de 50 Gigabytes de armazenamento, o que significa mais espaço para

armazenar imagens ainda melhores, além de uma rede social de jogadores,

semelhante a da Microsoft, e gratuita.

12 Referência à quantidade de bits usada para representar cada pixel.

Page 36: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

36

Um dos consoles dessa geração que mais se destacaram, foi o da Nintendo.

Baseado na interação natural, que utiliza movimentação do corpo como interface de

jogo, o Wii tem a capacidade de aproximar os jogadores casuais do mundo dos

games (figura 6). Podemos considerar os consoles Xbox 360 e o PS3 mais

hardcore, o que significa que são mais procurados por jogadores que gostam muito

de jogar, que buscam gráficos mais reais, e que não tem problemas em manipular o

joystick.

Figura 6: Controle do Nintendo Wii

Fonte: Site oficial da Nintendo http://www.nintendo.com/wii

Na tentativa de captar parte do mercado consumidor casual da Nintendo, a

Microsoft lançou em 2010 o Microsoft Kinect (figura 7), um sensor de movimento

composto por câmeras infravermelho que percebem os movimentos do jogador sem

a necessidade de controladores específicos. O aparelho trouxe novidades ao

console, incorporando também a capacidade de aproximar os jogadores casuais dos

jogos de Xbox.

Page 37: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

37

Figura 7: Microsoft Kinect

Fonte: Site oficial do Xbox http://www.xbox.com/pt-BR/Kinect

Antes mesmo desses dispositivos, a Sony lançou uma câmera capaz de

reconhecer gestos para seu videogame de sexta geração, o Playstation 2. O

acessório, chamado de EyeToy, era uma câmera capaz de perceber os movimentos

do usuário. Mais simples, precisava de condições favoráveis de funcionamento,

como luminosidade correta. Anos depois, em resposta ao Kinect e ao Wii, a Sony

lançou o Sony Move (figura 8), uma espécie de bastão que deve ser usado com a

câmera sucessora do EyeToy, a Playstation Eye. Apesar de o conceito ser

praticamente o mesmo dos outros dois fabricantes, o Sony Move não trouxe

novidades significativas aos videogames.

Page 38: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

38

Figura 8: Playstaion 3, Playstation Eye e Sony Move

Fonte: Site oficial do Playstation http://us.playstation.com/ps3/playstation-move/

Alem dessas iniciativas, para tornar as atividades com os novos controladores

ainda mais miméticas, a Nintendo e a Sony, e fabricantes não oficiais, lançaram

diversos acessórios que permitem acoplar seus controles, como armas para jogos

de tiro, volantes para jogos de corrida, acessórios para vestir nas pernas para

simuladores de caminhada, raquetes de tênis, tacos de golfe, entre outros (figura 9).

Figura 9: Acessórios para o Nintendo Wii

Fonte: Internet

Page 39: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

39

O gráfico da figura 10 está dividido em dois grupos. Os consoles e os

portáteis. O primeiro conjunto de dados apresenta as vendas dos principais consoles

dessa geração, Microsoft Xbox 360, lançado em 2005, Nintendo Wii, lançado em

2006 e o Sony Playstation 3, também de 2006.

Figura 10: Total de vendas por console de videogame

Fonte: http://www.vgchartz.com/

Uma das conclusões possíveis das estatísticas, é que a posição de destaque

do Nintendo Wii se deve em partes ao seu fator mimético, e a consequente

aproximação com os jogadores casuais. Ao comprar um novo videogame, o jogador

pode optar por aquele que atende o maior número possível de familiares dentro de

uma casa, ou ainda aquele que reúne o maior número de pessoas em uma partida –

presencialmente, já que há ainda a opção de jogar on-line. Com isso, a Nintendo sai

na frente, pioneira em um caso de sucesso de interação corporal e gestual em

games. A Microsoft aparece logo em seguida, com a adição do Microsoft Kinect e

seus sensores que permitem ao jogador utilizar seu corpo na interação.

Page 40: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

40

A seguir abordaremos como as capacidades desses dois consoles têm sido

abordadas e empregadas nos mais diversos campos, como medicina, terceira idade

e educação.

2.4.1. Nintendo Wii

Devido a seu potencial interativo e sinestésico, o Nintendo Wii já foi utilizado

em diversas iniciativas e estudos englobando campos como saúde, educação e

reabilitação.

No campo da saúde, temos, por exemplo, o projeto Wii-hab, desenvolvido no

Departamento dos Assuntos dos Veteranos (de Guerra) dos Estados Unidos

(TYSON). Ex-combatentes são estimulados a utilizarem o Wii para manter o bom

condicionamento físico, ou em rotinas de reabilitação. Um dos jogadores,

paraplégico, joga em simuladores de esporte no Wii para manter a saúde

cardiovascular e a força.

Na entrevista, coletada por Megan Tyson, um dos terapeutas físicos do

Centro Médico dos Assuntos Veteranos em Denver, Colorado, disse: “O Wii é uma

ferramenta excelente para promover exercícios, fortalecer a habilidade cognitiva e

ajudar com problemas visual-espaciais” (TYSON).

Através da interface gráfica, o Wii também motiva os veteranos na

reabilitação, com casos de ex-soldados que perderam membros do corpo, e utilizam

o Wii para se ajustar as próteses. A respeito de treinos de equilíbrio com próteses,

outro terapeuta físico afirma: “O Wii é motivacional e dá uma resposta ótima aos

Veteranos. A resposta visual da tela é melhor do que eu dizendo a eles que estão

Page 41: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

41

fora de equilíbrio”. Além disso, são citados fatores como facilidade de uso, e o preço

menor do Wii em relação a outros aparelhos de reabilitação.

Existem outras iniciativas pelo mundo inteiro, como a da Faculdade de

Fisioterapia da Universidade Santa Cecília (UNISANTA), que inaugurou o serviço de

Recuperação Funcional Virtual, em agosto de 2010 (COMUNICAÇÃO, 2010); o

Dodd Hall Rehabilitation Hospital, da Universidade Estadual de Ohio, que

prescreveu 30 minutos diários de terapia com o Wii a um dos seus pacientes, vitima

de um AVC – Acidente Vascular Celebral (GAMES); a Universidade de São Paulo,

local em que foi desenvolvido um estudo na EACH - Escola de Artes, Ciências e

Humanidades, que analisava o desempenho de pessoas com deficiências em jogos

eletrônicos (FERREIRA, 2011); e a dissertação de mestrado “Games e Terceira

Idade: um Estudo de Caso com o Wii Sports”, do ex-aluno da PUC Guilherme

Henrique Quintana, que relaciona e observa as interações de idosos com o Nintendo

Wii (QUINTANA, 2011).

As potencialidades interativas do Wii também foram exploradas por técnicos

computacionais, expandindo ainda mais as utilizações da interface. Brian Peek, um

experiente técnico da Microsoft, desenvolveu uma biblioteca de desenvolvimento

para o Wii, a WiimoteLib. Com isso, qualquer desenvolvedor pode utilizar um

controle do Nintendo Wii acoplado a um computador para criar seus próprios

programas e suas interfaces interativas. Entre os aplicativos listados no site de Brian

Peek (PEEK), estão interfaces tipo tablet (Tablet Interface); baterias musicais virtuais

– que utilizam o ar para simular uma bateria real (Wii Drum High; Virtual Drum Kit);

braços mecânicos controlados via controle Wii (Wiimote Controlled Lynx Arm);

interfaces de música controladas por gestos naturais (Wii Theramin); robôs

controlados por gestos (Blue Wii; VexWiiBot; Wiibot) e outros.

Page 42: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

42

2.4.2. Microsoft Kinect

O Kinect também é amplamente utilizado para finalidades além do

entretenimento em jogos digitais. Com o lançamento em 2012 do Kinect para

Windows, a Microsoft disponibilizou para os desenvolvedores de programas de

computador uma forma de desenvolver novos programas e interfaces

computacionais que exploram os gestos.

Podemos citar como exemplo o R.O.G.E.R. (CACTUS), um protótipo de jogo

da produtora Fishing Cactus , desenvolvido com a ajuda do Centro de Inovações da

Microsoft e quatro terapeutas, para paciente que sofrem de falta de lógica ou de

capacidades organizacionais, como pacientes que sofreram AVC ou sofrem de

Alzheimer. O jogo (figura 11) conta com cenários realísticos, quarto e banheiro, e o

objetivo do jogador é organizar uma mala para uma viagem específica. Assim, o

paciente precisa interagir com o ambiente, coletando itens dentro da interface e

organizando sua mala mesmo com alguns distrativos, como telefone e campainha

tocando. O terapeuta acompanha todas as ações, analisando se o paciente

consegue focar na atividade e não perdeu seu senso lógico.

Page 43: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

43

Figura 11: Imagem do jogo R.O.G.E.R.

Fonte: http://blog.fishingcactus.com/wp-content/uploads/2010/10/previewb02.jpg

A Microsoft mantém uma página com planos de atividades escolares

utilizando o Kinect (EDUCATION). A página traz as atividades por título e descrição,

contendo o tema (ciências, matemática, artes linguísticas, história e outros), a faixa

etária e o nome do jogo a ser utilizado. Através do portal, jogos como o Kinectmals,

em que o objetivo é cuidar de um animal selvagem, são sugeridos para desenvolver

noções de “igual e diferente”, questões perceptivas como características dos

animais, habilidades motoras e sociais, entre outros.

A interface do Kinect para os videogames também cria um modo próprio de

navegação gestual por menus, enquanto não se está de fato jogando. Toda vez que

uma janela aparecer no canto direito inferior do menu do aparelho, o Kinect está

ativado e é possível utilizar gestos.

Apontando a palma da mão para o Kinect, é possível movimentar o ícone

correspondente a uma mão pela tela. Caso se queira selecionar um dos menus na

Page 44: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

44

tela, basta ficar com a mão parada em cima do menu, até que o círculo em volta do

ícone da mão se complete. Esse tipo de interação temporal, que avalia o tempo de

inatividade durante um gesto, serve para se certificar de que o usuário realmente

quis selecionar o menu escolhido, evitando comandos acidentais (Figura 12).

Figura 12: Gesto do Kinect – Focalizar para selecionar

Fonte: http://support.xbox.com/pt-BR/kinect/body-tracking/body-controller

Iniciativas como essas, oriundas dos mundos dos games, reforçam o

potencial interativo das interfaces naturais em diferentes esferas: o próprio

entretenimento direto, reabilitação, inclusão, trabalhos sociais, etc. Todas essas

iniciativas partem do princípio da adaptação dos jogos comercializados pelas

fabricantes, ou ainda de adaptações às interfaces por meio de programação

computacional.

Para uma interface voltada ao reconhecimento de Línguas de Sinais, uma

abordagem semelhante pode ser adotada. Discutiremos melhor esses aspectos

técnicos no item 4, do Estado da Arte. Antes, porém, é necessário o entendimento

dos parâmetros e características das Línguas de Sinais que essas interfaces devem

ser capazes de capturar. Esse assunto é coberto no próximo item (3).

Page 45: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

45

CAPÍTULO 3 – LÍNGUAS DE SINAIS E CARACTERÍSTICAS

Com o objetivo de compreender o escopo do trabalho com interfaces de

reconhecimento gestual voltadas ao reconhecimento de Línguas de Sinais, é preciso

definir alguns conceitos preliminares. Nesse capítulo, abordamos a questão das

linguagens não verbais com especial atenção as Línguas de Sinais, explorando suas

características particulares. Faremos uma distinção necessária entre gesto e sinal,

explorando suas propriedades e aspectos gramaticais.

3.1 Contextualizando a Língua de Sinais

As Línguas de Sinais são utilizadas para comunicação e se apropriam do

espaço-visual como canal. Língua e linguagem possuem características importantes

que enquadram as Línguas de Sinais como língua e não linguagem. A linguagem é

“heteróclita e multifacetada”:

...o cavaleiro de diferentes domínios (...) física, fisiológica e psíquica, ela

pertence, além disso, ao domínio individual e ao domínio social; não se deixa

classificar em nenhuma categoria de fatos humanos, pois não se sabe inferir

sua unidade (SAUSSURE, 1857-1913, p. 17).

Para Saussure, a linguagem é uma faculdade que os homens utilizam para

produzir, desenvolver e compreender a língua e outras manifestações simbólicas

semelhantes à língua. Portanto a linguagem apresenta manifestações em diversos

campos, como pintura, artes cênicas, música, e diversas outras formas.

Linguagem é divisível em linguagem verbal e não verbal. Por linguagem não

verbal, temos como exemplo os sinais de trânsito, gestos corporais, a própria mímica

e todos os signos, capazes de transmitir mensagem. O signo da linguagem não

Page 46: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

46

verbal pode ser um simples gesto, convencionalmente adotado para significar algum

conceito pré-estabelecido a um determinado grupo de pessoas, como é o caso dos

emblemas.

Segundo (EKMAN & FRIESEN, 1972, p. 461), emblemas são atos não

verbais que contém uma tradução geralmente de uma ou duas palavras, ou até

mesmo uma frase, utilizados com a intenção consciente de enviar uma mensagem à

outra pessoa. O receptor, nesse caso, geralmente sabe o significado do emblema e

sabe que ele foi dirigido a ele. Os emblemas então são atos comunicativos e

interativos. Por exemplo: “não consigo te ouvir” – nesse emblema a mão é colocada

atrás de uma orelha, face para frente.

Em um sentido mais amplo, linguagem de sinais é um tipo de comunicação

não-verbal. Pode ser utilizada por um estrangeiro que desconhece a língua do país

em que se encontra, ou ainda como forma primitiva de comunicação. Nesse

contexto, considera-se metaforicamente como “linguagem” o sistema rudimentar de

comunicação, sem léxico e sem gramática (NÖTH, 1995).

Poyatos (1976) sugere uma categorização das linguagens, que considera as

dicotomias “vocal” e “não-vocal” e ainda, “verbal” e “não-verbal”, assim sendo

(POYATOS, apud NÖTH):

a) Comunicação verbal-vocal: compreende mensagens de uma língua natural

falada;

b) Comunicação não-verbal-vocal: compreende o ramo da paralinguística e

alguns outros usos não linguísticos da voz humana (por ex.: gritos,

gargalhadas, etc.);

c) Comunicação verbal-não-vocal: é feita por meio da escrita, substitutos da

língua e linguagem de signos;

Page 47: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

47

d) Comunicação não-verbal-não-vocal: engloba os sinais somáticos em tempo e

espaço.

De acordo com a categorização sugerida por Poyatos, ampliando a

classificação de linguagem à língua – já que essa parte daquela – as Línguas de

Sinais se enquadram como forma de Comunicação Verbal Não-Vocal.

A língua por sua vez, é uma unidade por si só, um princípio de classificação

pelo qual é possível estabelecer certa ordem na faculdade da linguagem. A língua é

um produto social, e também convencional, pois existe da convenção tácita de um

mesmo grupo, como é o caso do português e da LIBRAS:

O português brasileiro é a língua de uma grande comunidade de pessoas

ouvintes, nascidas no Brasil. A LIBRAS é a língua de uma grande comunidade

de pessoas surdas nascidas no Brasil. Essas línguas não se limitam a uma ou

outra pessoa. Elas nascem e se desenvolvem no âmbito de um grupo social,

não no âmbito individual (VIOTTI, 2007, p. 3).

Do ponto de vista comunicativo, a língua de sinais enquanto Comunicação

Verbal Não-Vocal para os indivíduos surdos passaram a existir desde que existe a

língua oral humana, e sempre que existiram surdos reunidos por mais de duas

gerações em comunidades, o que atrela à língua uma cultura (RAMOS, 2009).

A exemplo da Língua Brasileira de Sinais (LIBRAS), a Lei nº 10.436, de 24 de

abril de 2002, garante em seu art. 1º a LIBRAS como língua oficial brasileira

(BRASIL, 2002):

É reconhecida como meio legal de comunicação e expressão a Língua

Brasileira de Sinais - LIBRAS e outros recursos de expressão a ela associados.

Entende-se como Língua Brasileira de Sinais – LIBRAS a forma de

comunicação e expressão, em que o sistema linguístico de natureza visual-

motora, com estrutura gramatical própria, constituem um sistema linguístico de

transmissão de ideias e fatos, oriundos de comunidades de pessoas surdas do

Brasil.

Page 48: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

48

A LIBRAS possui gramática própria identificada em níveis linguísticos distintos

(fonológico, morfológico, sintático e semântico). A equivalência da LIBRAS enquanto

língua não contempla somente seu potencial de expressão, como também eficiência

comunicativa: a comunicação pode ser produzida em velocidade semelhante à

língua falada. Embora os vocábulos possam ser produzidos mais rápido que os

sinais, os sinais gestuais contém mais informações, pois combinam elementos

semânticos (movimento, orientação, localização) em maior proporção (NÖTH, 1995).

Semelhante à língua oral, as Línguas de Sinais são regionais, com

pequenas variações de região para região e grandes alterações de país para país. A

Língua Brasileira de Sinais (LIBRAS) é utilizada pelos membros da comunidade

surda no Brasil; a American Sign Language (ASL) nos Estados Unidos; Antiga

Língua de Sinais Francesa (ALSF) na França, etc. Uma mesma Língua de Sinais,

como a LIBRAS, também implica em variações linguísticas, semelhantes às línguas

orais: gírias, regionalismo e até sotaques (BONINO, 2007). Uma mesma palavra

pode ter diferentes sinais dentro da LIBRAS dependendo do estado regional.

Devido ao seu fator convencional, e ao fato das Línguas de Sinais, assim

como a língua, possuírem uma gramática gerativa, é possível criar estruturas

tecnológicas que permitam o reconhecimento das Línguas de Sinais. Através da

gramática gerativa, um número limitado e delineado de regras permite gerar um

número infinito de mensagens. Compete à programação englobar regras específicas

da gramática.

Para que possamos entender os parâmetros que fazem parte do escopo

desse estudo quanto ao reconhecimento do gesto, componente do sinal das Línguas

de Sinais, abordaremos, nos próximos capítulos, a estrutura das Línguas de Sinais,

iniciando por sua unidade básica, o sinal.

Page 49: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

49

3.2 Gesto e Sinal

O termo Interfaces de Reconhecimento Gestual conduz à noção quase

evidente de interfaces capazes de reconhecer gestos. A aplicação desse tipo de

interface, no intuito desse trabalho, é atrelada à noção de interfaces de

reconhecimento de Línguas de Sinais. Precisamos, portanto, distinguir os conceitos

de gesto e sinal.

O dicionário on-line de português Michaelis lista a seguinte definição de gesto:

ges.to (gesto.)

sm (lat gestu) 1 Movimento do corpo, principalmente das mãos, braços, cabeça

e olhos, para exprimir ideias ou sentimentos, na declamação e conversação. 2

Aceno, mímica, sinal. (...)

A respeito de sinal, temos a seguinte definição:

si.nal (sinal.)

(...) 6. Demonstração exterior do que se pensa, do que se quer; aceno, gesto

(...)

As definições superficialmente genéricas do dicionário esclarecem que gesto

e sinal em geral são articulações do corpo com o fim de transmitir uma ideia,

pensamento ou desejo. Por meio dos dois termos, na definição gramatical e no

contexto explicitado, é possível inferir que um gesto pode ser um sinal, e um sinal

pode ser um gesto. A fim de compreender melhor os conceitos, analisemos a

definição segundo fontes bibliográficas com maior fundamentação teórica.

Segundo Poyatos o gesto é uma ferramenta da comunicação, atrelado ou não

a uma linguagem verbal:

Por gesto eu entendo um movimento do corpo, consciente ou inconsciente,

feito principalmente com a cabeça, somente o rosto, ou nas extremidades,

aprendido ou somatogênico, e servindo como uma ferramenta fundamental de

comunicação, dependente ou independente da linguagem verbal; simultâneo

Page 50: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

50

ou alternada com ela, e modificado pelo cenário condicionador (sorrisos, os

movimentos dos olhos, um gesto de aceno, um tique, etc.) (1981, p. 383,

tradução nossa13).

Stokoe (2000) também atribui ao gesto o caráter de instrumento

comunicacional em seu artigo a respeito da passagem do gesto para a língua de

sinais. Sobre seus aspectos, faz uma importante constatação:

Um fato importante a respeito de gestos manuais é que eles exibem mais de

um aspecto: são símbolos, mas na maior parte das vezes também são ícones

ou índices ou as duas coisas. São símbolos pelo acoplamento convencional:

eles significam (denotam) o que significam porque um pequeno grupo, uma

grande comunidade, uma nação inteira, ou até mesmo a maioria das pessoas

em todos os lugares tacitamente concordaram sobre o que eles fazem. Mas

também são ícones quando algo sobre a aparência das mãos e da forma como

são mantidas se assemelha de alguma forma com o que eles denotam, são

índices se próximos ou se refazem o movimento ou ação que denotam. Gestos

podem ser todos esses tipos de sinais de uma só vez (2000, p.389, tradução

nossa14).

Contextualmente, o gesto pode tornar a compreensão de um discurso mais

clara, provendo contexto que torna as expressões verbais mais precisas,

adicionando conteúdo complementar a esse discurso (KENDON, 2000, p. 51).

Segundo a hipótese de Birdwshitell (1963, p. 158), somente 30% a 35% do

significado social de uma conversa ou uma interação é atribuído às palavras. O

restante seria o contexto gestual e cultural. Não nos aproximaremos desse conceito

13 “By gesture I understand a conscious or unconscious body movement made mainly with the head, the face alone, or the

limbs, learned or somatogenic, and serving as a primary communicative tool, dependent or independent from verbal language; either simultaneous or alternating with it, and modified by the conditioning background (smiles, eye movements, a gesture of beckoning, a tic, etc.)”

14

“A major fact about manual gestures is that they do exhibit more than one aspect: they are symbols but more often than not are also icons or indexes or both. They are symbols because of conventional linkage: they mean (denote) what they mean because a small group, a larger community, a whole nation, or even most people everywhere tacitly agree that they do. But they are also icons when something about the appearance of the hands and the way they are held resembles in some way what they denote, they are indexes if they are close to or retrace the movement o the action that they denote. Gestures can be all these kinds of signs at once.”

Page 51: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

51

contextual de gesto; diferente disso, objetivamos entendê-lo como agente principal

da mensagem, uma vez que componente do sinal das Línguas de Sinais.

A esse respeito, Armstrong, Stokoe & Wilcox (1995) faz outra definição de

gesto (p.38, tradução nossa15):

Gesto pode ser entendido como atividade neuromuscular (ações corporais,

sejam ou não comunicativa); como semiótica (variando de gestos

comunicativos espontaneamente para gestos mais convencionais), e como

linguística (sinais totalmente convencionados e articulações vocais). Um uso

comum do termo, talvez o mais usado em um sentido lato, trata gestos como

estruturas intencionais, não componentes e simbólicas: um único gesto

representa um único significado.

Esse sentido mais restrito do gesto como associativo a somente um

significado é o que mais se aproxima do sentido de sinal das Línguas de Sinais. Nas

Línguas de Sinais, um gesto convencionado, de acordo com aspectos e

características próprias, é um sinal – como veremos em um capítulo adiante, em

Estrutura das Línguas de Sinais.

Portanto, para os objetivos desse estudo, adotaremos a concepção simplista

de Armstrong, Stokoe & Wilcox (1995, p. 43) a respeito de gestos, “classe de

equivalência de movimentos coordenados que atinge algum fim”. Consideraremos

como sinal, todo gesto que encerre um significado único, somado as convenções

complexas e formais da estrutura das Línguas de Sinais e aos seus devidos signos.

Sinal é um termo mais restrito com todas suas especificidades, enquanto o

gesto objetiva um fim – no propósito do sinal, transmitir e compor uma mensagem

15 “Gesture can be understood as neuromuscular activity (bodily actions, whether or not communicative); as

semiotic (ranging from spontaneously communicative gestures to more conventional gestures); and as linguistic (fully conventionalized signs and vocal articulations). A common use of the term, perhaps the one most used in a lay sense, treats gestures as intentional, non-componential, symbolic structures: a single gesture represents a single meaning.”

Page 52: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

52

definida. Dessa maneira, é apropriado utilizarmos “Interfaces de Reconhecimento

Gestual” para interfaces capazes de reconhecer o gesto, componente dos signos

das línguas de sinais, desde que nos atentemos aos seus requisitos, como

expressões faciais, movimento, e demais características.

3.3 A semiótica das Línguas de Sinais

Semiótica é uma palavra grega que significa literalmente “a ótica dos signos”.

Charles Sanders Peirce, filósofo, cientista e matemático norte-americano, foi um dos

principais colaboradores da teoria semiótica, sendo considerado o fundador da

moderna semiótica. Peirce, definindo a semiótica:

...no sentido mais estreito, é a ciência das condições necessárias para se

atingir a verdade. No sentido mais amplo, é a ciência das leis necessárias do

pensamento, ou melhor, (o pensamento sempre ocorrendo por meio de

signos), é a Semiótica geral, que trata não apenas da verdade, mas também

das condições gerais dos signos sendo signos... também das leis de evolução

do pensamento, que coincide com o estudo das condições necessárias para a

transmissão de significado de uma mente a outra, e de um estado mental a

outro. (PEIRCE, apud SANTAELLA, 1992, p.132)

A semiótica, portanto, também trata das condições dos signos, e a forma

como ocorre à transmissão de significado entre mentes e de um estado mental para

outro. Diversas definições de signo de diferentes autores podem ser adotadas e

discutidas com base na semiótica, a exemplo de Peirce, Saussure, Morris e

Hjelmslev. Utilizando a definição triádica16 de Peirce a respeito do signo, temos um

Significado, um Representamen (veículo do Signo) e uma Coisa (figura 13).

16 Para mais detalhes a respeito dos modelos semióticos triádicos e diáticos, consultar NÖTH, 1995 p. 87 e p. 90.

Page 53: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

53

Figura 13: Tríade semiótica de Peirce

Fonte: Reprodução do autor

Nöth define signo como:

Todo objeto, evento, ou comportamento é um signo em potencial. Até mesmo o

silêncio tem a função semiótica de um signo zero. Tudo pode assim ser

percebido com um signo natural de alguma coisa, e por um acordo preliminar

entre um emissor e um receptor, todo objeto também pode servir como um

signo convencional. Isso não significa que todo fenômeno do mundo é

semiótico. Só significa que, sob condições de semiose, todo objeto pode se

tornar um signo para um determinado interprete. (1995, p. 80)

O sinal das Línguas de Sinais encerra um significado, pois é um ato

convencionado entre emissor e receptor. Semelhante ao sinal, o signo “é sempre

constituído por um (ou mais) elementos de um plano da expressão

convencionalmente correlatos a um (ou mais) elementos de um plano de conteúdo”

(ECO, 1976, p. 39). Pode-se estabelecer “a mesma relação entre mensagem e sinal,

no nível do ato sêmico, e entre significado (classe de mensagens) e significantes

(classe de sinais) no nível do sistema” (KAPITANIUK, 2011, p. 53).

A capacidade de signo, no entanto, não se restringe apenas ao sinal. Os

componentes da cinésica, como os movimentos, posições, deslocamentos corporais,

o próprio gesto e expressões faciais, são bases estruturais do sinal das Línguas de

Sinais, e também carregam valor simbólico.

Page 54: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

54

A própria língua e a linguagem já foram consideradas sob a ótica da

semiótica, conforme Santaella:

Tão natural e evidente, tão profundamente integrado ao nosso próprio ser é o

uso da língua que falamos, e da qual fazemos uso para escrever — língua

nativa, materna ou pátria que costuma ser chamada —, que tendemos a nos

desaperceber de que esta não é a única e exclusiva forma de linguagem que

somos capazes de produzir, criar, reproduzir, transformar e consumir, ou seja,

ver-ouvir-ler para que possamos nos comunicar uns com os outros (1983, p. 1)

Armstrong compactua com a visão semiótica de que a língua não se restringe

somente a língua falada, e defende o uso da semiótica na abordagem das línguas.

Normalmente são criados níveis para categorizar a linguística, como o nível

semântico, sintático e fonológico. Uma característica da função semiótica é a

capacidade de transitar entre todos os níveis (ARMSTRONG et al., 1995).

Sobre as Línguas de Sinais e seu aspecto visual-motor, também existem

referências à semiótica imagética, que considera a importância da imagem enquanto

signo. Alinhada a definição de Santaella, Campello (2007), sobre semiótica

imagética:

[...] é um estudo novo, um novo campo visual no qual se insere a cultura surda,

a imagem visual dos surdos, os olhares surdos, os recursos visuais e didáticos

também. Quero esclarecer que isto não é um gesto ou mímica, e sim signo [...]

podem usar os braços, os corpos, os traços visuais óticos como expressões

corporais e faciais, as mãos, os dedos, os pés, as pernas em semiótica

imagética (p. 106).

Conforme colocado por Campello, as Línguas de Sinais, segundo a semiótica

imagética, são ricas em informações complexas, não se tratando de gesto ou

mímica. São capazes de transmitir ideias e conceitos, descrevendo fatos, como

ocorre em outras línguas orais ou naturais.

Page 55: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

55

Dentre os aspectos das Línguas de Sinais, o ato de apontar por si só também

denota um fator semiótico. Analisando o discurso de línguas orais, é mais fácil

distinguir entre unidades linguísticas discretas, como as palavras, e o gesto de

apontar. Em uma língua oral, o narrador do discurso pode apontar com os dedos,

acenar com a cabeça, com uma xícara de café, etc.; o apontar não simboliza a

entidade que está sendo apontada. Segundo Peirce, o apontar é então simbólico.

Pronunciar a palavra livro codifica uma entidade do tipo ‘livro’. O apontar não traz

codificação alguma: mostra uma direção que leva a uma entidade que é um livro.

Mudar a direção apontada altera o significado da palavra, pois altera a entidade

(LIDDELL, 2003, p. 137).

Sob a ótica computacional, do princípio da interpretação do signo, os signos

digitais em um dispositivo técnico, podem ser reconfigurados. É o que ocorre numa

interface gráfica como um editor de texto, por exemplo. Cada ator da ação

reinterpreta as possibilidades de uso da tecnologia, atribuindo a ela um novo

sentido. Dessa forma, um ator da interação em um editor de texto pode alterar o

tamanho e cor da fonte para fins de layout, ou de conforto. Esses desvios e

reinterpretações, mesmo que pequenos, quando somados acabam por compor um

processo sociotécnico real (LÉVY, 1993).

Uma interface computacional que abarque e reconheça signos das Línguas

de Sinais no processo de interação indivíduo-máquina, possibilita novos caminhos

semióticos. Viabiliza ao indivíduo surdo o processo de reconstrução da interação,

permitindo fluidez e naturalidade no digital, possibilidade que não lhe é permitida em

outros tipos de interação, como a textual. Essas mudanças na interface implicam em

novas abordagens perceptivas para a interação. A respeito de percepção, Poyatos

(1983):

Page 56: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

56

Não podemos nos deixar levar pela predominância do som e do movimento no

processo de comunicação entre dois indivíduos: devemos considerar os seis

diferentes modos de perceber diretamente as atividades comportamentais e

não comportamentais e as características estáticas dos outros (visão, audição,

olfato, gustação, e sensações cutâneas ou cinestésicas) e também o sistema

do emissor, que consiste em (cinética, acústica, química e térmica) e

características estáticas (forma, cor, tamanho, consistência e peso). Esses

sistemas emissores e perceptivos geram um total de 21 canais nos quais

trafegam todas as mensagens possíveis entre dois corpos (1983, pp. 55-56)

Poyatos nos atenta para a questão dos canais perceptivos na comunicação

não verbal entre dois indivíduos. O autor chama a atenção quanto à importância dos

outros sentidos que não só o som e o movimento – marcado por gestos – no

discurso. Também a respeito da percepção, Santaella cita Gibson:

Se tudo que percebemos nos chega mediante a estimulação de nossos órgãos

sensoriais, e se, apesar disso, certas coisas não têm contraparte na

estimulação, é necessário assumir que estas últimas são, de algum modo,

sintetizadas. Como essa síntese ocorre, é o problema da percepção (GIBSON,

1974, p.24 apud SANTAELLA, 2012).

Há certa tendência de redução dos processos de percepção à visualidade,

provavelmente devido à especialização evolutiva. Pesquisas empíricas dizem que

75% da percepção humana, no estágio atual da evolução, é visual. Outros 20%

auditivos, e 5% associados ao tato, olfato e paladar (SANTAELLA, 2012, p. 1).

Santaella associa a esses números uma possível tendência da especialização visual

histórica humana, através da criação de aparelhos visuais como microscópios,

radares, fotografia e o próprio computador. O mesmo acontece com a audição. Isso

ocorre porque os olhos e ouvidos estão diretamente ligados ao cérebro, podendo-se

dizer que são canais de ligação direta com o mundo, com sentidos mais cerebrais

(SANTAELLA, 2001).

Page 57: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

57

Os movimentos que acompanhamos nos últimos anos em interfaces apontam

para uma nova realidade desses números. O tato, caracterizado como um “sentido

distributivo, sendo também funcional como auxiliar da visão e audição”

(SANTAELLA, 2012, p. 2), ainda não possui um estímulo técnico específico, o que

talvez o classificasse como um canal perceptivo quanto às interfaces. Porém, com

as novas possibilidades interativas, que utilizam o corpo como interface, o tato e as

capacidades sinestésicas desempenham um papel essencial. É o que ocorre, por

exemplo, nas telas multi-touch em que o usuário interage com o conteúdo

diretamente na tela, tocando-a, ou seja, o dispositivo de entrada é também o

dispositivo de saída (VERTEGAAL & POUPYREV, 2008).

Figura 14: “Como o computador nos enxerga”

Fonte: Livro Designing Gestural Interfaces – (SAFFER, 2008, p. 6)

A interface ainda não é capaz de causar estímulos táteis à nossa experiência

digital, mas à medida que as interfaces nos leem, através de suas câmeras, telas e

sensores, atingimos um patamar diferente de percepção. O computador passa a nos

Page 58: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

58

“perceber” através de seus sensores (figura 14). Deixamos de sermos apenas olhos

e ouvidos, que interagem com a máquina através de comandos textuais ou cliques,

e passamos a usar nosso corpo como interface. A importância desse sentido de

presença está em Gibson (1974, p.12 apud SANTAELLA, 2012) que afirma que não

há outra porta para o conhecimento humano, a não ser a dos sentidos, e em

Merleau-Ponty, que considera a percepção “o primeiro acesso que temos as coisas

e como fundamento de todo conhecimento”, assim, “todo saber se instala nos

horizontes abertos pela percepção” (M-P apud SANTAELLA, 2012).

A mudança paradigmática de nossa percepção digital relaciona-se também

com o conceito de Affordance. Na definição dada por Santaella (2012, p. 56): “termo

impossível de traduzir, sem perder a sutileza de seu sentido: a vida evolui de uma

variedade de maneiras para tirar vantagens daquilo que o ambiente tem para

oferecer”. Passamos a um novo patamar da percepção digital porque as novas

interfaces oferecem novos potenciais interativos, convidativas a uma interação fluída

e naturalmente estruturada.

A respeito da percepção sob a ótica cognitiva, temos Rumelhart, Smolensky,

McLelland e Hinton, que consideram três grandes capacidades cognitivas humanas

e seu desencadeamento:

- A faculdade da percepção, ou do reconhecimento das formas:

Está ligada aos captadores sensoriais, aos sentidos. Reconhecemos de forma

imediata situações ou objetos, pois a percepção é a habilidade cognitiva

básica.

- A faculdade da imaginação, ou de simulações mentais do mundo exterior:

É a forma de percepção desencadeada por estímulos internos, de modo que

são feitas simulações mentais do mundo exterior. Associado a imaginação,

Page 59: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

59

testando cenários mentalmente. A capacidade de simulação do ambiente e as

reações têm papel fundamental no processo de aprendizado.

- A faculdade da manipulação ou operativa:

Ligado ao poder de construção e desconstrução do ambiente, crucial para a

construção da cultura, muito ligado ao homo faber 17.

Utilizando a combinatória das três faculdades e o intercâmbio possibilitado

pelas tecnologias intelectuais, é possível, segundo os autores, dar conta das

realizações do pensamento abstrato (LÉVY, 1993). Veremos nos próximos capítulos

como as interfaces gestuais evoluem de forma a explorar os diferentes sentidos dos

usuários – para os usuários de Línguas de Sinais, especificamente o visual-motor –

atendendo as faculdades das capacidades cognitivas citadas. Antes, porém,

vejamos quais os parâmetros e características das Línguas de Sinais que devem ser

consideradas nesse contexto.

3.4 Estrutura, parâmetros e aspectos particulares

Segundo Leface (2003, apud STEFANES, 2006), o campo lexical pode ser

definido como sendo um conjunto de palavras que designam os diferentes aspectos

de uma técnica, noção ou objeto. Já o campo semântico evidencia-se como sendo

um conjunto dos empregos de uma palavra, de um sintagma ou mesmo de uma

lexia, que contribui para que uma unidade linguística venha a adquirir sentido

específico (GENOUVRIER, 1977 apud STEFANES, 2006).

Nas Línguas de Sinais, o que caracteriza o léxico são os sinais. É comum

pensar que palavras em Línguas de Sinais são constituídas pelo alfabeto manual –

17 Do latim “O homem que cria”, o homem que manipula o ambiente através das ferramentas disponíveis.

Page 60: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

60

datilologia. O que ocorre, é que cada palavra tem sua correspondente em sinal

manual (figura 15). O alfabeto manual auxilia no processo de transmitir ideias que

fogem desse padrão de comunicação.

Figura 15: Exemplo de sinais em LIBRAS e seus parâmetros

Fonte: www.libras.com.br

As Línguas de Sinais são constituídas de elementos morfológicos, sintáticos,

semânticos e regras gramaticais que apresentam algumas especificidades, e

seguem alguns princípios básicos gerais. A partir de um número finito de regras, é

possível obter a formação infinita de palavras e construções linguísticas, permitindo

o enriquecimento da comunicação.

As Línguas de Sinais não têm restrição a possibilidades de expressão, pois as

comunidades surdas podem inserir sinais de acordo com as mudanças culturais,

temporais e tecnológicas, e assim como qualquer outra língua, esta também possui

regionalismos. Por se utilizar de um canal visual-espacial, a Língua de Sinais

distingue-se das línguas orais, em que a informação linguística é recebida pelos

ouvidos e produzida pelo canal da fala; a informação linguística é recebida pelos

Page 61: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

61

olhos e produzida pelas mãos no espaço, contemplando também aspectos não

manuais, como os movimentos do corpo e principalmente a expressão facial – que

muitas vezes determina o tom da mensagem e seu significado. (VIEIRA, 2009)

Os sinais são formados a partir da combinação do movimento das mãos com

determinado formato em frente ao corpo ou utilizando uma parte do corpo. Existem

alguns parâmetros que são realizados simultaneamente na formação de um sinal, e

devem ser levados em consideração para o entendimento de seu significado. Os

principais são: configuração das mãos, ponto de articulação, movimento, expressão

facial e corporal.

A configuração das mãos se refere à forma com que as mãos estão

dispostas, podendo ser o alfabeto digital – datilologia (VIEIRA, 2009). Alguns sinais

possuem a mesma configuração das mãos, como por exemplo, em LIBRAS,

APRENDER e SÁBADO (figura 16). A Configuração da Mão (CM) é a mesma, mas

mudam-se outros dois parâmetros, o Ponto de Articulação (PA) e mantêm-se o

Movimento (M).

Figura 16: Parâmetro das Línguas de Sinais: configuração das mãos

Fonte: (FELIPE, 2007, p. 21)

Page 62: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

62

O Ponto de Articulação é referente ao lugar no qual o sinal é produzido,

podendo ser no espaço, no corpo ou em algum lugar neutro (figura 17). Pode-se ver

a diferença do ponto de articulação na figura 16 acima. A Configuração da Mão, em

“S”, e o Movimento de fechar a mão, permanecem os mesmos, mas o ponto de

articulação se altera, alterando o significado do sinal.

Figura 17: Parâmetro das Línguas de Sinais: ponto de articulação

Fonte: (FELIPE & MONTEIRO, 2006, p. 22)

O movimento refere-se aos movimentos internos das mãos, do pulso, aqueles

feitos em um mesmo sinal e os movimentos direcionados no espaço (figura 18). Para

a realização de alguns sinais, os movimentos internos das mãos são realizados

durante o sinal, quando os dedos se movimentam, podendo abrir, fechar, dobrar ou

estender, mudando a configuração das mãos (KLIMA & BELLUGI, 1979). Já os

movimentos das mãos podem ser circulares, em linhas retas, curvas, sinuosas e em

diversas posições.

Page 63: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

63

Figura 18: Parâmetro das Línguas de Sinais: movimento

Fonte: (FELIPE & MONTEIRO, 2006, p. 22)

A orientação da palma das mãos também é importante, pois aponta a mão

durante a produção do sinal, que pode ser para cima, para baixo, para frente ou na

direção do corpo. Os sinais podem ainda ter uma direção. A inversão da direção

pode implicar em sinal de oposição. Por exemplo, IR e VIR, ACENDER e APAGAR

(figura 19).

Page 64: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

64

Figura 19: Parâmetro da LIBRAS: orientação

Fonte: (FELIPE & MONTEIRO, 2006, p. 23)

As expressões incluem a expressão facial e corporal da pessoa que faz o

sinal, e o olhar, o que indica o sentido e o contexto do sinal e da conversa (figura

20).

Figura 20: Parâmetro da LIBRAS: expressões faciais

Fonte: (FELIPE & MONTEIRO, 2006, p. 23)

Page 65: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

65

Há ainda o uso de expressões faciais para outros fins (figura 21), por

exemplo, na forma afirmativa, a expressão facial é neutra. Na forma interrogativa, as

sobrancelhas são franzidas e há um ligeiro movimento da cabeça inclinando-se para

cima (FELIPE & MONTEIRO, 2006, p. 64).

Figura 21: Parâmetro da LIBRAS: expressões faciais afirmativa e interrogativa

Fonte: (FELIPE & MONTEIRO, 2006, p. 64)

Todos esses parâmetros das Línguas de Sinais são de natureza visual-

motora, associados ao gesto, compondo os sinais dessas línguas. As Línguas de

Sinais, assim como as línguas vocais, necessitam de um articulador móvel

corretamente posicionado no espaço articulador para produzir as palavras da língua.

A substituição das localidades resulta na produção de diferentes sinais ou palavras,

ou nenhum sinal ou palavra (STOKOE, 1960, p. 332). Nas línguas vocais, o

Page 66: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

66

articulador é a língua, posicionada de forma adequada para produzir o som. Nas

Línguas de Sinais, o articulador é principalmente a mão.

O uso do espaço pelo articulador também pode ser classificatório. Por

exemplo, ao designar uma qualidade ou adjetivo a uma pessoa, move-se o sinal

representativo em direção a ela. Também pode ser utilizado como pronome

demonstrativo e advérbio de lugar (figura 22).

Figura 22: Parâmetro da LIBRAS: expressões faciais

Page 67: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

67

Fonte: (FELIPE & MONTEIRO, 2006, p. 42)

Quanto aos usos do espaço, veremos outras formas representativas a seguir.

3.4.1. Espaços mentais: Real, Substituto e Simbólico

Klima & Bellugi (1979), e Poizner, Klima e Bellugi (POIZNER et al. 1987)

descrevem um uso sintático do espaço: o sinalizador faz uma associação entre um

lugar e um referente presente, ou até mesmo não-presente.

Os sinais utilizados nas línguas orais compreendem gestos de símbolo, índice

ou ícone, como visto em Stokoe (2000). Quando um indivíduo está narrando um fato

e deseja contextualizar um local ou uma pessoa no espaço, ou representar uma

ação, involuntariamente pode utilizar um gesto para essa função secundária,

enriquecendo a narrativa. Porém, esse é um recurso utilizado nas Línguas de Sinais

como elemento fundamental do discurso. O apontar nas Línguas de Sinais é um

índice, não um símbolo; seu significado depende do que está sendo apontado

(LIDDELL S. K., 2003).

Liddell (1995) e Liddell & Johnson (1989) identificam três espaços mentais

utilizados na Língua de Sinais Americana (ASL), que podem ser ampliados para as

Línguas de Sinais em geral: Real Space, Surrogate Space e Token Space – em

tradução nossa: Espaço Real, Espaço Substituto e Espaço Simbólico.

O Espaço Real é o espaço diretamente percebido pelo sinalizador. É utilizado

nas referências diretas a objetos e pessoas presentes na cena física em questão do

discurso. Assim, quando um narrador sinaliza “Pedro me falou”, e Pedro é uma

pessoa fisicamente presente no espaço do discurso, é utilizado o sinal

correspondente a “FALAR”, no sentido: PEDRO -> NARRADOR, designando a ideia

Page 68: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

68

de que “Pedro falou para mim” – nesse exemplo, a frase real em Língua de Sinais

seria algo do gênero: “PEDRO-FALAR-EU”, sendo representado em um único sinal

de “FALAR” com o movimento no sentido PEDRO -> NARRADOR, conforme acima

explicitado.

O Espaço Substituto e o Espaço Simbólico são utilizados de forma

semelhante, porém em situações em que o objeto ou pessoa referida não são

entidades presentes fisicamente. As duas estruturas implicam que o narrador

imagine a outra pessoa como se estivesse presente, de modo que interaja com ela,

abstraindo o sujeito. O Substituto é de fato a personificação do sujeito; o narrador

pode olhar para os pés de um Substituto, contextualizando sua ação durante o ato

narrado, assim como pode cutucá-lo no ombro, mexer em seus cabelos, etc. Isso

implica também, que o Substituto terá as dimensões apropriadas do sujeito da

narrativa (LIDDELL, 1995).

Supondo uma narrativa em que o narrador interage com Pedro, e Pedro é

uma criança, o Substituto deverá corresponder ao porte de uma criança. Se Pedro é

magro, gordo, alto ou baixo, será necessário imaginar que o referente é real, do

tamanho descrito, correspondendo proporcionalmente ao seu corpo os sinais

dirigidos a ele (LIDDELL, 1994). É possível intercambiar facilmente os papéis em

relação a esse Substituto; de tal forma, o narrador pode falar sobre Pedro (terceira

pessoa), com Pedro (segunda pessoa) ou adotar a posição de Pedro, como primeira

pessoa do discurso (LIDDELL, 1995, p. 339).

O Símbolo é apenas uma representação no espaço, sendo do tamanho

reduzido diretamente à frente da mão que sinaliza. É possível falar sobre um

Símbolo, mas não falar com ele. A figura 23 representa graficamente a diferença

entre as duas estruturas.

Page 69: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

69

Figura 23: Diferença entre Símbolo (A) e Substituto(B)

Fonte: (LIDDELL, 1995)

Pizzuto et al. (2006) denominam essas estruturas de “dêitico-anafóricas”,

“recursos de coesão textual que permitem aos falantes ou sinalizadores introduzir

referentes no discurso (dêixis) e, subsequentemente, referir-se a eles em momentos

posteriores (anáfora)” (2006, p. 140). Categorizam essas referências em duas

classes, uma padrão e outra mais complexa.

A classe padrão é composta de estruturas semelhantes aos espaços mentais,

realizada por meio de “apontações” manuais e visuais que estabelecem posições

espaciais simbólicas para os referentes utilizados no discurso. Essa categoria mais

generalista é baseada e explorada em maiores detalhes nos estudos de Liddell.

A segunda classe é composta por operações complexas chamadas Estruturas

Altamente Icônicas (EAI) ou Transferências, “concebidas como vestígios de

operações cognitivas por meio das quais os sinalizadores transferem sua concepção

do mundo real para o mundo tetradimensional do discurso sinalizado (as três

Page 70: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

70

dimensões do espaço acrescidas da dimensão tempo)” (2006, p. 143). Por meio

dessas estruturas, o sinalizador pode, entre outras coisas, personificar a segunda

pessoa do discurso, indicando por expressões faciais ou posicionamento espacial

quem é o agente do discurso: ele próprio, um segundo sujeito, ou quantos sujeitos

estiverem presentes.

Pizzuto et al. identifica, a partir de Cuxac (1985), três tipos principais de

Transferências (2006, p. 144):

1. Transferência de forma e tamanho (TF), que descreve tamanho e forma de

objetos ou pessoas. Utiliza-se o olhar, que se dirige às mãos, e a expressão

facial, que ajuda a especificar a forma.

2. Transferência de situação (TS), que envolve o movimento de personagem ou

objeto. O agente é especificado pela mão dominante, e o movimento

caracterizado pelo deslocamento do agente em relação a um ponto de

referência locativo estável, especificado pela mão não dominante. O olhar se

dirige ao agente – mão dominante – e a expressão facial especifica e

descreve o agente.

3. Transferência de pessoa (TP),envolve um papel e um ato. O sinalizador

personifica a entidade referida, reproduzindo em seu enunciando uma ou

mais ações realizadas pela entidade. Geralmente a entidade é um ser

humano ou um animal.

Estrutura semelhante à Transferência, o Blend (LIDDELL , 2000) é utilizado

para representação de um elemento com o qual um sujeito interage. É preciso

imaginar o elemento simbólico. Por exemplo, quando o narrador quer descrever uma

cena em que um gato está atrás de uma cerca: a cerca é representada

Page 71: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

71

descritivamente e posicionada com uma das mãos, no espaço articulatório, criando-

se o Blend. A função é semelhante ao Símbolo quanto às proporções; ou seja, a

cerca é descrita como um pequeno espaço, posicionado no espaço no qual o

discurso for mais conveniente (LIDDELL, 2000, p. 349).

A partir do posicionamento da cerca no espaço, e da abstração de suas

dimensões, o gato pode ser descrito e representado no espaço com a outra mão.

Para efeito da mensagem “gato atrás da cerca” será necessário posicionar a mão

referente ao gato atrás da mão referente à cerca. Pela junção de ideias, a

mensagem é significada: “gato atrás da cerca”.

3.4.2. Gradiente

Quando utilizamos o aspecto da entonação nas línguas orais, podemos

adicionar significados emocionais às palavras. Liddell descreve esse aspecto

linguístico com o seguinte exemplo (2003, p.IX, tradução nossa18):

(1) Esse foi um discurso longo.

(2) Esse foi um discurso loooooooongo.

Apesar das duas sentenças terem instâncias da palavra “longo”, a forma (2)

produz um efeito emocional com a repetição da vogal “o”: “Eu senti que a duração

do discurso foi muito longa”. A forma de articulação de longo em (1) e (2) diferem

não somente na forma gramatical com que foram escritas, mas sugestiona uma

variação de discurso oral, por exemplo, com maior entonação, volume mais alto de

18 (1) That was a long speech.

(2) That was a loooong speech!

Page 72: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

72

pronúncia, etc. (LIDDELL, 2003). Esses aspectos de produção são gradientes. Uma

típica análise sintática desse exemplo não diz nada a respeito da entonação, uma

vez que “longo” somente é um adjetivo. A interpretação emocional da entonação do

discurso falado é inerente ao leitor.

Já nas Línguas de Sinais, além das possibilidades do uso do sinal como

Índice nos Espaços Mentais, deve-se considerar o aspecto do gradiente. Assim, ao

sinalizar uma palavra sujeita a entonação, como “longo”, “distante”, “grande”,

características da amplitude do sinal determinam esse aspecto emocional.

Quando se descreve, por exemplo, uma cidade distante de outra, o sinal de

“distante” representado entre os dois Blends dita quão distante as duas cidades são.

Numerais quantitativos de distância, expressão facial ou detalhes descritivos podem

ser adicionados, mas o próprio sinal e sua amplitude ou duração já caracterizam um

gradiente quantitativo, desempenhando um papel de “advérbio de intensidade”.

3.4.3. Sinais Compostos

Outro aspecto das Línguas de Sinais, é que seu léxico contém um número

vasto de sinais compostos, assim como meios produtivos de se criar novos.

(LIDDELL, 2003, p.15). Em LIBRAS, por exemplo, a palavra ZEBRA, é formada por

CAVALO^LISTRAS (figura 24).

Page 73: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

73

Figura 24: Sinal composto de ZEBRA – (1) CAVALO (2) LISTRAS (Quadro 1).

Fonte: (FELIPE, 2007, p. 146)

3.5 Sistemas de Transcrição

Conforme visto na bibliografia selecionada, as Línguas de Sinais possuem

regras específicas quanto ao uso das mãos, que atribuem significados diferentes

aos sinais. A composição das diversas características das Línguas de Sinais amplia

as possibilidades da língua, permitindo assim as diversas formas de expressão.

Como não há necessariamente um sinal correspondente para cada palavra ou

estrutura gramatical própria de uma língua verbal, o reconhecimento dos sinais –

gestos no contexto da máquina – torna-se complexo. Para facilitar o processo do

reconhecimento, é muito usual a segregação da língua de sinais, semelhante ao

conceito de gramática das línguas orais.

Para ilustrar a diferença de aprendizado da máquina, Chomsky(2005, p. 34)

traz o seguinte exemplo: a criança aprende, em média, cerca de uma palavra por

hora, com exposição muito limitada e sob condições muito ambíguas. O computador

age mais como um dicionário, já que as regras do conhecimento da linguagem são

programadas. A criança aprende a palavra de acordo com a experiência; o

computador limita-se a entender e significar a palavra através de programação e

busca em um banco de dados pré-definido.

Page 74: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

74

É necessário fornecer elementos básicos que alimentarão um banco de

dados, e que, através de programação, o computador consumirá. Birdwhisthell

(1952, 1970) analisou a metodologia do estruturalismo linguístico, identificando nas

kinesics19 da comunicação:

...elementos menores e discretos, os chamados cinemas – análogo ao fonema,

a menor unidade de discurso sonoro – formado por vários allokines – similar

aos alofones ou variantes dos fonemas; os cinemas se combinam em

construções morfológicas chamadas kinemorphs (análogos aos morfes, ou

grupos de fonemas pronunciáveis que podem funcionar como morfemas),

formando kinemorphemes (comparáveis aos morfemas, ou seja, palavras ou

partes significativas das palavras) e construções kinesintáticas

(BIRDWHISTHELL apud POYATOS, 1974, p.132, tradução nossa20).

A segregação das Línguas de Sinais é especialmente observável em

Sistemas de Transcrição; sistemas que transcrevem o conteúdo de uma Língua de

Sinais.

Stokoe (1960) é o pioneiro desse estudo. Seu sistema, baseado no alfabeto

latino, tinha como objetivo demonstrar que a ASL é uma língua natural. Stokoe

provou, por meio dos itens lexicais da ASL, que os sinais não são gestos ou

mímicas, sendo passíveis de decomposição em unidades menores, semelhante às

Línguas Orais.

19 Kinesics, na definição dada por Birdwhisthell (apud POYATOS, 1974, p.32): movimentos físico-musculares

conscientes ou inconscientes resultando em posições estáticas, aprendidas ou somatogênicas, de percepção sinestésica visual, visual-acústica ou tátil, que, isoladas ou combinadas com a estrutura linguística ou paralinguística e outros sistemas comportamentais somáticos ou objetuais, possuem valor comunicativo intencional ou não intencional.

20 ”…smallest discrete element, the cinema (analogous to the phoneme, or smallest speech sound unit), made

up of various allokines (similar to allophones or phoneme variants); cinemas combine into morphological constructs called kinemorphs (analogous to morphs, or pronounceable phoneme groups that can function as morphemes), forming kinemorphemes (comparable to morphemes, that is, words or meaningful parts of words), and kinesyntactic constructions.”

Page 75: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

75

Nesse sentido, muitos estudos se esforçam em identificar equivalências –

análogas ou homólogas – às teorias da fala (ARMSTRONG et al.):

Linguistas propuseram vários candidatos como segmentos dos sinais, entre

eles movimento e pausa (Liddell, 1984), movimento e localização (Sandler,

1986), movimento e posição (Perlmutter, 1988). Outros têm tomado outros

rumos de proposições, em que a base compartilhada por línguas sinalizadas e

orais se encontram no nível da sílaba (Wilbur, 1987). Outros ainda propuseram

que as Línguas de Sinais simplesmente não possuem segmentos (Edmondson,

1987). Até agora, há poucas considerações sérias sobre as possibilidades que

palavras sinalizadas, como as línguas orais, podem ser analisadas como

complexos gestos musculares temporalmente ordenados, e não como

representações de categoriais formais abstratas (1995, p. 11, tradução

nossa21).

Stokoe divide o sinal em três aspectos: localização, o que age, e o

movimento, denominando esses três aspectos como “tab”, “dez” e “sig” (LIDDELL,

2003, p.6):

• tab (tabula), a posição da mão no início do sinal,

• dez (designator), o formato da mão no início do sinal, e

• sig (signation), a ação da(s) mão(s) na fase dinâmica do sinal.

O tab pode ocorrer em qualquer local no espaço do sinalizador, que se

estende desde acima do quadril, até a zona de alcance de suas mãos. O espaço de

sinalização é mais diferenciado ao redor do rosto, podendo distinguir em cinco

regiões distintas (STOKOE, apud DORNER, 1994, p.4). A tab também pode ser em

um lugar perto ou acima da outra mão não ativa. Nesse caso, considera-se a tab

21 “Linguists have proposed various candidates as signed segments, among them movements and holds (Liddell,

1984), movements and locations (Sandler, 1986), movements and positions (Perlmutter, 1988). Others have taken the different tack of proposing that the common ground shared by signed and spoken languages will e found at the level of the syllable (Wilbur, 1987). Still others have proposed that signed languages simply do not have segments (Edmondson, 1987). So far, there has been little serious consideration of the possibility that signed words, like spoken words, may be analyzed as complexes of temporally ordered muscular gestures, not as imperfect representations of abstract formal categories.”

Page 76: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

76

para o formato da mão não ativa e essa é descrita como uma posição dez. No total,

existem doze possíveis localizações de tab.

O dez descreve o formato da mão: a posição dos dedos e a orientação da

mão no espaço. Stokoe lista dezenove designadores possíveis, a maioria idêntica ou

similar a algumas letras do alfabeto, geralmente a primeira letra da palavra que o

sinal representa (STOKOE, apud DORNER).

O sig descreve as direções dos movimentos das mãos, com as possíveis

rotações da mão, e a mudança do formato da mão durante o movimento. Existem

basicamente duas possibilidades de mudança no formato da mão durante o sinal,

aberto e fechado (STOKOE, apud DORNER). Stokoe lista o total de vinte e quatro

diferentes sigs.

Com a evolução das pesquisas na área, foram encontrados problemas na

notação sugerida por Stokoe (AMARAL, 2012, p. 16)

- Característica sequencial – os tabs, dez e sigs ocorrem de forma simultânea,

e a notação não descreve explicitamente a simultaneidade de ocorrência dos

eventos;

- Número finito de configurações de mão – Stokoe lista o total de dezenove dez

(configurações de mão), atribuídos a um determinado símbolo. Caso seja

necessário descrever uma nova configuração de mão, um símbolo já

existente e que mais se aproxime à nova configuração de mão é utilizado;

- Falta de representação de aspectos não manuais – como visto na bibliografia

das características das Línguas de Sinais, os aspectos não manuais, como as

Page 77: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

77

expressões faciais e os espaços mentais, são essenciais para o entendimento

de alguns sinais;

Melhorias ao sistema proposto por Stokoe vêm sendo desenvolvidos. O

estudo de Miller (1994 apud AMARAL, 2012) considera a árvore genealógica dos

Sistemas de Transcrição (figura 25).

-

Figura 25: Árvore genealógica dos sistemas de transcrição

Miller, C. (1994, apud AMARAL, 2012)

Apesar de significativos esforços na área, não há consenso sobre as

estruturas das Línguas de Sinais:

Page 78: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

78

Os linguistas da área buscam entender quais informações são relevantes e

devem ser registradas nas transcrições. No entanto, as pesquisas linguísticas

sobre língua de sinais existem há pouco mais de meio século, tendo como

pioneiro o trabalho de Stokoe (1960). Diferentemente das línguas orais, que há

milhares de anos têm sido representadas por um sistema quase-fonológico, o

alfabético, as línguas sinalizadas carecem de qualquer sistema de escrita

largamente aceito, que possa servir como base de uma transcrição própria.

Desse modo, ainda não existe um sistema de transcrição tradicional e

consolidado para a descrição das línguas de sinais, muito menos voltado para

fins computacionais. (AMARAL, 2012, p. 6)

Dessa forma, quando utilizada, a segmentação das Línguas de Sinais é

tratada de diferentes formas pelos desenvolvedores de interfaces de

Reconhecimento das Línguas de Sinais. À exemplo, tais abordagens podem ser

encontradas em estudos relacionados aos gestos, como em Fei & Reid (2003) e Wu

& Huang (1999), que dividem o gesto em postura e movimento, e em Derpanis et al.

(2004) que dividem o gesto em postura, movimento e local.

A importância de trabalhos relacionados como o de AMARAL (2012) é

fomentar a discussão de padronizações da segmentação dos sinais. Com a

formalização desses padrões, as interfaces podem trabalhar com uma base comum

de reconhecimento, e os pesquisadores despenderem menos tempo focando na

pesquisa ou desenvolvimento de técnicas relacionadas.

Page 79: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

79

CAPÍTULO 4 – TÉCNICAS, DISPOSITIVOS E ESTADO DA ARTE

Nesse capítulo faremos um levantamento geral do estado da arte das

principais tecnologias de reconhecimento gestual, pontuando as características que

atendem a um bom reconhecimento dos gestos. Por meio de um paralelo com as

características das Línguas de Sinais, pretende-se identificar quais metodologias

podem ser combinadas em uma só interface, para que seja possível reconhecer as

Línguas de Sinais em sua plenitude.

Podemos definir o reconhecimento gestual segundo etapas dos sistemas de

visão computacional (figura 26):

Figura 26: Etapas dos sistemas de Visão Computacional

Fonte: (TRIGO, 2010, p. 13)

- Aquisição: captura de imagens/vídeos que serão utilizados pelo sistema;

- Segmentação: as imagens capturadas são separadas por objetos de interesse para

que o sistema possa processá-los;

- Extração de características: informações extraídas dos objetos de interesse, de

modo que o sistema possa fazer avaliações sobre eles;

Page 80: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

80

- Classificação: etapa em que o sistema avalia as características extraídas do objeto,

concluindo informações a seu respeito;

- Ação: com base na classe do objeto analisado, o sistema toma alguma decisão.

Nas seções seguintes, relacionaremos técnicas, dispositivos e trabalhos

pertinentes a cada uma das etapas.

4.1 Aquisição de imagens

Uma das etapas fundamentais do reconhecimento gestual é a aquisição de

imagens, comumente empregada por meio de sensores e da leitura das mãos do

usuário. Marcel (2002) e Bowman et al. (2005), descrevem três formas de aquisição

ou reconhecimento dos gestos: por meio de datagloves, visão computacional e de

superfícies de interação sensíveis a um ou mais toques – multitouch.

As superfícies de toque não podem ser utilizadas para o reconhecimento de

signos das Línguas de Sinais, apesar da importância dessas superfícies para outros

estudos interativos, que não das Línguas de Sinais. Focaremos então nas outras

duas abordagens. Aproximando a pesquisa das interfaces de aquisição de imagens

para interfaces gestuais, é possível entender como o cenário comercial desse tipo

de interface está composto atualmente, o que abre espaço para novas iniciativas,

tais como a de reconhecimento de sinais.

4.1.1. Gloves – Luvas

Antes câmeras atingirem uma maior capacidade tecnológica e maturidade no

reconhecimento dos gestos, a tecnologia mais utilizada no reconhecimento gestual

Page 81: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

81

se dava por meio de Gloves. Gloves são luvas, dispositivos que o usuário tem que

vestir e que conseguem medir o formato das mãos, dos dedos e a flexão da palma.

Na figura 27 temos um exemplo de Data Glove, a CyberGlove, em que o

usuário brinca com uma bola virtual. É possível ver a bola em tempo real no monitor,

acompanhando os movimentos das mãos digitalizados com o uso das luvas. Cada

uma das luvas na imagem contém 18 sensores de movimento.

Figura 27: Data Glove – CyberGlove

Fonte: http://encyclopedia2.thefreedictionary.com/data+glove

Os principais usos das Gloves foi documentado por Sturman & Zeitzer (1994)

em seus estudos. A respeito de sua pesquisa, concluem:

Em muitas aplicações, (...) a imagem gráfica das mãos é exibida em um

ambiente computacional interativo e usada como uma ferramenta para

interações do tipo “apontar, alcançar e pegar” (...) A vantagem desse modelo

de interação é a naturalidade – as ações dos usuários correspondem de

maneira próxima com aquelas que podem ser feitas com objetos reais. Porém,

em cada um desses aplicativos, a Data Glove funciona mais como um joystick

Page 82: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

82

3D com diversos botões (STURMAN & ZEITZER., 1994, p.35, tradução

nossa22).

Também existem soluções mistas, como o estudo de Wang & Popovic (2009),

que utiliza uma câmera de vídeo simples e uma luva colorida (figura 28) no

reconhecimento 3D da mão do usuário.

Figura 28: Sistema de Simulação 3D das mãos com Luvas Coloridas

Fonte: (WANG & POPOVIC, 2009, p. 1)

As cores das luvas seguem um padrão que permite ao programa identificar

qual dedo da mão está se movendo, associando-o a cor correspondente. Deste

modo, o problema de sobreposições dos dedos se resolve:

Na estimativa das poses das mãos despidas, duas poses diferentes podem

mapear para imagens bastante similares. Esse é um desafio difícil que requer

algoritmos de inferência mais lentos e complexos. Com uma luva, diferentes

poses sempre serão mapeadas para diferentes imagens (figura 29). Isso

22 “In many applications, (...) the hand's graphic image is displayed in an interactive computer environment and

used as a tool for "point, reach, and grab" intection (...) The advantage of this model of interaction is naturalness - user's actions correlate closely with those that might be performed on physical objects. However, in each of these applications, the DataGlove functions as little more than a 3D joystick with several buttons.”

Page 83: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

83

permite uma abordagem simplificada de leitura da imagem (WANG &

POPOVIC, 2009, p.3, tradução nossa23).

Figura 29: Semelhança da mão despida e diferença de padrões da mão com luva

Fonte: (WANG & POPOVIC, 2009, p. 3)

Com esse aplicativo misto, é possível manipular objetos 3D simulados no

computador, ou fazer o reconhecimento das letras do alfabeto (figura 30).

Figura 30: Reconhecimento de Alfabeto de Sinais com Luvas Coloridas

Fonte: Extraído de http://people.csail.mit.edu/rywang/handtracking/alphabet.mov

Dorner (1994) também adotou o método das cores em um estudo com anéis

coloridos (figura 31). Cada anel era posicionado nas juntas de cada dedo, compondo

23 “In bare-hand pose estimation, two very different poses can map to very similar images. This is a difficult

challenge that requires slower and more complex inference algorithms to address. With a gloved hand, very different poses always map to very different images.”

Page 84: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

84

a visão 3D da mão a partir da junção da imagem de todos os dedos no espaço. O

sistema foi construído para o reconhecimento dos gestos dos sinais.

Figura 31: Luva com marcadores codificados únicos

Fonte: (DORNER, 1994, p. 28)

Outro estudo recente é o de Kim et al. (2012), que utiliza o princípio da

câmera para leitura dos movimentos do usuário. A principal diferença é que a

câmera e demais dispositivos de leitura – chamado de DIGITS – são acoplados no

pulso do usuário (figura 32).

Figura 32: Componentes de hardware do dispositivo DIGITS

Fonte: (KIM, et al., 2012, p. 169)

Page 85: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

85

A principal vantagem do dispositivo é a mobilidade, pois a leitura não implica

em um lugar definido no espaço, frente a uma câmera fixa. Os autores também

ressaltam que com essa nova abordagem, é possível se movimentar durante a

interação.

Um dos principais pontos fracos desses modelos é a adoção da luva, ou outro

objeto físico, que precisa ser vestido. Essa técnica vai contra a ideia das Interfaces

Naturais, pois, semelhante ao mouse e ao teclado, o usuário tem que usar um

dispositivo, percebendo a interface. Por outro lado, a técnica é de grande precisão

na captação dos movimentos (KURODA et al., 2004)

Um problema é a falta de rastreamento de outros elementos essenciais às

Línguas de Sinais, como a Expressão Facial e a Postura, e o posicionamento das

mãos em relação ao corpo. Isso implica em soluções mistas, onde, além das luvas,

outros elementos teriam que ser adicionados – a exemplo, o sistema de

rastreamento do corpo de WANG et al. (2011) que utiliza uma camiseta de padrões

coloridos, semelhante às luvas, no reconhecimento dos movimentos do corpo do

usuário.

Apesar do potencial do uso das luvas, as tecnologias vêm evoluindo nos

últimos anos, de modo que o problema da sobreposição dos dedos vem sendo

resolvido nas novas abordagens com câmeras 2D e 3D, e câmeras de profundidade.

4.1.2. Visão Computacional

De modo geral, utiliza-se o processo de visão computacional na etapa de

aquisição de imagens. Visão computacional é “o domínio da ciência da computação

Page 86: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

86

que estuda e aplica métodos que permitem aos computadores ‘compreenderem’ o

conteúdo de uma imagem” (CONCI et al., 2008).

A tecnologia ótica, que emprega o conceito de visão computacional, usa

comumente dois métodos: em um deles, são colocados nas mãos e corpo do

usuário pequenos pontos que emitem luzes infravermelhas – invisíveis ao olho nu –

ou refletores dessa luz, considerando-se que serão utilizadas lâmpadas

infravermelhas no ambiente, a serem refletidas. Através de uma ou mais câmeras

especiais, capazes de perceber a luz infravermelha, é feito um mapeamento dos

movimentos do usuário, sendo que a perspectiva de cada uma das lentes das

câmeras possibilita o cálculo da coordenada 3D de cada um dos marcadores

(STURMAN & ZEITZER, 1994, p. 31).

Nessa abordagem é necessária uma camada intermediária para a análise da

resposta dos LEDS coletados, e são eliminados problemas de ambiguidade

causados por LEDS sobrepostos. Quanto mais câmeras, menor é esse problema. A

questão está no tempo de demora para resolver problemas em tempo real, e na

incapacidade do sistema resolver os pontos marcados muito próximos uns dos

outros – o que invalida uma abordagem de reconhecimento no nível dos dedos

(STURMAN & ZEITZER, 1994, p. 31).

Esse método vem evoluindo e é bastante semelhante ao empregado nas

técnicas de reconhecimento de expressões faciais, do corpo e movimento, utilizadas

em filmes animados, como Avatar (figura 33), de James Cameron e King Kong de

Peter Jackson. No caso do filme Avatar, os atores eram filmados, o vídeo era

convertido em formato digital e exibido em uma tela em tempo real, em que o diretor

poderia acompanhar toda a atuação diretamente convertida, próxima do resultado

final, e dirigir os atores de acordo com o que seria a cena futura e finalizada.

Page 87: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

87

Figura 33: Reconhecimento empregado em Avatar

Fonte: Internet

O segundo método utilizado na visão computacional, se dá pelo uso de uma

única câmera que captura a silhueta do usuário, determinando a posição do corpo, e

os gestos realizados. É empregado em diversos aplicativos não comerciais de

reconhecimento gestual.

Esse método apresenta algumas dificuldades, Sturman & Zeitzer (1994) as

abordou:

1. A resolução das câmeras de vídeo é muito baixa para resolver os dedos com

facilidade e cobrir o campo de visão dos movimentos das mãos;

2. A tecnologia convencional da maior parte das câmeras, de 30 a 60 frames por

segundo não é suficiente para capturar movimentos rápidos das mãos;

3. É difícil rastrear os dedos, já que eles podem se sobrepor e serem

sobrepostos pelas mãos;

Page 88: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

88

4. Técnicas de visão computacional não estão suficientemente maduras para

interpretar campos visuais complexos em tempo real.

Desde o levantamento e das dificuldades apresentadas por Sturman et al., as

tecnologias de reconhecimento gestual vem evoluindo, de modo que algumas das

dificuldades levantadas foram solucionadas. Um exemplo são as câmeras 3D ou de

profundidade, que são soluções mistas, combinando as câmeras 2D com sensores

infravermelhos, capazes de medir a profundidade do objeto em foco.

O principal desenvolvimento dessas tecnologias se dá nas áreas de

entretenimento como cinema e jogos eletrônicos. Veremos a seguir como duas

tecnologias do mundo dos games vem evoluindo, de forma a tornarem-se atrativas e

sujeitas a adaptações para o uso em reconhecimento das Línguas de Sinais.

4.1.2.1. Microsoft Kinect para Windows

A Microsoft trouxe inovação ao mercado dos videogames através do Kinect,

câmera por meio da qual o usuário utiliza o próprio corpo como controle da interação

nos jogos. Ampliando as possibilidades, a Microsoft disponibilizou em 2012 uma

nova versão do Kinect para Windows – seu sistema operacional proprietário. A

adaptação para a versão de computadores possibilita a ligação do dispositivo em

computadores, e permite a leitura a 40 cm do objeto de interesse, ou seja, mais

próximo do usuário. A ideia geral é que desenvolvedores de software tivessem

acesso à programação da interface, utilizando o Kinect para novas formas de

interação com o computador.

Page 89: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

89

Figura 34: Reconhecimento de usuário do Kinect

Fonte: Human Interface Guidelines – (MICROSOFT, 2012)

O Kinect é capaz de reconhecer até dois esqueletos, e até seis pessoas em

cena. Para cada esqueleto, reconhece até vinte pontos de articulação. Caso a

pessoa esteja sentada, são reconhecidos até dez pontos (figura 34). Também é

possível reconhecer comandos de voz e expressões faciais (figura 35).

Figura 35: Rastreamento facial – avatar e usuário no Kinect

Fonte: Do autor, reproduzido utilizando Face Tracking Visualization – Kinect SDK

Page 90: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

90

O dispositivo é um avanço na abordagem com câmeras 2D, sendo uma

solução aos principais problemas apontados por Sturman & Zeitzer (1994), como a

resolução das câmeras de vídeo, quantidade de frames, e técnicas próprias de

interpretação dos campos visuais.

Um dos problemas relacionados ao Kinect é a falta de reconhecimento de

gestos, pois o dispositivo não possibilita o reconhecimento preciso ao nível dos

dedos. Existe considerável bibliografia de iniciativas de reconhecimento de sinais

utilizando o Kinect, mas que se fundamentam no reconhecimento de poses

estimadas, com base no esqueleto do usuário. Assim, dado um vocabulário limitado

e restrito, o sinal é reconhecido de acordo com a pose generalizada do usuário

(figura 36), sem considerar os dedos (datilologia) ou aspectos não manuais.

Figura 36: Reconhecimento de sinais utilizando o Kinect

Fonte: (LANG, 2011, p. 42)

Como uma possível solução a esse problema, a Microsoft apresentou no

TechFest de 2013 – evento anual interno da Microsoft, voltado a exibição de novas

tecnologias desenvolvidas em seus laboratórios –, uma nova abordagem de

reconhecimento de gestos da palma da mão, primariamente focados para controlar

sua central de entretenimento, o XBOX Live (ACOHIDO, 2013).

Page 91: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

91

Com essa nova abordagem, espera-se que a fabricante traga um maior

refinamento da capacidade de reconhecimento do Kinect, que poderia ser utilizado

na tarefa do reconhecimento de gestos, e construção de diferentes aplicações, como

as de reconhecimento das Línguas de Sinais.

4.1.2.2. 3GEAR

Ciente das capacidades limitadas da tecnologia da câmera 3D do Kinect, um

grupo, composto de três doutores e doutorandos americanos, desenvolveu um Kit de

Desenvolvimento de Software (Software Development Kit - SDK) para

reconhecimento de gestos com precisão de dedos. Entre os integrantes do grupo

está Robert Wang, desenvolvedor dos trabalhos com luvas coloridas citado no

capítulo a respeito de Gloves – Luvas.

O problema da precisão é resolvido pelo sistema utilizando-se duas câmeras

de profundidade ao invés de uma só. Os desenvolvedores esperam que esse

problema de sobreposição seja solucionado no futuro, com a evolução da

tecnologia. Por meio dessa abordagem, o sistema é capaz de atingir precisão

milimétrica.

Para que o sistema funcione, são necessários três itens (figura 37):

Page 92: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

92

Figura 37: Estrutura física do 3Gear

Fonte: (3GEARSYSTEMS, 2012)

De modo que as duas câmeras fiquem fixas, é sugerida uma solução de

suporte em alumínio que deve ser montada sobre a mesa, e dois suportes para a

câmera, caso sejam utilizados Kinects da Microsoft (figura 38).

Figura 38: Estrutura física do 3Gear montada

Fonte: (LEAPMOTION, 2012)

Entre as aplicações do sistema, destacam-se as interfaces de manipulação de

objetos 3D, e interfaces de interação com janelas gráficas ou objetos gráficos do tipo

fotos. No site não consta material referente a reconhecimento gestual, apesar de

haver o SDK para programação de interfaces autônomas de uso acadêmico ou para

Page 93: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

93

pequenas empresas, o que abre a hipótese de alguma interface desenvolvida e não

catalogada.

4.1.2.3. Softkinetic

SoftKinetic é uma empresa belga fundada em 2007 que desenvolve software

e hardware voltados para reconhecimento gestual. Suas soluções já foram usadas

com sucesso em campos como: entretenimento digital interativo, eletrônicos de

consumo, saúde e mercados profissionais – como sinalização digital e sistemas

médicos (SOFTKINETIC).

A plataforma, nomeada iisu – em tradução do original inglês The Interface is

You, A Interface é Você – pode reconhecer e distinguir ou isolar diferentes

elementos da cena, identificar partes do corpo de um usuário, e adaptar as formas

desse usuário, bem como sua postura e movimentos a um modelo físico existente. A

plataforma é compatível com todas as câmeras 3D de tempo real do mercado

(SOFKINETIC, 2012).

A SoftKinetic também possui uma solução de hardware chamada

DepthSense, uma câmera 3D de tempo real (TOF), baseada em um sensor do tipo

CMOS próprio (SOFTKINETIC). Atualmente são comercializados dois modelos de

câmera: DepthSense 325 e DepthSense 311 (figura 39).

Page 94: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

94

Figura 39: Ilustração da câmera DepthSense 325 e 311 da Softkinect

Fonte: http://www.softkinetic.com/portals/0/images/camera_DS325_with_foot.jpg

Diferente da abordagem 3D, ou da abordagem do Kinect, o sistema de

captação das câmeras 3D da Softkinect é capaz de reconhecer os dedos

individualmente, gerando um modelo tridimensional dos mesmos em tempo real

(figura 40).

Figura 40: Exemplo de reprodução digital dos movimentos das mãos

Fonte: http://www.youtube.com/watch?v=5LvhdFudp50

Para o reconhecimento em geral, a interface aplica uma análise de cena

responsável por três etapas: remoção do plano de fundo, aplicação de filtros e

calibração. Na primeira etapa, o plano de fundo é capturado isoladamente e

subtraído quando o objeto de interesse, o corpo, move-se na cena. Assim, todo

elemento desnecessário é removido da cena. Então os filtros são aplicados com o

intuito de eliminar ruídos da captação da câmera. A calibração é utilizada para

determinar em que ponto a câmera foi posicionada na cena.

Page 95: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

95

O sistema reconhece o volume do corpo do usuário por meio da câmera 3D,

distinguindo entre 21 pontos distintos: Cabeça, Pescoço, Colarinho, Cintura, Pelves,

Ombros, Cotovelos, Pulsos, Mãos, Quadris, Joelhos, Tornozelos e Pés (figura 41).

Figura 41: Volume e pontos do corpo do usuário capturados pelo Softkinect

Fonte: Inside iisu, manual de referências oficial

Foi anunciado pela empresa um vídeo em que um usuário joga Angry Birds,

jogo da empresa desenvolvedora de jogos Rovio. O jogo, desenvolvido para

dispositivos móveis com superfície de toque multitouch, tem a interface de toque

substituída pelo movimento no ar de pinça, que representa segurar um desenho de

um pássaro e lançá-lo, em movimento semelhante ao real de atirar com um

estilingue, contra os inimigos. Por meio desse vídeo, é possível verificar o nível de

detalhe dos recursos da SoftKinetic.

Existem outras evidências nas mídias de que a solução consegue reconhecer

os dedos, porém não foi encontrado nenhum trabalho acadêmico ou relacionado que

utilize o SoftKinetic no reconhecimento de gestos, ou reconhecimento das Línguas

de Sinais.

Page 96: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

96

A empresa fechou recente parceria com a multinacional em tecnologia Intel,

que busca o desenvolvimento de tecnologias de “computação perceptual”. Alinhada

às interfaces naturais, o que a Intel busca é o controle de computadores por

movimentos das mãos, comandos de voz, e até mesmo o teclado e o mouse. Com

essa parceria, a Intel deve disponibilizar, ainda em 2013, kits de desenvolvimento

para a tecnologia da SoftKinetic (TAKAHASHI, 2012). Podemos esperar que com a

proliferação da tecnologia, principalmente aos desenvolvedores de sistemas

computacionais, o produto amadureça mais e seu potencial do reconhecimento dos

dedos seja mais bem explorado, principalmente nas interfaces de reconhecimento

de Línguas de Sinais.

4.1.2.4. Leap Motion

Leap Motion é um startup24 que, no início de 2012, lançou um vídeo de

tecnologia proprietária, The Leap, de interação gestual. O vídeo logo causou

grandes repercussões na Internet, devido à tecnologia promissora. Diferente de

outras abordagens técnicas ao reconhecimento gestual, o The Leap promove sua

solução como um pequeno dispositivo USB (figura 42) projetado para ficar em cima

da mesa do usuário.

24 “grupo de pessoas à procura de um modelo de negócios repetível e escalável, trabalhando em condições de

extrema incerteza.”, definição disponível em: http://info.abril.com.br/noticias/mercado/afinal-o-que-e-uma-startup-09102012-45.shl (acesso em 02/12/2012)

Page 97: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

97

Figura 42: Comparativo do dispositivo The Leap com um laptop

Fonte: Leap Motion

O dispositivo cria um espaço interativo 3D de aproximadamente 2,5 metros

cúbicos, capaz de reconhecer os dedos com precisão de um centésimo de

milímetros (LEAPMOTION, 2012). Com esse grau de precisão, é possível trabalhar

com reconhecimento dos dedos individualmente, ou objetos pequenos como um

lápis desenhando no ar (figura 43), segundo o site da empresa.

Figura 43: The Leap – reconhecimento individual dos dedos e pequenos objetos

Fonte: (LEAPMOTION, 2012)

De acordo com a definição do CEO da empresa, Michael Buckwald, em

entrevista para a CNET25 em 2012:

25 Original disponível em http://news.cnet.com/8301-11386_3-57437404-76/leap-motion-3d-hands-free-

motion-control-unbound/ acesso em 02/12/2012.

Page 98: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

98

Nós queremos que haja uma mudança mundial nas aplicações, que transforme

fundamentalmente o modo como as pessoas interagem com seus sistemas

operacionais, ou navegam na Web... O objetivo é transformar

fundamentalmente como as pessoas interagem com computadores e fazer isso

da mesma forma que o mouse fez, o que significa que a transformação afeta a

todos, tanto do uso mais básico até o uso mais avançado que você pode

imaginar para a tecnologia computacional (BUCKWALD, 2012, tradução

nossa).

É possível fazer uma pré-compra no valor de $69,99, com previsão de envio

do produto para início de 2013. Existe um fórum para desenvolvedores, que podem

iniciar a construção de aplicativos que utilizem a tecnologia, de forma que possam

iniciar os testes com o produto assim que finalizado e postado.

No site não são divulgados detalhes técnicos do funcionamento do

dispositivo, mas o site americano Engadget26 fez uma entrevista com os donos da

empresa, revelando alguns detalhes importantes. Semelhante a outros métodos de

reconhecimento de gestos, o dispositivo usa um sistema ótico de LEDs

infravermelhos e câmeras (figura 44) para rastrear os dedos. É um novo método

miniaturizado de reconhecimento gestual (HOLZ & BUCKWALD, 2012).

26

http://www.engadget.com/2012/05/25/leap-motion-gesture-control-technology-hands-on/ acesso em 02/12/2012

Page 99: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

99

Figura 44: The Leap – LEDs infravermelhos e mini câmeras

Fonte: (ENGADGET, 2012)

Apesar de ainda não haver bibliografia disponível para o dispositivo, o nível

de detalhe do The Leap é promissor (figura 45). Com o lançamento comercial do

aplicativo para o ano de 2013, espera-se que novas iniciativas independentes

explorem seu potencial de reconhecimento dos dedos.

Figura 45: The Leap – reconhecimento da mão

Fonte: (LEAPMOTION, 2012)

Page 100: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

100

4.1.3. Novas abordagens – MYO

MYO é um dispositivo de interação com computadores, telefones e outras

tecnologias. Anunciado para lançamento comercial em 2013 trata-se de uma

braçadeira capaz de medir a atividade elétrica nos músculos o usuário para controle

sem fio de dispositivos digitais (figura 46).

Figura 46: Leitura de atividade elétrica dos músculos

Fonte: https://getmyo.com/ acesso em: 02/03/2013

O dispositivo utiliza Bluetooth 4.0 para se comunicar com outros dispositivos

com os quais estiver conectado. Possui baterias recarregáveis e um sistema de

controle de interação acidental, de modo que um gesto único e diferente é utilizado

para ativar ou desativar o aparelho.

A respeito da precisão, segundo o fabricante:

O MYO detecta os gestos e movimentos de dois modos: 1) atividade muscular,

e 2) sensor de movimento. Quando sente os movimentos do músculo do

usuário, o dispositivo pode detectar alterações nos gestos da mão para cada

dedo individual. Quando está rastreando a posição do braço e da mão no

Page 101: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

101

espaço, o dispositivo pode detectar movimentos súbitos em todas as direções.

(MYO, 2013)

O potencial da tecnologia é demonstrado por meio de um vídeo do site da

empresa, onde usuários utilizam gestos naturais para controlar reprodutores de

música em computadores, jogos digitais, aparelhos movidos a controle remoto,

apresentações digitais, entre outros dispositivos.

A nova abordagem ao reconhecimento gestual representada por essa

tecnologia expande o modelo de reconhecimento gestual apresentado por Marcel

(MARCEL, 2002), discutido no capítulo 4.1. Soma-se ao uso de datagloves, visão

computacional e superfícies de toque, o uso de sensores de atividade elétrica

muscular, tais como o MYO.

Como ainda não foi lançado comercialmente, não existem iniciativas

divulgadas quanto ao reconhecimento das Línguas de Sinais. É preciso verificar qual

o potencial de uso da leitura da atividade elétrica dos músculos nas Línguas de

Sinais, por ser uma abordagem nova para essas interfaces.

4.2 Segmentação, Extração de características e Classificação

O computador necessita ter a visão sobre as imagens que serão utilizadas

pelo sistema para que consiga “reconhecer” determinado gesto. É necessário,

portanto, realizar a segmentação, a extração das características e a classificação

das imagens obtidas no processo de aquisição.

No processo de aquisição considerado no escopo desse trabalho, temos o

vídeo ou as imagens, compostas basicamente por um fundo e por objetos de

interesse – as mãos, dedos, e partes do corpo pertinentes às Línguas de Sinais.

Page 102: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

102

A segmentação é necessária, pois é ela quem isola o objeto de interesse no vídeo,

desconsiderando elementos irrelevantes, como sombra, objetos ao fundo, etc. Na

definição de Aura Conci et al. (2008) a segmentação busca o isolamento dessas

“regiões de pontos da imagem pertencentes a objetos, para posterior extração de

características e cálculo de parâmetros descritivos”.

A extração é a fase intermediária que é muito próxima da segmentação.

Utilizando a extração, dados relevantes são isolados de modo que são utilizados no

processo final de classificação.

Os modelos comerciais de obtenção de imagem vistos no capítulo anterior já

têm tratativa de segmentação e extração: utilizando diferentes abordagens de

eliminação do fundo da imagem, o objeto de interesse é destacado na cena. Cabe

ao programador a tarefa de classificação, etapa que pode usar diferentes tipos de

abordagem.

O processo de classificação consiste no reconhecimento do objeto de

interesse. De modo a completar o reconhecimento, são necessárias basicamente

duas etapas: uma fase de treinamento e aprendizagem para inserção das

descrições dos objetos em uma base de dados, e uma fase do próprio

reconhecimento, por meio de mecanismos de classificação sobre as características

previamente extraídas.

Um exemplo de processo de classificação é o dos Modelos Ocultos de

Markov – Hidden Markov Models (HMM). Trata-se de modelo estatístico vastamente

empregado em algoritmos de reconhecimento de padrões variáveis, com parâmetros

probabilísticos. No campo das interfaces naturais, é utilizado no reconhecimento de

voz (PAUL, 1990); (YNOGUTI, 1999) e (LOUZADA, 2010), em sistemas de

Page 103: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

103

reconhecimento de escrita (KUNDU et al., 1989) e (GOMES, 2000) e

reconhecimento gestual (YANG & XU, 1994); (RIGOLL et al., 1998) e (VALVERDE et

al., 2011) .

O uso do modelo é apropriado para se trabalhar com interfaces naturais

devido a uma propriedade conhecida como memória Markoviana, que não depende

dos estados anteriores do instante atual para a predição dos estados seguintes –

desde que o estado atual seja conhecido. A terminologia “oculta” deriva da ideia de

que os estados não são diretamente conhecidos ou observáveis, mas os parâmetros

são.

O processo de implementação de um sistema de reconhecimento gestual

baseado em HMM pode ser descrito como (TARRATACA, 2008):

1. Construção de um banco de dados rotulado de posturas da mão – esse conjunto

vai representar os itens básicos que constituem um gesto;

2. Construção de um banco de dados rotulado de gestos – o conjunto de dados de

treino consiste de gestos onde cada elemento é representado por um conjunto de

posturas da mão.

3. Descrição de cada gesto em termos do HMM – um Modelo Oculto de Markov é

então utilizado para modelar cada gesto.

4. Treinar o HMM escolhido através de dados de treino – com essa abordagem, os

gestos são especificados através de dados de treino, utilizados para ajustar os

parâmetros do modelo de forma que a probabilidade das sequências de observação

seja maximizada para os dados de treinos específicos.

Page 104: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

104

5. Avaliar os gestos com o modelo de treino – os modelos de treino podem ser

utilizados para avaliar gestos de entrada. O modelo que maximiza a probabilidade

de uma dada observação é selecionado como o modelo vencedor.

A complexidade das etapas 1 e 2 é devida ao volume de trabalho. É

necessário gerar um banco de dados que contemple todos os gestos a serem

reconhecidos. Considerando os parâmetros complexos vistos anteriormente (seção

3), o sistema será capaz de reconhecer os sinais através de sistemas de transcrição

(seção 3.5). Para a etapa 3 do processo de implementação, é necessário elencar os

modelos de Markov mais adequados para modelar as complexidades dos gestos. A

etapa 4 e 5 representam filtros sob os quais o modelo final de Markov é eleito e

adotado dentro do sistema.

Sendo assim, o processo de escolha do modelo de Markov, e o número de

estados a serem adotados, é fundamental. Não faz parte do escopo desse trabalho

analisar profunda e tecnicamente os Modelos Ocultos de Markov. A descrição

aprofundada dos modelos, bem como seus benefícios e dificuldades, podem ser

genericamente encontrados em (OLIVEIRA & MORITA, 1998) e especificamente

voltados ao reconhecimento de voz em Rabiner (1989).

4.3 Ação

Ação é a etapa do reconhecimento gestual que diz respeito às decisões que o

sistema tomará quanto ao reconhecimento do gesto. Portanto, a ação está

diretamente ligada ao propósito do sistema.

Um tipo de ação comum, à exemplo dos aplicativos disponibilizados pela

Microsoft para o Kinect, no seu kit de desenvolvimento, diz respeito aos avatares 3D.

Page 105: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

105

Um avatar 3D é uma representação gráfica de um humanóide. Por meio das

interfaces gestuais, o gesto feito no ambiente real pode se reproduzido pelo avatar

3D.

A desvantagem do avatar é que, semelhante aos personagens sintéticos –

agentes virtuais em formato humanóide ou animal, representando por desenhos 3D,

muito comuns como assistentes de ajuda em softwares –, o avatar implica em muito

esforço para projeção semelhante a seres vivos, exibindo movimentos humanos

realistas, expressão facial e movendo lábios (PREECE et al., 2005).

Os avatares são principalmente empregados em interfaces de interação com

cenários 3D, ou em sistemas inversos aos de reconhecimento gestual; aqueles que

se propõe a reconhecer a voz e traduzir a mensagem em língua de sinais por meio

dos avatares 3D, como em SEGUNDO et al. (2008), Villani (2008), Januário et al.

(2010) e Tavares (2005).

Além do uso com avatares, a ação pode estar voltada a dois aspectos:

Interação com o sistema – associação de um gesto ou sinal a uma ação

programada dentro do sistema computacional, como manipulação do sistema ou de

arquivos;

Tradução do gesto/sinal – associação do gesto ou sinal a um significado;

A semelhança entre os dois aspectos é a interpretação, por meio da qual é

programada no sistema qual associação interpretativa deve ser dada ao gesto/sinal

(entrada) e a ação (saída). Quanto à principal diferença, é que a interação com o

sistema gera uma ação sistêmica, como abrir um arquivo, manipular um ícone,

fechar um aplicativo; enquanto que a tradução do gesto/sinal gera um significado,

mas não necessariamente uma ação.

Page 106: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

106

Existem ainda duas abordagens à tradução: reconhecimento com pausa, ou

reconhecimento contínuo. O reconhecimento com pausa implica que a tradução do

sinal será feita sinal a sinal. Nessa abordagem, o usuário deve fazer o sinal e

esperar a tradução correspondente. Uma interação natural segue a abordagem da

tradução contínua, em que o usuário não deve interromper os sinais.

A respeito da tradução dos sinais, é importante considerar a adaptação

gramatical, a qual se espera que dê conta de todas as características sintáticas

relativas à língua de sinais e sua adaptação para a língua destino. Para mais

detalhes a respeito da indução gramatical e sua complexidade, destacamos Januário

et al. (2011):

Para o processamento de linguagens naturais, em aplicações como tradutores,

faz-se necessário a modelagem da língua em questão como uma linguagem

formal, bem como a análise sintática do texto processado. Essas tarefas

apresentam grandes desafios devido a grande complexidade das linguagens

naturais, o que nos leva a fazer uso de recursos como a adaptatividade para

superar esses obstáculos (p. 1).

Outro aspecto a ser destacado é o da simplificação textual, com vasta

bibliografia no campo da inteligibilidade textual, mas escassa na inteligibilidade de

língua natural. Esse aspecto utiliza recursos da área de Processamento da Língua

Natural (PLN) para tornar um texto mais compreensivo. A importância da

inteligibilidade no contexto das Línguas de Sinais é a adaptação do léxico complexo

dessas línguas para versões mais simplificadas, a fim de facilitar sua estrutura

linguística e tradução. Para mais detalhes a respeito de Inteligibilidade por meio de

Processamento da Língua Natural, consultar Santos et al. (2009).

Page 107: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

107

CAPÍTULO 5 – ASPECTOS RELEVANTES DE INTERFACES GESTUAIS PARA

LÍNGUAS DE SINAIS

Bhuiyan & Picking (2009) realizaram uma revisão das interfaces gestuais – as

quais denominam GCUI (Gesture Controlled User Interface, ou, em tradução livre,

Interfaces de Usuário Controladas por Gestos) – identificando tendências na

tecnologia, aplicação e usabilidade. Os autores compõem uma tabela dos projetos

de pesquisa envolvendo as tecnologias de interface gestual, evidenciando a

quantidade de bibliografia na área.

Segundo as pesquisas levantadas pelos autores, um dos primeiros trabalhos

relacionados data de 1980, com o projeto “Put-That-There”: Voice and Gesture

(BOLT, 1980). A tecnologia utilizava de voz e o apontar em uma grande tela de

projeção para interação com o computador (figura 47). Por meio da combinatória

entre os comandos de voz e gestos, o usuário poderia posicionar elementos gráficos

na tela da projeção.

Page 108: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

108

Figura 47: Interface Gestual Put-That-There

Fonte: (BOLT, 1980, p. 267)

Os trabalhos relacionados possuem relevância na área, pois demonstram

como as tecnologias gestuais vêm evoluindo. Quanto ao uso direto dessas

interfaces para o reconhecimento das Línguas de Sinais, há certa limitação. O

estado inicial dessas tecnologias se mostra muito embrionário, de forma que foram

necessários avanços tecnológicos para que se pudesse pensar em novas formas de

interação gestual, e uma maior maturidade tecnológica para interfaces de

reconhecimento de Línguas de Sinais.

Page 109: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

109

Loeding et al. (2004), também faz um levantamento das interfaces gestuais,

porém focado no progresso do reconhecimento computacional automático das

Línguas de Sinais. Por meio de um extenso estado da arte de diversas línguas,

basearam-se no tipo de dados usados, características computadas, técnicas

empregadas e taxas de reconhecimento alcançadas.

Principais aspectos observados pelos autores:

1. Dados de Entrada

Uso de diversos dispositivos coletores de dados, como luvas, marcadores

magnéticos e rastreadores de posição. Uso de câmeras variável de duas a três,

gerando imagens em 2D ou 3D. Alguns estudos utilizaram fundo uniforme, com os

usuários sinalizadores vestindo roupas escuras e/ou luvas coloridas para facilitar a

segmentação.

2. Abordagem de Reconhecimento

A maioria dos estudos até o ano 2000 utilizou os Modelos Ocultos de Markov

para cada sinal, no reconhecimento do sinal. Muitos grupos abandonaram o modelo

devido a problemas com escalabilidade do vocabulário. Como solução, passou-se a

usar HMMs paralelos – Parallel Hidden Markov Models (PaHMMs) – ou um HMM

para cara fonema ou subunidade do sinal.

3. Bases de Dados

A maior parte dos estudiosos criou sua própria base de dados, baseada em

gravações de gestos, sinais e frases, com vocabulário variável de 5 até 5113 sinais.

Três artigos reportaram frases compostas de um vocabulário de 10 sinais ou menos.

Dez artigos reportaram vocabulário de 22 a 49 sinais, e seis artigos reportaram

Page 110: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

110

vocabulário de 52 a 250. A maioria dos grupos tentou reconhecer conjuntos de 10 a

196 sentenças de sinais de 2 a 12 sinais em cada frase, com taxas de

reconhecimento variando de 58% a 95,8%. Poucos grupos testaram entre 400 e

1000 frases, e reportaram taxas de reconhecimento de 52,8% a +90%.

4. Performance do Reconhecimento

As taxas de reconhecimento reportadas para o reconhecimento contínuo dos

sinais variou entre 58% a 99%. Apesar de menos útil, taxas de reconhecimento de

sinais isolados foram muito maiores, entre 91% e 99%.

5. Características não manuais

Alguns estudos são destacados por considerarem características não

manuais, como o movimento da cabeça, e expressões faciais e movimento dos

lábios. Apesar disso, nenhum dos grupos publicou estratégias de combinação das

informações manuais com as não manuais, assim como os impactos das

características não manuais no reconhecimento das Línguas de Sinais.

6. Múltiplos agentes sinalizadores e fundos

Alguns grupos utilizaram mais de um sinalizador, mas poucos grupos

adotaram sistemas independentes para os sinalizadores. Não foi encontrada

evidência de grupos trabalhando em abordagens de visão computacional baseada

em câmeras puras com fundos complexos.

Quanto a observação 5, características não manuais, é destacado um estudo

paralelo desenvolvido pelos próprios autores, de uma estratégia para extrair,

representar e integrar aspectos não manuais aos manuais. As maiores dificuldades

apontadas são: o fato de que informações manuais não são necessariamente

Page 111: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

111

sincronizadas com informações não manuais; e a incapacidade de extrair as

expressões faciais em cada quadro de uma sequência de dados. Os pesquisadores

comprovaram que o uso adicional de informações não manuais aumentou a precisão

do reconhecimento contínuo das palavras de 88% para 92%. Através da

combinatória, também foi possível detectar “negação” em sentenças baseadas na

trajetória do movimento com acerto de 27 vezes, em cada 30 (LOEDING et al.

p.1082).

Por meio das pesquisas, os pesquisadores concluíram que os antigos

trabalhos eram muito cunhados nas palavras soletradas – datilologia –, e

reconhecimento de sinais isolados, havendo uma pequena evolução rumo ao

reconhecimento em pequenas sentenças contínuas. Também encontraram alguns

estudos que demonstram que os pesquisadores passaram a considerar informações

não manuais importantes, presentes na face e na cabeça (LOEDING et al. p.1079).

Outro estudo amplo é o de COOPER et al., (2011), que apresenta aspectos

técnicos do estado da arte das interfaces gestuais para reconhecimento de Línguas

de Sinais, as quais denomina SLR (do inglês Sign Language Recognition). Esse

estudo também considera aspectos imbricados das Línguas de Sinais, como as

características não manuais. Os autores chamam a atenção para a escassa

bibliografia referente a poses do corpo, especialmente utilizadas em diálogos e

narração de histórias.

Uma das dificuldades apontadas pelos autores quanto ao reconhecimento de

aspectos não manuais, se dá no reconhecimento facial, onde é necessária a

distinção entre emoções e expressões faciais explícitas das Línguas de Sinais

(MING & RANGANATH, 2002, apud COOPER et al., 2011, p.10).

Page 112: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

112

Quanto aos métodos de classificação, em evolução ao uso dos Modelos

Ocultos de Markov, os autores destacam o uso de Redes Neurais. Apesar disso,

reforçam-se as capacidades da técnica de HMMs, e da sua evolução, PaHMMs,

como observado por Loeding et al. (2004).

Outra observação importante e significativa que corrobora com a ideia de

Loeding et al. (2004), é sobre o vasto número de bibliografia focada em reconhecer

instâncias isoladas do sinal, o que não é aplicável às Línguas de Sinais. Segundo os

autores, isso se deve ao fato de que

...a tarefa de reconhecer a língua de sinais contínua é complicada,

primeiramente por causa do problema que, nas Línguas de Sinais naturais, as

transições entre os sinais não são claramente marcadas porque as mãos

estarão em movimento transitório para a posição inicial do próximo sinal. Isso é

referenciado como co-articulação (COOPER et al., 2011, p. 14, tradução

nossa27).

5.1 Dificuldades

Vogler & Metaxas (2000) articula sobre os desafios das Interfaces de

Reconhecimento das Línguas de sinais:

O maior desafio no Reconhecimento das Línguas de Sinais é encontrar um

paradigma de modelo que seja poderoso suficiente para capturar a língua,

escalando-a para grandes vocabulários. Línguas de Sinais são altamente

flexionadas, o que significa que cada sinal pode aparecer em várias diferentes

formas, dependendo do sujeito, objeto, e acordo numérico. Assim, é inútil

27 “The task of recognising continuous sign language is complicated primarily by the problem that in natural

sign language, the transition between signs is not clearly marked because the hands will be moving to the starting position of the next sign. This is referred to as the movement epenthesis or co-articulation”

Page 113: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

113

modelar cada um deles separadamente, simplesmente são muitos deles.

(2000, p.359, tradução nossa28)

A esse problema em especial, os autores sugerem o uso da segmentação dos

sinais em unidades menores, os fonemas. Essa abordagem foi percebida por outros

autores, semelhante à abordagem adotada para o Reconhecimento da Fala. Ainda

assim, a modelagem da fonologia das Línguas de Sinais é mais desafiadora do que

da língua oral, pois na língua oral:

...os fonemas aparecem sequencialmente. Nas Línguas de Sinais, os fonemas

podem aparecer em sequências ou simultaneamente. (...) como consequência,

há um grande número de combinações dos fonemas possíveis, que podem

ocorrer ao mesmo tempo. (2000, p. 359, tradução nossa29)

Os principais esforços para resolução da segmentação das Línguas de Sinais

podem ser encontrados na Transcrição das Línguas de Sinais. O melhor caminho

para solução do problema parece estar em encontrar um modelo de Transcrição

padronizado, que possa ser utilizado por diversos aplicativos de reconhecimento dos

sinais.

Cooper et al. (2011) também se atentam aos problemas do reconhecimento

das Línguas de Sinais. Em seu trabalho, descrevem um subconjunto de construções

das Línguas de Sinais que são verdadeiros desafios para o seu reconhecimento

automático. Algumas dessas construções são inerentes a composição gramatical

28 “The main challenge in sign language recognition is to find a modeling paradigm that is powerful enough to

capture the language, yet scales to large vocabularies. Signed languages are highly inflected, which means that each sign can appear in many different forms, depending on subject, object, and numeric agreement. Thus, it is futile to model each form separately—there are simply too many of them.” 29

“…the phonemes appear sequentially. In signed languages the phonemes can appear both in sequences and simultaneously. For example, a sign can consist of two hand movements in sequence, but the hand shape and hand orientation can change at the same time.”

Page 114: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

114

das Línguas de Sinais, conforme visto no corpo desse trabalho. Em geral, são elas

(COOPER, H et al., 2011, p. 3):

a) Advérbios que modificam verbos: os sinalizadores não utilizam dois sinais

para “correr rapidamente”, ao invés disso utilizam uma modificação do sinal,

acelerando-o. Esse aspecto se assemelha ao da entonação, citado nos

gradientes da língua de sinais;

b) Características não manuais: expressões faciais e posturas do corpo são

parte do sentido das frases, como por exemplo, a posição das sobrancelhas,

que pode determinar uma pergunta. Alguns sinais só são distinguíveis pelo

formato dos lábios, uma vez que possuem representação manual semelhante;

c) Localização: conforme visto nos pronomes das Línguas de Sinais, pronomes

como “ele”, “ela” ou “isso”, ao invés de possuírem sinal próprio, são

representados pelo referente sendo descrito e alocado em uma posição do

espaço articulatório. Referências futuras apontam para aquela posição, e as

relações podem ser descritas pelo apontar para mais de um referente;

d) Classificadores: semelhante às classes padrões das estruturas dêitico-

anafóricas de Pizutto et al. (2006), formatos de mão são utilizados para

representar classes de objetos, quando itens previamente descritos

interagem, como por ex. para distinção entre uma pessoa perseguindo um

cão e vice e versa, como visto nas transferências de situação e transferência

de pessoa de Pizutto et al. (2006);

e) Verbos direcionais: ocorrem entre o sinalizador e o referente. A direção e o

movimento indicam a direção do verbo. A direção do verbo implicitamente

Page 115: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

115

convenciona qual substantivo é o sujeito e qual substantivo é o objeto. Essa

estrutura é muito utilizada nos Espaços Mentais de Liddell (1994);

f) Sinais posicionais: quando um sinal atua em parte do corpo descritivamente,

por exemplo, para significar uma tatuagem no corpo da primeira ou terceira

pessoa do discurso – no último caso, uma estrutura mista com os Espaços

Substitutos de Liddell (1989, 1995);

g) Deslocamento do corpo: representado pelo giro dos ombros e o olhar, muito

utilizado na indicação da troca de papéis quando relatando um diálogo.

h) Iconicidade: quando um sinal descreve o ato representado, esse pode ser

alterado para uma representação apropriada. Por exemplo, o sinal de sair da

cama pode ser alterado de saltar da cama energicamente, para um reclino, de

alguém que reluta em levantar;

i) Soletração manual: quando um sinal não é conhecido, seja pelo sinalizador

ou pelo receptor da mensagem, a palavra local para o sinal pode ser

soletradas explicitamente pela datilologia.

Os autores também apontam que, apesar do Reconhecimento das Línguas de

Sinais e do Reconhecimento da Fala ser drasticamente diferentes, em vários

aspectos, os dois “sofrem se problemas semelhantes; a co-articulação entre os

sinais significam que um sinal será modificado por aqueles próximos a ele.”, os

autores acrescentam também que “cada sinalizador possui seu próprio estilo, do

mesmo modo que cada um tem seu próprio sotaque ou caligrafia”.

Cooper et al. (2011, p. 15), abordam o problema de estilo do sinalizador

apontando esse como um problema de independência do sinalizador. Segundo os

autores, de acordo com os estudos do estado da arte, é um problema aplicar um

Page 116: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

116

mesmo sistema de Reconhecimento de Língua de Sinais para um sinalizador o qual

não foi o mesmo que treinou o sistema.

Além das dificuldades dadas pela gramática e estruturas complexas das

Línguas de Sinais, existem ainda aspectos técnicos que devem ser levados em

consideração no reconhecimento dos sinais. No reconhecimento da língua contínua,

necessário para o discurso natural das Línguas de Sinais, por exemplo, é necessário

saber quando um sinal termina e o outro começa.

Page 117: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

117

CONSIDERAÇÕES FINAIS

O desenvolvimento desse trabalho consistiu em explicitar as novas

tecnologias que podem ser utilizadas no reconhecimento das Línguas de Sinais.

Para tanto, fez-se necessário delinear o desenvolvimento das interfaces

computacionais, das Interfaces de Texto até as Interfaces Naturais, bem como

entender o complexo cenário gramatical e linguístico em que as Línguas de Sinais

se inserem.

As Interfaces Naturais se encontram em um estágio de desenvolvimento

acelerado, e se mostram viáveis para diversos fins devido a seu aspecto facilitador

para o usuário final. Por meio da pesquisa do uso dessas interfaces, principalmente

nos jogos virtuais, fica evidente a potencialidade de seu uso em diferentes

aplicações. Uma delas é exatamente o reconhecimento das Línguas de Sinais por

meio do reconhecimento dos gestos, componentes dessas Línguas.

Quanto aos jogos, o levantamento do corpo de pesquisa evidencia o quanto a

indústria de entretenimento de jogos digitais acelerou as pesquisas referentes às

interfaces. Podemos atribuir aos jogos o grande avanço das interfaces nos últimos

anos. Esse fator acaba por evidenciar, também, a lacuna que se criou no

desenvolvimento de dispositivos próprios destinados somente ao reconhecimento

gestual. Durante anos as pesquisas e os trabalhos com interfaces de

reconhecimento gestual deram-se somente por adaptações – destinadas ou não a

uma necessidade de inclusão – oriundas das interfaces de jogos digitais e outros

dispositivos, sendo que apenas recentemente novas interfaces vêm sendo pensadas

exclusivamente para esse fim.

Page 118: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

118

Pesquisas recentes como o Horizon Reports (JONHSON et al., 2011)

destacam a importância de se pensar na interação por gestos, o que cria espaço

para o desenvolvimento das interfaces de reconhecimento das Línguas de Sinais.

Os novos dispositivos, como o Kinect para Windows, 3GEAR, Softkinetic, Leap

Motion e o MYO, também demonstram o quanto o mercado demanda atualmente de

interfaces naturais gestuais. O horizonte tecnológico que se abre com essas novas

iniciativas de mercado, bem como os frutos de pesquisas relacionadas ao tema são

instigantes e animadores.

Quanto às interfaces desenvolvidas encontradas nas fontes consultadas, há

uma evolução no reconhecimento; antes muito marcado por palavras soletradas e

sinais isolados. Houve progresso quanto a isso, principalmente objetivando o

reconhecimento de sentenças contínuas.

Apesar de boa parte das interfaces desenvolvidas somarem esforços para

uma interface completa do reconhecimento das Línguas de Sinais, essas interfaces

não abarcam completamente boa parte das características de uma Língua de Sinais.

Essa lacuna hora se deve às dificuldades tecnológicas implícitas nessa tarefa, hora

a redução dos signos dessas línguas à simples gestos convencionados. O principal

fator negligenciado levantado foi o das características não manuais, como

expressões faciais e espaços mentais (AMARAL, 2012) e (LOEDING et al., 2004),

apesar do aumento de precisão quando no uso das informações não manuais.

A segmentação das Línguas de Sinais, semelhante a abordagem utilizada na

segmentação das línguas orais por fonemas, mostrou-se bastante importante. Nesse

sentido, os sistemas de transcrição de Línguas de Sinais colaboram para a

padronização da segmentação. Isso se deve ao fato de que a Línguas de Sinais são

línguas orgânicas. É possível que novos sinais sejam criados com o decorrer do

Page 119: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

119

tempo. Daí a importância dos sistemas de transcrição padronizados e orgânicos,

que permitam a inserção de novas configurações de mãos para os novos sinais, e

outros aspectos mutáveis.

Todos esses pontos levantados apontam para um futuro muito próximo do

reconhecimento das Línguas de Sinais, em que a interatividade, principalmente ao

surdo, poderá ser mais fluída, através de gestos ou sinais dessas línguas. Além

disso, novas possibilidades em diferentes contextos podem ser esperadas do

recente e acelerado desenvolvimento dos dispositivos de reconhecimento gestual,

assim como das interfaces naturais.

Nas considerações finais, retomamos à primeira figura utilizada no corpo desse

trabalho (figura 48), que nos posiciona sobre a multidisciplinaridade do Design de

Interfaces. Essa noção é imprescindível para que entendamos a gama de diferentes

áreas do conhecimento que essa tarefa implica. Mesmo no cenário recortado do

Design de Interface aqui apresentado, muitas dessas áreas de conhecimento se

mostraram intrinsecamente conectadas. Esse, por si só, é um desafio das Interfaces

de Reconhecimento das Línguas de Sinais, que explicita a necessidade de um

profissional ou equipe multidisciplinar para o trato de suas características. Espera-

se, assim, que profissionais de diferentes áreas colaborem constantemente para o

desenvolvimento desse domínio.

Page 120: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

120

Figura 48: A Multidisciplinaridade do Design de Interfaces

Fonte: (PASSOS, 2008, p. 37)

Page 121: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

121

REFERÊNCIAS BIBLIOGRÁFICAS

3GEARSYSTEMS. (2012). Get Started. Retrieved 2013 йил 09-03 from 3GearSystems:

http://www.threegear.com/getStarted.html

ACOHIDO, B. (06 de 03 de 2013). Kinect palm gesture controls coming. Acesso em 17 de 03 de 2013,

disponível em USA Today: http://www.usatoday.com/story/tech/2013/03/05/microsoft-techfest-

2013-kinect-hand-gestures-machine-learning/1965931/

ADVENTURE, E. (2007). Video Games Evolve: A Brief History from Spacewars! to MMORPGs.

Retrieved 2012 йил 05-08 from Economic Adventure:

http://www.economicadventure.org/pdfs/video_games_brochure.pdf

AMARAL, V. M. (2012). Sistema de transcrição da língua brasileira de sinais voltado à produção de

conteúdo sinalizado por avatares 3D. Tese (Doutorado em Engenharia Elétrica) – Faculdade de

Engenharia Elétrica e de Computação, Universidade de Campinas, SP .

ARMSTRONG, D. F., STOKOE, W. C., & WILCOX, S. E. (1995). Gesture and the Nature of Language.

Cambridge University Press.

BHUIYAN, M., & PICKING, R. (2009). Gesture-controlled user interfaces, what have we done and

what’s next? Proceedings of the Fifth Collaborative Research Symposium on Security, E-learning,

Internet and Networking .

BIRDWHISTELL, R. L. (1963). Body Signals: Normal & Pathological. American Psychological

Association.

________. (1952). Introduction to Kinesics: An Annotated System for Analysis of Body Motion ad

Gesture. University of Louisville.

________. (1970). Kinesics and Context: Essays on Body Motion Communication. New York:

University of Pennsylvania Press.

BOLT, R. A. (1980). Put that there: voice and gesture. ACM SIGGRAPH Computer Graphics , pp. 262-

270.

BONINO, R. (2007). Os sotaques dos sinais. Revista Língua Portuguesa , 28-33.

BOWMAN, D. A., KRUIJFF, E., LAVIOLA, J. J., & Ivan, P. (2005). D User Interfaces: Theory and Practice.

Pearson.

BRASIL. (2002). BRASIL. Lei Nº 10.436, de 24 de abril de 2002. Dispõe sobre a Língua Brasileira de

Sinais - Libras e dá outras providências. Diário Oficial [da República Federativa do Brasil], Brasília, DF.

BRITO, L. F. ([200.]). Surdo.org. Retrieved 2010 йил 27-Agosto from Estrutura Linguistica de LIBRAS.:

http://www.ines.gov.br/ines_livros/35/35_PRINCIPAL.HTM

Page 122: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

122

BUCKWALD, M. (2012 йил 20-05). Demonstração para a CNET. (CNET, Interviewer)

CACTUS, F. (n.d.). Fishing Cactus. Retrieved 2012 йил 02-09 from Fishing Cactus presents R.O.G.E.R,

the first Medical Kinect Serious game: http://blog.fishingcactus.com/index.php/2010/10/07/fishing-

cactus-presents-r-o-g-e-r-the-first-medical-kinect-serious-game/

CAMPELLO, A. R. (2007). Pedagogia Visual / Sinal na Educação de Surdos. In R. M. QUADROS, & G.

PERLIN, Estudos Surdos II (pp. 101-131). Rio de Janeiro: Arara Azul.

CHOMSKY, N. (2005). Novos Horizontes no estudo da linguagem e da mente. UNESP.

CLEMENTE, A. C., & SILVA, A. C. (2006). Agir pela inclusão: ação social pelo acesso de pessoas com

deficiência ao mercado de trabalho. Osasco: Ed. do Autor.

COMPUTADOR. (n.d.). WIKIPÉDIA, a enciclopédia livre. Retrieved 2012 йил 4-7 from

http://pt.wikipedia.org/w/index.php?title=Computador&oldid=34129569

Computer History Museum. (n.d.). Retrieved 2012 йил 05-08 from http://www.computerhistory.org/

COMUNICAÇÃO, A. (2010 йил 18-09). Notícias Unisanta. Retrieved 2012 йил 02-09 from Fisioterapia

Unisanta inaugura serviço que utiliza videogame para recuperação:

http://noticias.unisanta.br/saude/fisioterapia-unisanta-inaugura-servico-que-utiliza-videogame-para-

recuperacao/

CONCI, A., LETA, F., & AZEVEDO, E. (2008). Computação Gráfica: teoria e prática, vol. 2. Rio de

Janeiro: Campus.

COOPER, H., ONG, E.-J., PUGEAULT, N., & BOWDEN, R. (2011). Sign Language Recognition. In T. B.

MOESLUND, A. HILTON, V. KRÜGER, & L. SIGAL, Visual Analysis of Humans: Looking at People (pp.

539-562). Springer.

DERPANIS, K., WILDES, R. P., & TSOTSOS, J. K. (2004). Hand Gesture Recognition within a Linguistics-

Based Framework. EUROPEAN CONFERENCE ON COMPUTER VISION , pp. 282-296.

DICIONÁRIO, S. I. (n.d.). Retrieved 2012 йил 23-11 from www.uol.com.br/michaelis

DORNER, B. (1994). Chasing the Colour Glove: Visual Hand Tracking. Dissertação (Mestrado em

Ciência) – Faculdade de Ciência da Computação Simon Fraser University .

ECO, U. (1976). Tratado de Semiótica Geral. (A. &. Danesi, Trans.) São Paulo: Ed. Perspectiva.

EDUCATION, M. (n.d.). MICROSOFT. Retrieved 2012 йил 02-09 from School activity plans:

http://www.microsoft.com/education/en-us/products/Pages/kinect.aspx#3

EKMAN, P., & FRIESEN, W. V. (1972). Hand Movements. Journal of Communication , 353-374.

ENGADGET. (2012 йил 25-05). Leap Motion gesture control technology hands-on . Retrieved 2012

йил 02-12 from Engadget: http://www.engadget.com/2012/05/25/leap-motion-gesture-control-

technology-hands-on/

Page 123: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

123

FEI, H., & REID, I. (2003). IEEE INTERNATIONAL WORKSHOP ON ANALYSIS AND MODELING OF FACES

AND GESTURES.

FELIPE, T. A. (2007). Libras em Contexto : Curso Básico : Livro do Estudante. Rio de Janeiro: WalPrint

Gráfica e Editora.

FELIPE, T. A., & MONTEIRO, M. S. (2006). Libras em Contexto: Curso Básico: Livro do Professor.

Ministério da Educação, Secretaria de Educação Especial.

FERREIRA, V. F. (2011 йил 22-12). Professor da EACH estuda benefícios de jogos virtuais para

deficientes. Retrieved 2012 йил 02-09 from USP: http://www5.usp.br/4759/livro-de-professor-da-

each-estuda-beneficios-de-jogos-virtuais-para-deficientes/

GAMES, T. (n.d.). Wii é usado para reabilitação de pacientes em hospital. Retrieved 2012 йил 02-09

from Mundo Fisio: https://www.mundofisio.com/Noticias/wii-e-usado-para-reabilitacao-de-

pacientes-em-hospital.html

gesto. Michaelis Moderno Dicionário da Língua Portuguesa. Melhoramentos.

GOMES, N. R. (2000). Reconhecimemto de palavras manuscritas baseado em HMM e no emprego de

caracteristicas topologicas e geometricas. Trabalho de Conclusão de Curso (Graduação) - Faculdade

de Engenharia Elétrica e de Computação UNICAMP .

HOLZ, D., & BUCKWALD, M. (2012 йил 25-05). Leap Motion gesture control technology hands-on.

(Engadget, Interviewer)

HUANG, H., & LAI, H.-H. (2008). Factors influencing the usability of icons in the LCD touchscreen.

Displays , 339–344.

JANUÁRIO, G. C., LEITE, L. A., & KOGA, M. L. (2010). POLI-LIBRAS Um Tradutor de Português para

LIBRAS. Trabalho de Conclusão de Curso (Graduação em Engenharia da Computação) - POLI-USP . São

Paulo.

JANUARIO, G. C., LEITE, L. A., KOGA, M. L., & JOSE NETO, J. (2011). Análise de Gramáticas Inferidas

usando Adaptatividade aplicadas em Linguagens Naturais. Workshop de Tecnologia Adaptativa - WTA

2011 .

JONHSON, L., SMITH, R., WILLIS, H., LEVINE, A., & HAYWOOD, K. (2011). The 2011 Horizon Report.

Austin, Texas: The New Media Consortium.

KAPITANIUK, R. B. (2011). Cognição, cultura e funções sígnicas: uma análise da mediação semiótica

no desenvolvimento histórico, social e linguístico do sujeito surdo. Ciências & Cognição 2011 , pp. 50-

64.

KENDON, A. (2000). Language and gesture: unity or duality? In D. McNeill, Language and Gesture

edited by David McNeill (pp. 47-63). Cambridge University Press.

KIM, D., HILLIGES, O., IZADI, S., BUTLER, A. D., CHEN, J., OIKONOMIDIS, I., et al. (2012). Digits:

freehand 3D interactions anywhere using a wrist-worn gloveless sensor. Proceedings of the 25th

annual ACM symposium on User interface software and technology , pp. 167-176.

Page 124: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

124

KLIMA, E. S., & BELLUGI, U. (1979). The Signs of Language. Cambridge: Harward University Press.

KUNDU, A., YANG, H., & PARAMVIR, B. (1989). Recognition of Handwritten Word: First and Second

Order Hidden Markov Model Based Approach. Computer Vision and Pattern Recognition , pp. 457-

462 .

KURODA, T., TABATA, Y., GOTO, A., IKUTA, H., & MURAKAMI, M. (2004). Consumer price data-glove

for sign language recognition . Proc. 5th Intl Conf. Disability, Virtual Reality & Assoc. Tech , pp. 253-

258.

LANG, S. (2011). Sign Language Recognition with Kinect. Acesso em 08 de 03 de 2013, disponível em

Freie Universität Berlin: http://page.mi.fu-berlin.de/block/abschlussarbeiten/Bachelor-Lang.pdf

LEAPMOTION. (2012). Leap Motion. Retrieved 2012 йил 02-12 from https://leapmotion.com/about

LÉVY, P. (1993). As Tecnologias da Inteligência: O Futuro do Pensamento na Era da Informática. Rio

de Janeiro: 34.

LIDDELL S. (2000). Blended Spaces and Deixis in Sign Language. In D. MCNEILL, Language and

Gesture.

________. (2003). Grammar, Gesture, and Meaning in American Sign Language. Cambridge.

________. (1995). Real, surrogate, and token space: grammatical consequences in ASL. In E. &.

Reikky.

________. (1994). Tokens and surrogates. In Ahlgren et al (pp. 105-119).

LIDDELL, S., & JOHNSON, R. (1989). American Sign Language: the phonological base. In Sign Language

Studies (pp. 195-277).

LOEDING, B. L., SARKAR, S., PARASHAR, A., & KARSHMER, A. I. (2004). Progress in Automated

Computer Recognition of Sign Language. Computers Helping People with Special Needs Lecture Notes

in Computer Science Volume 3118, (pp. 1079-1087).

LOUZADA, J. A. (2010). Reconhecimento Automático da Fala por Computador. Trabalho de Conclusão

de Curso (Graduação) - Pontifícia Universidade Católica de Goiás .

MARCEL, S. (2002). Gestures for Multi-Model Interfaces: A Review. Retrieved 2012 йил 03-12 from

IDIAP Research Report: http://publications.idiap.ch/downloads/reports/2002/rr02-34.pdf

MICROSOFT. (2012). Human Interface Guidelines. From Kinect for Windows:

http://www.kinectingforwindows.com/2012/10/08/human-interface-guidelines/

MURRAY, J. (1997). Hamlet no Holodeck - o Futuro da Narrativa no Ciberespaço. New York: Free

Press.

MYO. (2013). Retrieved 2013 йил 02-03 from MYO: https://getmyo.com/

NORMAN, D. (2010). Natural user interfaces are not natural. Interactions , 6-10.

Page 125: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

125

NÖTH, W. (1995). Handbook of Semiotics. Indiana University Press .

NUI. (2009). NUI Group. Retrieved 2012 йил 07-08 from http://nuigroup.com/faq

OLIVEIRA, L. E., & MORITA, M. E. (1998). Introdução aos Modelos Escondidos de Markov (HMM).

From Departamento de Informática - Universade Federal do Paraná:

http://www.inf.ufpr.br/lesoliveira/download/intro-hmm.pdf

PASSOS, R. F. (2008). O Design da Informação em Interfaces de Hipermídias. Dissertação (Mestrado

em Design) – Universidade Anhembi Morumbi . São Paulo.

PAUL, D. B. (1990). Speech Recognition Using Hidden Markov Models. The Lincoln Laboratory Journal,

Volume 3, Number 1 , pp. 41-62.

PEEK, B. (n.d.). Brian Peek. Retrieved 2012 йил 02-09 from http://www.brianpeek.com/page/net-

based-wiimote-applications

PIZZUTO, E., ROSSINI, P., SALLANDRE, M.-A., & WILKINSON, E. (2006). Dêixis, anáfora e estruturas

altamente icônicas: evidências interlingüísticas nas línguas de Sinais Americana (ASL), Francesa (LSF)

e Italiana (LIS). In R. M. QUADRO, & M. L. VASCONCELLOS, Questões Teóricas das Pesquisas em

Línguas de Sinais (pp. 140-158). Arara Azul.

POISSANT, L. (2009). A passagem do material para a interface. In D. DOMINGUES, Arte, ciência e

tecnologia: passado, presente e desafios (pp. 71-90).

POIZNER, H., KLIMA, E. S., & BELLUGI, U. (1987). What the Hands Reveal about the Brain. Cambridge,

MA: MIT Press.

PORTAL DE LIBRAS. (2010). Língua Brasileira de Sinais. Retrieved 2010 йил 27-Agosto from Portal de

LIBRAS: http://www.libras.org.br/libras.php

POYATOS, F. (1981). Gesture Inventories. In A. KENDON, Nonverbal communication, interaction, and

gesture. Mouton Publishers.

________. (1983). New Perspectives in Nonverbal Communication: Studies in Anthropology, Social

Psychology, Linguistics, Literature, and Semiotics. Oxford: Pergamon Pres.

________. (1974). Paralanguage: a linguistic and interdisciplinary approach to interactive speech and

sound. John Benjamins Publishing.

PREECE, J., YVONE, R., & HELEN, S. (2005). Design de Interação: além da interação homem-

computador. Porto Alegre: Bookman.

PRODEAF. (2012). Retrieved 2013 йил 23-02 from ProDeaf: http://www.prodeaf.net/solucoes

QUINTANA, G. H. (2011). Games e Terceira Idade: um Estudo de Caso com o Wii Sports. Dissertação

(Mestrado em Tecnologias da Inteligência e Design Digital) – Pontifícia Universidade Católica de São

Paulo .

RABINER, L. R. (1989). A Tutorial on Hidden Markov Models and Selected Applications in Speech

Recognition. Proceedings of the IEE, vol. 77 no. 2 , pp. 257-286.

Page 126: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

126

RAMOS, C. R. (2009). Libras como Segunda Língua para Ouvintes: UMA PROPOSTA DE INCLUSÃO.

Retrieved 2012 йил 12-07 from Editora Arara-Azul: Revista Virtual de Cultura Surda e Diversidade:

http://www.editora-arara-azul.com.br/revista/04/compar3.php

RIGOLL, G., KOSMALA, A., & EICKELER, S. (1998). High Performance Real-Time Gesture Recognition

Using Hidden Markov Models . Lecture Notes in Computer Science Volume 1371 , pp. 69-80.

ROCHA, C. S. (2009). Pontes, janelas e peles: contexto e perspectivas taxionômicas das interfaces

computacionais. (Pós Doutorado em Tecnologias da Inteligência e Design Digital) - Pontifícia

Universidade Católica . São Paulo.

SÁ, R. G. (2011). Construindo uma DSL para reconhecimento de gestos utilizando Kinect. Trabalho de

Conclusão de Curso (Graduação) - Universidade Federal de Pernambuco .

SAFFER, D. (2008). Designing Gestural Interfaces. O’Reilly Media.

SANTAELLA, L. (1992). A Assinatura das coisas: Peirce e a Literatura. Rio de Janeiro: Imago Ed.

________. (2001). Matriz da linguagem e pensamento. Sonora, visual, verbal. Aplicações na

Hipermídia. São Paulo: Iluminuras/FAPESP.

________. (1983). O que é Semiótica. Brasiliense.

________. (2012). Percepção: fenomenologia, ecologia, semiótica. São Paulo: Cencage Learning.

SANTOS, G., SILVEIRA, M., & ALUÍSIO, S. (2009). Produção de Textos Paralelos em Língua Portuguesa

e uma Interlíngua de LIBRAS. CSBC 2009 - XXIX Congresso da Sociedade Brasileira de Computação ,

pp. 371-385.

SAUSSURE, F. d. (1857-1913). Curso de Linguistica Geral. From

http://uepaingles1.files.wordpress.com/2011/03/curso-de-linguc3adstica-geral-saussure1.pdf

SEGUNDO, R., BARRA, R., CORDOBA, R., L., D., FERNANDES, F., FERREIROS, J., et al. (2008). Speech to

sign language translation system for Spanish. Speech Communication , pp. 1009-1020.

sinal. Michaelis Moderno Dicionário da Língua Portuguesa. Melhoramentos.

SOFKINETIC. (2012). SoftKinetic's Software Development Kit & Tools. Retrieved 2012 йил 30-11 from

SOFKINETIC: http://www.softkinetic.com/Portals/0/Documents/PDF/iisu3.0_Datasheet_V1.7.pdf

________. (n.d.). SOFTKINETIC. Retrieved 2012 йил 30-11 from About Us:

http://www.softkinetic.com/en-us/aboutus.aspx

STEFANES, I. (2006). Léxico: Fonte de Resgate Histórico. XI Simpósio Nacional e I Simpósio

Internacional de Letras e Lingüística (XI SILEL), (pp. 1412-1418). Universidade Federal de Uberlândia.

STOKOE, W. C. (2000). Gesture to sign (language). In D. McNeill, Language and Gesture . Cambridge

University Press.

________. (1960). Sign Language Structure: An Outline of the Visual Communication Systems of the

America Deaf. University of Buffalo.

Page 127: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

127

STURMAN, D. J., & ZEITZER, D. (1994). A survey of glove-based input. Computer Graphics and

Applications, IEEE , pp. 30-39.

TAKAHASHI, D. (13 de 09 de 2012). Magic fingers: SoftKinetic is at the core of Intel’s ‘perceptual

computing' technology. Acesso em 17 de 03 de 2013, disponível em Venture Beat:

http://venturebeat.com/2012/09/13/magic-fingers-softkinetic-is-at-the-core-of-intels-perceptual-

computing-technology-video-demo/

TARRATACA, L. D. (2008). A gesture recognition System using smartphones. Dissertação (Mestrado

em Sistemas de Informação e Engenharia da Computação) – Universidade Técnica de Lisboa .

TAVARES, O., CORADINE, L., & BREDA, W. (2005). Falibras-MT - Autoria de tradutores automáticos de

textos do português para LIBRAS, na forma gestual animada: Uma abordagem com memória de

tradução. XXV Congresso da Sociedade Brasileira de Computação , pp. 2099-2107.

TERMAN, L. M. (1926). Genetic Studies Of Genius Mental And Physical Traits Of A Thousand Gifted

Children (Vol. I). Stanford University Press.

TERRENGHI, L., KIRK, D., SELLEN, A., & IZADI, S. (2007). Affordances for manipulation of physical

versus digital media on interactive surfaces. Proceedings of the SIGCHI Conference on Human Factors

in Computing Systems , 1157-1166 .

TRAVASSOS, L. C. (2001). INTELIGÊNCIAS MÚLTIPLAS. REVISTA DE BIOLOGIA E CIÊNCIAS DA TERRA , 1.

TRIGO, T. R. (2010). Classificador de Gestos das Mãos Baseado em Imagens para Aplicação em

Interface. Dissertação (Mestrado em Informática) – Instituto Tecnológico de Aeronáutica . São José

dos Campos.

TURKLE, S. (1995). The life on the screen: Identity in the Age of the Internet. New York: Simon and

Schuster.

TYSON, M. (n.d.). Wii-hab: Veterans Get More Than Fun With Wii Rehab. Retrieved 2012 йил 10-08

from United States Department of Veterans Affairs:

http://www.va.gov/health/NewsFeatures/20100308a.asp

VALVERDE, R. N., PEREIRA, F. G., & VASSALLO, R. F. (2011). Reconhecimento de Gestos Dinâmicos

Usando Modelos Ocultos de Markov para Interação Homem Máquina. Simpósio Brasileiro de

Automação Inteligente , pp. 438-443.

VERTEGAAL, R. B., & POUPYREV, I. (2008). Organic user interfaces. Communications of the ACM , pp.

26-30.

VIEIRA, M. I. (2009). Apostila de LIBRAS. São Paulo: Escola Especial de Educação Básica da

DERDIC/PUCSP.

VILLANI, N. A. (2008). 3D Rendering of American Sign Language Finger-Spelling: A Comparative Study

of Two Animation Techniques. International Journal of Human and Social Sciences , pp. 314-319.

Page 128: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

128

VIOTTI, E. (2007). LIBRAS UFSC. Retrieved 2012 йил 12-07 from Introdução aos Estudos Lingüísticos:

http://www.libras.ufsc.br/hiperlab/avalibras/moodle/prelogin/adl/fb/logs/Arquivos/textos/introduc

ao_aos_estudos_linguisticos/1_O%20que%20%E9%20lingu%EDstica.pdf

VLOGER, C., & METAXAS, D. (2000). A Framework for Recognizing the Simultaneous Aspects of

American Sign Language. From Computer Vision and Image Understanding:

http://luthuli.cs.uiuc.edu/~daf/courses/appcv/papers-4/science-5.pdf

WANG, R. Y., & POPOVIC, J. (2009). Real-time hand-tracking with a color glove. ACM Transactions on

Graphics (TOG) - Proceedings of ACM .

WANG, R., PARIS, S., & POPOVIC, J. (2011). Practical Color-Based Motion Capture. Proceedings of the

2011 ACM SIGGRAPH/Eurographics Symposium on Computer Animation , pp. 139-146.

WU, Y., & HUANG, T. S. (1999). Capturing Articulated Human Hand Motion: A Divide-and- Conquer

Approach. The Proceedings of the Seventh IEEE International Conference on Computer Vision .

________. (1999). Human Hand Modeling, Analysis and Animation in the Context of HCI. IEEE

International Conference Image Processing .

________. (1999). Vision-Based Gesture Recognition: A Review. (R. G. Annelies Braffort, Ed.)

Proceedings of the International Gesture Workshop on Gesture-Based Communication in Human-

Computer Interaction (GW '99) , pp. 606-611.

YANG, J., & XU, Y. (1994). Hidden Markov Model for Gesture Recognition. From The Robotic Institute:

http://www.ri.cmu.edu/pub_files/pub3/yang_jie_1994_1/yang_jie_1994_1.pdf

YNOGUTI, C. A. (1999). Reconhecimento de Fala Contínua Usando Modelos Ocultos de Markov. Tese

(Doutorado em Engenharia) – Faculdade de Engenharia Elétrica e de Computação da Universidade

Estadual de Campinas .

Page 129: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

129

APÊNDICES

Glossário de gestos de interfaces multitouch

Convencionalmente, há gestos padrões para certos tipos de interações em

interfaces multitouch. Abaixo, temos alguns deles (SAFFER, 2009):

Toque Arrastar

A ponta do dedo ou parte dele encosta-se à

superfície brevemente (<100 milissegundos). Um

toque duplo ativa esse gesto duas vezes,

rapidamente, com uma pausa menor <75

milissegundos entre os dois contatos. Usado para

apertar botões e seleção.

A ponta do dedo ou parte dele se movimenta pela

superfície sem perder contato com a mesma. Usado

para eventos pegue-e-solte e navegação do tipo

scroll.

Atirar Cutucar

Esse gesto pode ser executado de duas formas. Na

primeira, o dedo inicia ligeiramente curvado, e, sem

perder contato, o dedo pincela a superfície levemente

(<75 milissegundos), até que o dedo se estique. O

segundo movimento é o reverso: o dedo inicia reto e

se curva. Usado para mover objetos rapidamente ou

navegar por scroll.

A ponta de um dedo desliza levemente (<2 segundos)

para frente. Usado para mover objetos.

Page 130: Interfaces Naturais e o Reconhecimento das Línguas de Sinais · Nas novas interfaces, por meio do uso do corpo, o usuário interage com o computador, não sendo necessário aprender

130

Beliscar Espalhar

Dois dedos (geralmente o polegar e o indicador de

uma mesma mão, podendo ser ainda qualquer outros

dedos, inclusive de mãos diferentes) movem-se de

encontro um ao outro. Usado para tirar zoom de um

elemento gráfico (escala).

Dois dedos (geralmente o polegar e o indicador de

uma mesma mão, podendo ser ainda qualquer outros

dedos, inclusive de mãos diferentes) movem-se de

encontro um ao outro. Usado para dar zoom em um

elemento gráfico (escala).

Segurar

A ponta do dedo ou parte dele é pressionado contra a

superfície por um período estendido de tempo.

Também chamado de pressionar. Usado para

selecionar ou estender a navegação por scroll.