sumarização automática de vídeos de futebol baseada em...

103

Upload: others

Post on 17-Oct-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

  • Universidade Estadual de CampinasInstituto de Computação

    INSTITUTO DECOMPUTAÇÃO

    Nielsen Cassiano Simões

    Sumarização Automática de Vídeos de Futebol Baseada

    em Ritmo Visual

    CAMPINAS

    2018

  • Nielsen Cassiano Simões

    Sumarização Automática de Vídeos de Futebol Baseada em

    Ritmo Visual

    Tese apresentada ao Instituto de Computaçãoda Universidade Estadual de Campinas comoparte dos requisitos para a obtenção do títulode Doutor em Ciência da Computação.

    Orientador: Prof. Dr. André SantanchèCoorientador: Prof. Dr. Neucimar Jerônimo Leite (in memorian)

    Este exemplar corresponde à versão �nal daTese defendida por Nielsen Cassiano Simõese orientada pelo Prof. Dr. André Santanchè.

    CAMPINAS

    2018

  • Agência(s) de fomento e nº(s) de processo(s): CAPESORCID: https://orcid.org/0000-0001-9103-2355

    Ficha catalográficaUniversidade Estadual de Campinas

    Biblioteca do Instituto de Matemática, Estatística e Computação CientíficaMárcia Pillon D'Aloia - CRB 8/5180

    Simões, Nielsen Cassiano, 1976- Si45s SimSumarização automática de vídeos de futebol baseada em ritmo visual /

    Nielsen Cassiano Simões. – Campinas, SP : [s.n.], 2018.

    SimOrientador: André Santanchè. SimCoorientador: Neucimar Jerônimo Leite. SimTese (doutorado) – Universidade Estadual de Campinas, Instituto de

    Computação.

    Sim1. Sumarização automática. 2. Vídeo digital. 3. Futebol. 4. Ritmo visual. I.

    Santanchè, André, 1968-. II. Leite, Neucimar Jerônimo, 1961-2016. III.Universidade Estadual de Campinas. Instituto de Computação. IV. Título.

    Informações para Biblioteca Digital

    Título em outro idioma: Automatic soccer video summarization based on visual rhythmPalavras-chave em inglês:Automatic summarizationDigital videoSoccerVisual rhythmÁrea de concentração: Ciência da ComputaçãoTitulação: Doutor em Ciência da ComputaçãoBanca examinadora:André Santanchè [Orientador]Jefersson Alex dos SantosFábio Augusto FariaRicardo Machado Leite de BarrosHélio PedriniData de defesa: 15-08-2018Programa de Pós-Graduação: Ciência da Computação

    Powered by TCPDF (www.tcpdf.org)

  • Universidade Estadual de CampinasInstituto de Computação

    INSTITUTO DECOMPUTAÇÃO

    Nielsen Cassiano Simões

    Sumarização Automática de Vídeos de Futebol Baseada em

    Ritmo Visual

    Banca Examinadora:

    • Prof. Dr. André SantanchèIC / UNICAMP

    • Prof. Dr. Jefersson Alex dos SantosDep. de Ciência da Computação / UFMG

    • Prof. Dr. Fábio Augusto FariaUniversidade Federal de São Paulo

    • Prof. Dr. Ricardo Machado Leite de BarrosFEF / UNICAMP

    • Prof. Dr. Hélio PedriniIC / UNICAMP

    A ata da defesa com as respectivas assinaturas dos membros da banca encontra-se noSIGA/Sistema de Fluxo de Dissertação/Tese e na Secretaria do Programa da Unidade

    Campinas, 15 de agosto de 2018

  • Agradecimentos

    Antes de tudo, agradecer a Deus pelo dom da vida e por me guiar em todos os dias deminha vida;

    Ao meu orientador, prof. André, pelo seu incentivo, dedicação, dicas, ensinamento epelo grande amigo que é;

    Ao meu coorientador, prof. Neucimar, que deixou saudades ao partir, mas que mefez acreditar que eu sempre podia ir além, pelos ensinamentos e o constante incentivocultural, e por me introduzir ao francês, a Paris e a França;

    Agradeço à minha esposa Priscila, meus �lhos Frederico e Vítor, pela compreensão daminha ausência quando necessária, pelo amor e carinho nos momentos juntos;

    Agradeço aos meus pais, que sempre me incentivaram nos estudos e investiram emminha educação com o melhor que podiam, pelo que sou hoje e pelo o que posso fazermeus �lhos serem no futuro;

    Agradeço a meu irmão, Nemer, e minha quase irmã, Nilceia, porque sempre acredi-taram em mim, e meu amigo Raimundo Cláudio, compartilhando conhecimento e sofri-mento, mas sempre incentivando um ao outro;

    À Profa. Cláudia, pela sua dedicação com seus orientando, que desde o meu mestradome mostrou como é importante compartilhar conhecimentos, os desa�os e a pujança;

    Aos companheiros e ex-companheiros de LIS, que sempre compartilharam conhecimen-tos, permitindo excelentes debates, sempre incentivando uns aos outros e sempre dandouma pausa para o café;

    Aos amigos que �z no IC, a todos os professores com quem tive o prazer de estudar econversar, aos funcionários dedicados que, direta ou indiretamente contribuíram com estetrabalho;

    À CAPES e CPNq, pelo apoio �nanceiro e por acreditarem no Instituto de Computa-ção, na Unicamp e na pesquisa acadêmica.

  • Resumo

    Apesar da crescente importância da sumarização de vídeos frente a crescente quantidadede vídeos disponíveis, o processo manual de sumarização é custoso e lento. Este trabalhoapresenta framework para sumarização automática de vídeos de futebol baseados no pa-drão brasileiro de transmissão, i.e., em vez de se basear em logos e replays que enfatizamos eventos relevantes � um padrão comum nas transmissões dos EUA e Europa � ele ana-lisa a dinâmica da transmissão. Diferentemente dos trabalhos relacionados, a abordagemdeste trabalho representa explicitamente o conhecimento necessário para customizar o fra-mework para um domínio especí�co, permitindo futuras expansões até mesmo para outrosesportes. Ele explora o ritmo visual como uma estratégia chave para a detecção automá-tica de eventos, sendo também adequado para ser customizado por esta abordagem deparametrização explícita. Além disso, ele também faz uso de key-frames como alternativapara reduzir a quantidade de dados a serem analisados. Utilizando o conceito de dinâmicado padrão brasileiro para a transmissão de vídeos de futebol, realizou-se uma validaçãocom usuários. Os resultados obtidos foram satisfatórios, em que 62% consideraram osresumos automáticos relevantes em relação aos segmentos de vídeo originais.

  • Abstract

    Despite the increasing importance of video summarization versus the increasing numberof videos available, the manual summarization process is costly and time-consuming. Thiswork presents a framework for automatic summarizing soccer videos based on the Brazi-lian standard transmission, i.e., instead of relying on logos and replays that emphasizesrelevant events � a common standard in the USA and European transmissions � it analyzesthe transmission dynamics. Di�erent from related work, this approach explicitly repre-sents the knowledge necessary to customize the framework to a speci�c domain, enablingfuture expansions even for other sports. It exploits the visual rhythm as a key strategyto automatically detect events, being also suitable to be customized by this explicit para-metrization approach. Moreover, it also uses key-frames as an alternative to reduce theamount of data to be analyzed. Using the concept of dynamics of the Brazilian patternsfor the transmission of soccer videos, a validation was performed with users. The resultswere satisfactory, in which 62% of the users considered the automatic summaries relevantcompared to the original video segments.

  • Lista de Figuras

    2.1 Estrutura de um vídeo digital: a) física e b) lógica. . . . . . . . . . . . . . 172.2 Principais processos da análise de vídeo digital [75]. . . . . . . . . . . . . . 182.3 Exemplo da geração da imagem de ritmo visual utilizando uma linha ver-

    tical central de cada quadro de um vídeo. . . . . . . . . . . . . . . . . . . . 212.4 Imagem de ritmo visual de um segmento de vídeo de futebol televisivo. . . 212.5 Imagens de Ritmo Visual de um segmento de comercial utilizando: a) co-

    luna central dos quadros, b) histograma e c) histograma acumulado (fonte:Simões [75]) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    2.6 Curva zig-zag (a) como função de transformação para o Ritmo Visual (b)(Fonte: Valio et al. [87]). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    2.7 Utilização de DVEs entre segmentos de replay em um vídeo [9]. . . . . . . 272.8 Algoritmo para detecção de eventos apresentado por Li et al. [53, 54]. . . . 292.9 Framework baseado em HMM para detecção de eventos [96]. . . . . . . . . 302.10 Visão geral do sistema de análise estrutural de vídeos de esportes [43]. . . . 302.11 Estrutura de um jogo de tênis [43]. . . . . . . . . . . . . . . . . . . . . . . 312.12 Hierarquia do conteúdo de vídeos televisivos de tênis [43]. . . . . . . . . . . 312.13 Sistema para detecção de eventos em futebol [23]. . . . . . . . . . . . . . . 322.14 Modelo hierárquico para sumarização de vídeos de esporte baseado em play

    e break Tjondronegoro et al. [83]. . . . . . . . . . . . . . . . . . . . . . . . 33

    3.1 Framework para sumarização de vídeos de esporte televisivos. . . . . . . . 37

    4.1 Exemplo dos quatro tipos de visão utilizados em um jogo de futebol. . . . 444.2 Dinâmica para eventos em jogos de futebol no padrão europeu e americano.

    Os segmentos de A a I identi�cam a sequência de diferentes tipos de visãoentre duas visões longas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

    4.3 Dinâmica para eventos em jogos de futebol no Brasil. Os segmentos de Aa I identi�cam a sequência de diferentes tipos de visão entre duas visõeslongas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

    4.4 Tarefas para o processo de seleção de tomadas em jogos de futebol. . . . . 464.5 Subamostragem do espaço HSV para a redução de cor [77]. . . . . . . . . . 484.6 Exemplos da aplicação da redução de cor para jogos de futebol. . . . . . . 494.7 Imagem de ritmo visual utilizando a coluna central de cada quadro para

    um segmento de vídeo de futebol televisivo. . . . . . . . . . . . . . . . . . 494.8 Imagens MVR e MRVR de seis segmentos de vídeo: a) quadro original; b)

    resultado da redução de cor; c) coluna resultante da moda de cada linhade (b); d) imagens MVR e e) MRVR de cada seguimento. . . . . . . . . . . 51

  • 4.9 Exemplo de quadros com diferentes ângulos de visão: a) classe A, com fortepresença do gramado; b) classe B, com presença do gramado mediana; c)classe C, com baixa ou nenhuma ocorrência do gramado e d) classe D,relativa às tomadas de falhas de transmissão. . . . . . . . . . . . . . . . . . 53

    4.10 Relação entre tipos de visão e as respectivas imagens IMVR e IMRV R. . . . 534.11 Diagrama para anotação semântica da classe relativa à quantidade de gra-

    mado da imagem IMVR. As setas tracejadas representam situações even-tuais de conclusão fraca. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

    4.12 Grá�co das funções de pertinência: a) µ(A), b) µ(B), c) µ(C) e d) µ(D). . 63

    5.1 Resultado da aplicação da redução de cor para a detecção do gramado. . . 665.2 Exemplo da extração de key-frames para um segmento de vídeo de futebol

    utilizando: a) a proposta deste trabalho [77], b) o programa IBM MarvelLite [78]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

    5.3 Relação das demais informações fornecidas pelos usuários: a) gênero, b)faixa etária, c) frequência que assiste a jogos de futebol e d) interesse porjogos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

    5.4 Escala psicométrica de nove pontos utilizada para aferir a impressão dousuário. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

    5.5 Histograma das respostas para o resumo dinâmico. . . . . . . . . . . . . . 715.6 Respostas agrupadas para o resumo dinâmico em baixa, média e alta re-

    presentatividade. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 725.7 Histogramas das respostas para os resumos estáticos. . . . . . . . . . . . . 725.8 Respostas agrupadas para os resumos estáticos em baixa, média e alta re-

    presentatividade: storyboards a) abordagem deste trabalho e b) abordagemde Almeida et al. [4] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

    A.1 Página Inicial para registro na Avaliação de Resumo de Segmentos de Vídeo. 88A.2 Instruções gerais para a realização da avaliação. . . . . . . . . . . . . . . . 89A.3 Página de preenchimento das informações pessoais para identi�cação e clas-

    si�cação do grupo de usuários avaliados. . . . . . . . . . . . . . . . . . . . 90A.4 Apresentação do segmento de vídeo selecionado para o usuário. . . . . . . . 91A.5 Apresentação do resumo dinâmico relativo ao segmento de vídeo anterior-

    mente selecionado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92A.6 Apresentação dos resumos estáticos relativos ao segmento de vídeo apre-

    sentado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93A.7 Página de agradecimento pela participação na pesquisa. . . . . . . . . . . . 94

  • Lista de Tabelas

    2.1 Nomeclatura e transformações utilizadas pelos principais trabalhos relaci-onados à imagem representiva do vídeo. . . . . . . . . . . . . . . . . . . . 25

    2.2 Síntese dos principais framewroks e aplicações para sumarização de vídeosde esportes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

    4.1 Especi�cação geral do per�l de domínio para jogos de futebol. . . . . . . . 464.2 Tabela Verdade para o conjunto de variáveis fuzzy. . . . . . . . . . . . . . 62

    5.1 Resultado da classi�cação para a anotação semântica [77]. . . . . . . . . . 665.2 Resultado da extração de key-frames [77]. . . . . . . . . . . . . . . . . . . 67

  • Sumário

    1 Introdução 13

    2 Fundamentos e Trabalhos Relacionados 162.1 Fundamentos da análise de vídeo digital . . . . . . . . . . . . . . . . . . . 16

    2.1.1 Métricas de dissimilaridade . . . . . . . . . . . . . . . . . . . . . . 182.1.2 Ritmo Visual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    2.2 Detecção de eventos em vídeos de esportes . . . . . . . . . . . . . . . . . . 252.2.1 Detecção de replays e eventos especí�cos . . . . . . . . . . . . . . . 262.2.2 Sumarização baseada em eventos . . . . . . . . . . . . . . . . . . . 28

    3 Um Framework para sumarização de vídeos 373.1 Detecção de tomadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.2 Especi�cação da natureza do vídeo . . . . . . . . . . . . . . . . . . . . . . 383.3 Seleção de tomadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393.4 Seleção de key-frames . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393.5 Análise intraframe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403.6 Análise de áudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403.7 Classi�cação semântica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.8 Resumo do vídeo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.9 Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    4 Sumarização de jogos de futebol 434.1 Semântica de um jogo de futebol . . . . . . . . . . . . . . . . . . . . . . . 434.2 Seleção de tomadas de jogos de futebol . . . . . . . . . . . . . . . . . . . . 46

    4.2.1 Redução de cor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.2.2 Imagem representativa para jogos de futebol . . . . . . . . . . . . . 494.2.3 Extração de características . . . . . . . . . . . . . . . . . . . . . . . 524.2.4 Anotação semântica . . . . . . . . . . . . . . . . . . . . . . . . . . 554.2.5 Seleção de segmentos . . . . . . . . . . . . . . . . . . . . . . . . . . 56

    4.3 Extração de key-frames . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574.4 Análise intra-frame . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584.5 Classi�cação de Semântica . . . . . . . . . . . . . . . . . . . . . . . . . . . 604.6 Sumarização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

    5 Resultados e Discussão 655.1 Análises empíricas e validações . . . . . . . . . . . . . . . . . . . . . . . . 655.2 Validação da sumarização . . . . . . . . . . . . . . . . . . . . . . . . . . . 685.3 Experimento com usuários . . . . . . . . . . . . . . . . . . . . . . . . . . . 705.4 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

  • 6 Conclusão e Trabalhos Futuros 74

    A Formulário de Avaliação 88

    B Publicação 95

  • 13

    Capítulo 1

    Introdução

    É comum encontrarmos conteúdo multimídia digital em diversas páginas web. O ofere-cimento de vídeo digital pela Internet cresceu principalmente em virtude da redução doscustos tanto de acesso à Internet quanto dos dispositivos de aquisição e armazenamento devídeo. Páginas como MSN Vídeo [57], The Open Video Project [36], PubsTV [71], Yahoo!Video [97], Youtube [100] e muitas outras, oferecem uma grande variedade de vídeos di-gitais que, em alguns casos, estão categorizados por assunto ou conteúdo. Além dessasbibliotecas de vídeos, outras estão sendo construídas para o armazenamento de conteúdoaudiovisual em conjunto com documentos digitalizados, permitindo o acesso instantâneoa seus usuários.

    Com esses diferentes portais de vídeos, conteúdos que anteriormente eram exclusivospara exibição na televisão, hoje também podem ser assistidos no computador, tablet esmartphones. Tanto a TV aberta quanto a paga oferecem diversas opções para permitiracesso ao conteúdo transmitido em seus programas televisivos.

    Apesar da grande quantidade de vídeos disponíveis na Internet, a pesquisa por umconteúdo especí�co no formato visual está diretamente ligada à semântica relacionada aovídeo, anotada de forma automática ou manual antes da sua publicação. Desta forma,a análise de vídeos torna-se necessária tanto para permitir a indexação e recuperaçãode vídeos em grandes bibliotecas digitais [35], como também para aplicações de televisãodigital [19]. Apesar da importância da semântica, trabalhos voltados à detecção de eventose sumarização usualmente não a tratam de forma explícita e sistemática.

    Os vídeos digitais podem ser classi�cados conforme seu gênero, tais como: documen-tários, �lmes, animações, telejornais, esportes, comerciais, etc. Dentre esses diferentestipos de vídeo, existe um grande interesse em vídeos de esporte, especialmente aquelesprovenientes de transmissão televisiva, denominados vídeo de difusão (broadcast videos).Know The Fans, um projeto do grupo PERFORM, especializado em mídia esportiva,a�rma em [56] que 96% dos brasileiros fãs por esporte usam a TV para acompanhar seuesporte preferido. Muito próximo disso, 81% dos fãs por esporte no brasil o acompanhampela Internet e 64% acompanham no local (estádio, ginásio, etc . . . ).

    O interesse de usuários por esportes tem aumentado ano após ano. Em 2014, KnowThe Fans divulgou em The Global Sports Media Consumption Report [56] que no Brasilexitem aproximadamente 58 milhões de adultos fãs de algum esporte, sendo que o Futebolpossui 66% de seguidores, enquanto 43% seguem Voleibol e 39% Fórmula 1. Note que um

  • 14

    usuário pode acompanhar mais de uma modalidade esportiva.Mas não são apenas as transmissões ao vivo as responsáveis pelo interesse dos teles-

    pectadores brasileiros. Muitos programas esportivos são disponibilizados em repositóriose necessitam de informações resumidas das partidas transmitidas. Além disso, essas in-formações são fundamentais para o armazenamento organizado em formato digital, bemcomo sua indexação, possibilitando a recuperação rápida quando necessária. Em geral,essas informações são, atualmente, obtidas por meio de anotações manuais dos vídeos [43].Os portais de notícias esportivos também oferecem os principais segmentos de vídeos rela-cionados a uma partida esportiva (como os gols de uma partida de futebol). Essa grandedemanda por informações esportivas tem transformado os sites especializados em prove-dores de conteúdo de vídeo, tais como GlobEsporte.com [28] e UOL Esportes [25]. Esteconteúdo busca, sobretudo, aumentar a experiência do usuário nos eventos especí�cos decada esporte.

    Vídeos esportivos possuem uma estrutura bem de�nida de seu conteúdo, se compa-rados a vídeos de telejornal, documentários ou �lmes [1, 89]. Cada esporte possui suasregras que permitem de�nir quando uma equipe se sagra vitoriosa em uma partida. Asações de um ou mais jogadores para permitir que sua equipe vença uma partida, ou paraevitar que ela perca, são classi�cadas como um evento daquela modalidade esportiva. Atransmissão de cada um desses eventos comumente é acompanhada por efeitos especí�cosde edição no vídeo, que produz o que se chama de dinâmica de transmissão. Os efeitose a dinâmica seguem alguns padrões de edição de vídeo de�nidos para aquela modali-dade esportiva. Essa dinâmica é produzida a partir de diferentes segmentos de vídeo(provenientes de diferentes câmeras), sua duração e a sequência em que são exibidos.

    Existem esportes nos quais estes eventos são raros, tal como o futebol. Entretanto,em outras modalidades os principais eventos são mais frequentes, como basquete e volei-bol. A maioria dos fãs buscam um resumo com os principais eventos ocorridos em umatransmissão esportiva. Torna-se, então, uma alternativa relevante a recuperação desseseventos, auxiliando também diversos tipos de aplicações de vídeo digital. No Brasil, ví-deos de futebol despertam maior interesse devido à larga escala em que são transmitidos.Em geral, no máximo 60% de um vídeo de futebol representa bola em jogo [92] (algumaatividade das equipes).

    A análise manual de um vídeo digital requer atenção e muito tempo de trabalho. Porconsequência, a ocorrência de incoerências é bastante comum nessa tarefa. Uma vez quea quantidade de vídeos digitais manipulados nas diversas aplicações cresce a cada dia, eque o tempo gasto por um operador para analisar um vídeo é diretamente proporcional àduração deste, é desejável utilizar ferramentas de análise automática que permitam tornareste trabalho mais e�ciente. O objetivo de se utilizar ferramentas de análise automáticade vídeo é tornar este trabalho mais e�ciente, reduzindo essas incoerências.

    Este trabalho tem como objetivo geral realizar a sumarização automática de vídeode futebol televisivos com base na dinâmica de transmissão no padrão brasileiro. Hádiferenças entre essas dinâmicas para os padrões utilizados no Brasil e na Europa ouEstados Unidos, discutidos no Capítulo 3. Resumidamente, a dinâmica internacional édirecionada à ocorrência de replays entre logos, e a brasileira não. Em geral, a maioria dostrabalhos exploram a dinâmica internacional, a começar pela detecção de replays entre

  • 15

    logos.Para atingir esse objetivo, foi necessário de�nir um framework para sumarização de

    vídeos de esporte televisivos e uma modelagem especí�ca para a dinâmica de câmerado padrão de transmissão brasileiro. Como a sumarização de vídeos de esporte tambémrequer que sistemas se baseiem em um conhecimento de domínio, que varia de acordo coma natureza do esporte, o framework proposto também considera a parametrização desseconhecimento de domínio.

    A representação desse conhecimento e a forma como ele afeta a sumarização não éexplícita nos trabalhos analisados. Em alguns deles, esse conhecimento está embutidona codi�cação dos processos de reconhecimento e naqueles baseados em aprendizagem demáquina, este conhecimento precisa ser aprendido a partir de treinamento.

    Percebe-se a importância, nesse trabalho, de se realizar uma caracterização explícitado conhecimento de domínio e do modo como ele atua na construção do sumário. Issopermite que o sistema seja re�nado, customizado para diferenças de contexto e estendidopara outros esportes.

    Como parte desse processo, também foi estudada e generalizada a estratégia paraa seleção de tomadas, que se baseia na construção de imagens representativas a partirde vídeos pelo ritmo visual. Essa generalização permite a adaptação e/ou extensão deprocessos envolvendo o ritmo visual.

    Como será apresentado no Capítulo 5, a partir de uma avaliação dos resultados, ossumários produzidos pela abordagem proposta neste trabalho foram considerados repre-sentativos, demonstrando a relevância do método.

    O restante deste trabalho está dividido da forma: o Capítulo 2 apresenta uma revisãodas técnicas para a detecção de eventos em vídeos de esporte; no Capítulo 3 é propostoum framework para sumarização de vídeos esportivos televisivos; o Capítulo 4 apresentaa aplicação do framework para sumarização de vídeos de futebol televisivos; os resultadossão apresentados e discutidos no Capítulo 5; o Capítulo 6 discute as conclusões destetrabalho e apresenta algumas propostas para trabalhos futuros.

  • 16

    Capítulo 2

    Fundamentos e Trabalhos Relacionados

    Neste capítulo serão apresentados os principais trabalhos correlatos com o tema destatese e os principais conceitos base para este trabalho. A Seção 2.1 dedica-se em explanaros fundamentos relacionados ao processo de análise de vídeo digital e suas aplicações. ASeção 2.2 apresenta trabalhos relacionados à detecção de eventos em esporte.

    2.1 Fundamentos da análise de vídeo digital

    Um vídeo digital pode ser de�nido como uma sequência de imagens (De�nição 2.1)no tempo, sendo cada imagem denominada quadro (De�nição 2.2). Neste trabalho,será utilizado o termo segmento de vídeo (De�nição 2.3) para diferenciar do conceitosemântico de vídeo que será apresentado mais adiante.

    De�nição 2.1 (Imagem Digital): Seja Im uma imagem digital de largura We altura H. Sejam x ∈ [0,W − 1] e y ∈ [0, H − 1], respectivamente, a linha e acoluna de um pixel dessa imagem. Logo, Im(x, y) representa a cor da imagem noponto (x, y).

    De�nição 2.2 (Quadro): Um quadro (frame) é uma imagem de um segmentode vídeo. Seja ft o quadro f do instante t de um segmento de vídeo digital,de�nido como ft(x, y) = Im(x, y), em que x ∈ [0,W − 1] e y ∈ [0, H − 1].

    De�nição 2.3 (Segmento de Vídeo): Um segmento de vídeo V S é toda equalquer sequência de quadros no tempo, da forma V S = (f0, f1, . . . , fK−1), cujotamanho éK. Um segmento está relacionado com o conceito físico de uma sequên-cia de quadros.

    Durante o processo de produção, diversos segmentos de vídeo são utilizados para acomposição do vídeo �nal. Cada um desses segmentos é denominado tomada (De�-

  • 17

    nição 2.4), as quais, quando agrupadas de acordo com suas características grá�cas ousemânticas, constituem uma cena (De�nição 2.5). Dessa forma, o conceito de vídeo di-gital deste trabalho está associado à composição semântica do vídeo, i.e., a um conjuntode segmentos semanticamente relacionados, conforme De�nição 2.6.

    De�nição 2.4 (Tomada): Uma tomada é um segmento de vídeo registrado poruma câmera por um intervalo de tempo sem interrupção. Uma tomada S é de�nidacomo: S = (f0, . . . , fK−1) como uma sequência de K quadros consecutivos.

    De�nição 2.5 (Cena): Uma cena é uma sequência de tomadas cujas caracte-rísticas grá�cas e semânticas estão relacionadas. Portanto, uma cena C é de�nidacomo C = (S0, S1, . . . , SL−1).

    De�nição 2.6 (Vídeo Digital): Neste trabalho, um vídeo digital é de�nidocomo uma sequência de L segmentos, da forma V = (V S0, V S1, . . . , V SL−1), cujotamanho N =

    ∑L−1i=0 Ki, em que Ki é o número de quadros do segmento V Si.

    A Figura 2.1 ilustra os conceitos físico e lógico de vídeo digital. A de�nição de seg-mento de vídeo está associada ao conceito físico (Figura 2.1a), que neste trabalho serádenominado segmento de vídeo. O conceito lógico está relacionado (Figura 2.1b) estárelacionado à de�nição de vídeo digital.

    a) b)

    Figura 2.1: Estrutura de um vídeo digital: a) física e b) lógica.

    A análise de vídeo digital pode ser expressada por um conjunto de processos principaisilustrados pela Figura 2.2. Em geral, esta análise inicia-se predominantemente pela seg-mentação do vídeo em tomadas, principal conceito associado ao agrupamento de quadrosoriginados de uma mesma câmera. Isso se deve ao fato de se esperar que cada quadro deuma tomada seja similar a seus vizinhos, já que representa uma continuidade no tempo.

  • 18

    Figura 2.2: Principais processos da análise de vídeo digital [75].

    Observa-se na Figura 2.2 que a análise de um vídeo digital também pode considerarprocessos baseados em informações de áudio, além daqueles relacionados às informaçõesvisuais.

    O processo de criação de vídeos, também conhecido como edição de vídeos, procuraagrupar tomadas em sequência, criando uma transição abrupta denominada corte. Entre-tanto, também é possível criar efeitos digitais entre as transições, misturando uma certaquantidade de quadros de uma tomada com outra imediatamente subsequente. Essastransições são denominadas graduais e podem ser do tipo wipes, fades ou dissolves [75].

    Em alguns casos, a segmentação de um vídeo digital pode não estar necessariamenteassociada a uma tomada especí�ca, mas a um agrupamento mais re�nado de�nido, emsua maioria, por alguma métrica de dissimilaridade. Nesses casos, o segmento obtido éde�nido como GoF � Group of Frames (De�nição 2.7), utilizado como menor agrupamentodo vídeo, de forma que este passa a ser considerado como uma sequência de GoFs [26].

    De�nição 2.7 (Group of Frames (GoF)): Um group of frames (GoF) éuma sequência de quadros consecutivos cuja similaridade é alta, i.e., podemser considerados semelhantes. Logo, um GoF é de�nido da forma GoF =(f0, . . . , fK−1) |Dist(fi, fj) ≤ �, i 6= j, em que Dist representa uma função dedistância (dissimilaridade) entre dois quadros quaisquer fi e fj do GoF .

    A segmentação de vídeo pode ser realizada, basicamente, por meio de duas técnicas:utilização de métricas de dissimilaridade ou de uma imagem representativa do vídeo. ASeção 2.1.1 apresenta trabalhos baseados em diferentes métricas de dissimilaridade. ASeção 2.1.2 concentra-se nos trabalhos baseados na geração de imagens representativas dovídeo denominadas imagens de Ritmo Visual. O contexto de segmentação de vídeo estárelacionado a vídeos que sofreram edição, em que transições foram inseridas. Existe umtipo particular de vídeo que são produzidos por uma única câmera continuamente, seminterrupção, semelhantes a vídeos de monitoramento ou vigilância.

    2.1.1 Métricas de dissimilaridade

    Os primeiros trabalhos de segmentação de vídeo digital estão associados a detecção detomadas [86, 103] e eram utilizados principalmente para indexação, navegação e buscade vídeos em banco de dados multimídia [12, 13, 49]. Uma vez que as transições entre

  • 19

    tomadas podem ser abruptas (cortes) ou graduais (fades, dissolves e wipes) [75, 58], quantomais elaborada for a produção do vídeo, mais tipos diferentes de transições são utilizadas[58].

    Detectar tomadas passou a ser, então, a tarefa de detectar transições em vídeos. Dessaforma, explorando a relação de semelhança entre os quadros de uma mesma tomada, diver-sos trabalhos procuravam identi�car as principais métricas de dissimilaridade apropriadaspara cada tipo particular de vídeo. Primeiramente, a técnica de comparação pixel a pixelpor pares (pixel-wise comparision) concentrava-se em identi�car as ocorrências de cor-tes [103, 68], explorando o somatório da diferença absoluta de cada pixel do quadros ft−1e ft para o instante t, tanto para níveis de cinza quando colorida. O resultado dessesomatório era então comparado a um limiar que de�nia se havia ou não dissimilaridadeentre os quadros. Quanto mais alto o somatório, maior era a dissimilaridade.

    Entretanto, observou-se que o desempenho dos algoritmos era reduzido quando vídeospossuíam tomadas que apresentavam movimentos internos de objetos. São consideradosmovimentos internos de objetos quando objetos grandes se deslocam rapidamente nointerior de alguns quadros, ou quando vários objetos se movimentavam rapidamente esimultaneamente, gerando uma dissimilaridade maior entre os quadros. Como alternativa,foram utilizadas métricas de dissimilaridade baseadas no histograma dos quadros [12, 69,59, 104]. O uso de histograma permite comparar a variação da frequência das cores entreos quadros, em vez de comparar a variação das cores em cada pixel. Histogramas entrequadros consecutivos eram comparados (ou pela diferença absoluta, diferença relativa oupor testes estatísticos � teste do χ2) para determinar a dissimilaridade entre os quadros,identi�cando transições abruptas nos vídeos.

    Posteriormente, começaram a surgir trabalhos com métricas de dissimilaridades capa-zes de detectar transições graduais (fades, dissolves e wipes) com mais precisão [91, 49]que as métricas de comparação pixel a pixel. Estes trabalhos utilizam uma pequena janeladeslizante em que era realizada um análise da variação da dissimilaridade. O somatórioda dissimilaridade calculada para cada quadro da janela deslizante era comparado comum limiar que de�nia quando uma transição gradual ocorria.

    2.1.2 Ritmo Visual

    A análise quadro a quadro de um segmento de vídeo pode ser substituída pela análise deuma imagem representativa em que os principais eventos temporais possam ser preser-vados. Essa imagem representativa passou a ser chamada de Ritmo Visual, e representauma subamostragem do espaço 2D + t para o espaço D + t.

    A ideia de utilizar imagens representativas surgiu, primeiramente, quando Akutsu andTonomura [2] procuravam detectar movimentos de câmera [75]. Os autores modelaram ovídeo como um volume no domínio 2D+ t e procuravam de�nir o padrão de projeção queo movimento de câmera desejado causava nos planos espaciais x− y ao longo do tempo.Denominando o método de vídeo por tomogra�a, os autores de�niram duas imagens re-presentativas do vídeo, imagens raio-x e raio-y do vídeo, resultantes de uma projeçãodo volume 2D+ t para, respectivamente, os planos x− t e y− t. Cada tipo de movimentode câmera gerava um padrão de textura especí�co nessas imagens. A análise do compor-

  • 20

    tamento da câmera no vídeo ao longo do tempo passou a ser a análise da variação datextura, e.g., mudanças abruptas no vídeo passam a ser mudanças abruptas na textura.

    Joly and Kim [40] posteriormente, de�niram outros tipos de projeções para movi-mentos de câmera, enquanto Lee et al. [50] realizaram a análise da textura das imagensrepresentativas por meio de outras técnicas de detecção de padrões de texturas.

    Entretanto, foram Ngo et al. [61] que denominaram a imagem representativa comospace-teporal slice e a utilizaram para identi�car transições graduais [60, 61, 62] e,posteriormente, efeitos de movimentos de câmera [63]. Paralelamente, Chung et al. [14]consideraram o uso de características espaço-temporais para segmentação de vídeo de�-nindo a imagem representativa como imagem de Ritmo Visual (Visual Rhythm Image),mesmo termo adotado por Kim et al. [44] para detecção de tomadas em vídeo.

    O termo Ritmo Visual será adotado neste trabalho para caracterizar este uso deimagem representativa para a análise de vídeo. Conforme será detalhado a seguir, di-versos trabalhos têm adotado este princípio com diferentes estratégias de projeção paradiferentes propósitos. Por essa razão, este trabalho envolveu o levantamento e a análise detrabalhos relacionados a Ritmo Visual, bem como a proposição de uma generalização [77],apresentada na De�nição 2.9. Essa generalização é a base para a construção de um meca-nismo �exível de extração de Ritmo Visual, apresentado em seções subsequentes. Antes,porém, serão apresentadas as diferentes abordagens para a construção de diferentes tiposde imagens de Ritmos Visual.

    De forma geral, a imagem de Ritmo Visual (De�nição 2.8) é o resultado de umatransformação do domínio espacial do segmento 2D+ t para D+ t. Representa a retiradade um conjunto de pixels de cada quadro do vídeo � de�nido por uma função linear �que é agrupado consecutivamente em cada coluna da imagem de Ritmo Visual. Estasubamostragem espacial permite transformar o problema de processamento de vídeo emum problema de processamento de imagem, de forma que as características temporaissejam preservadas. Em contraste com as técnicas de comparação quadro a quadro, oRitmo Visual permite realizar a mesma tarefa utilizando técnicas de processamento deimagens de forma mais e�ciente.

    De�nição 2.8 (Ritmo Visual): Seja ft(x, y) o valor da cor do pixel (x, y)de um quadro f no instante t de um vídeo digital de N quadros. Sejam H e W ,respectivamente, a altura e largura dos quadros desse vídeo. A imagem de RitmoVisual IV R é o resultado da seguinte transformação:

    IV R(t, z) = ft(rx × z + a, ry × z + b),

    em que z ∈ [0, HV R − 1] e t ∈ [0, N − 1]; HV R e N são, respectivamente, a alturaa largura da imagem de ritmo visual; as constantes rx e ry representam a suba-mostragem dos pixels, enquanto as constantes a e b, respectivamente, representamuma translação dentro de cada quadro. O valor de HV R depende de como ft ésubamostrado.

  • 21

    A escolha dos parâmetros constantes na De�nição 2.8 especi�cam como a subamos-tragem do domínio espacial de cada quadro do segmento de vídeo será realizada. Pararealizar uma subamostragem em que cada coluna da imagem de Ritmo Visual seja com-posta pela linha central vertical de cada respectivo quadro, considera-se os valores derx = 0, ry = 1, a = W2 , b = 0 e HV R = H. A Figura 2.3 ilustra a subamostragem pormeio de uma linha vertical central de cada quadro de um vídeo. Já para amostrar a linhacentral horizontal, deve-se considerar rx = 1, ry = 0, a = 0, b = H2 e HV R = W . Sefor amostrada a linha diagonal principal, então deve-se considerar rx = HHV R , ry =

    WHV R

    ,

    a = 0, b = 0 e HV R =√H2 +W 2 [14, 33, 44].

    Figura 2.3: Exemplo da geração da imagem de ritmo visual utilizando uma linha verticalcentral de cada quadro de um vídeo.

    A utilização de informações locais dos quadros � apenas informações dos pixels � ésensível a movimentos de objetos internos nos quadros, di�cultando a detecção de toma-das. Essa sensibilidade pode ser percebida na Figura 2.4, que ilustra a imagem de RitmoVisual decorrente da linha central de cada quadro de um vídeo de futebol televisivo (vídeode futebol de difusão) � vídeos que foram produzidos para transmissão por meio de umcanal de televisão ou pela internet. Note que quadros semelhantes, mesmo provenientes dediferentes câmeras, possuem linhas centrais equivalentes para diferentes quadros. Mesmoespeci�cando outras funções lineares, a imagem de Ritmo Visual acaba não re�etindo astransições para vídeos que possuam essa característica.

    Figura 2.4: Imagem de ritmo visual de um segmento de vídeo de futebol televisivo.

    Para vídeos em que tomadas diferentes possuam quadros similares, ou ainda quandohá movimentos internos de objetos no vídeo � a movimentação de um jogador no interior

  • 22

    do quadro, por exemplo � a utilização do Ritmo Visual conforme a De�nição 2.8 gera vari-ações que di�cultam a detecção de transições. Entretanto, é possível utilizar informaçõesglobais do quadro para minimizar os efeitos de movimentos internos de objetos. Seguindoesse raciocínio, Guimarães [32] propôs a utilização do histograma de cada quadro no lugarda amostragem espacial, resultando no Ritmo Visual por Histograma. Neste caso, cadacoluna da imagem de Ritmo Visual por Histograma é formada pelo histograma do quadrocorrespondente, sendo a sua altura � HV R � igual à quantidade de bins do histograma.A movimentação de objetos no interior do quadro não provoca grandes variações no seuhistograma, uma vez que a distribuição de cores tende a se manter constante. Guimarães[32] utilizou essa abordagem para detectar transições em vídeos de comerciais.

    Utilizando esse mesmo raciocínio, Simões [75] considerou uma imagem cujas colunaseram compostas pelo histograma acumulado de cada quadro, resultando no Ritmo Visualpor Histograma Acumulado. Dessa forma, foi possível detectar transições além de iden-ti�car ocorrência de �ashs nos segmentos de vídeo por meio do padrão da saturação dohistograma acumulado na imagem de ritmo visual proposta. A Figura 2.5 ilustra a utili-zação do Rimo Visual � coluna central, Ritmo Visual por Histograma e por HistogramaAcumulado para um mesmo segmento de vídeo de comercial [75].

    A primeira de�nição de Ritmo Visual está associada a uma subamostragem espacialem que informações locais são su�cientes para preservar eventos temporais no vídeo, se-jam movimentos de câmera ou transições entre tomadas. Entretanto, surgiram novasde�nições de Ritmo Visual considerando aspectos globais do quadro, tal como histogramae histograma acumulado. Uma vez que há diferentes propostas para a geração de ima-gens de Ritmo Visual, este trabalho propõe em [77] uma de�nição geral, apresentada naDe�nição 2.9, para generalizar a De�nição 2.8 original, de forma a englobar os diferentestipos de Ritmo Visual apresentados.

    De�nição 2.9 (Ritmo Visual Geral): Seja ft o quadro f no tempo t deum vídeo digital de N quadros. A imagem de Ritmo Visual Geral IGV R éo resultado da aplicação de uma transformação τ em cada quadro do vídeo, daforma:

    IGV R(t, z) = τ (ft, z) ,

    em que z ∈ [0, L−1] (L é de�nido pela função de transformação τ ) e t ∈ [0, N−1].

    A partir da De�nição 2.9, pode-se agora especi�car diferentes transformações do vídeoaplicadas a cada quadro. Se for considerada a função de transformação τV R = ft(rx ×z+ a, ry× z+ b), teremos o equivalente à De�nição 2.8. Já se τ = H(ft) for aplicada, emque H(ft) representa o histograma do quadro ft do vídeo, obtêm-se o Ritmo Visual porHistograma proposto por Guimarães [32], enquanto a transformação τ = Hac(ft), sendoHac(ft) o histograma acumulado do quadro ft, de�ne-se o equivalente proposto por Simões[75]. A generalização do Ritmo Visual visa permitir a aplicação de qualquer função detransformação nos quadros, independente de estar associada ao domínio espacial ou não.

    Mais recentemente, novas imagens de Ritmo Visual foram de�nidas e aplicadas para

  • 23

    Figura 2.5: Imagens de Ritmo Visual de um segmento de comercial utilizando: a) colunacentral dos quadros, b) histograma e c) histograma acumulado (fonte: Simões [75])

  • 24

    diferentes propósitos. Valio et al. [87] realizaram a detecção de texto em vídeos por meioda imagem de Ritmo Visual utilizando uma curva zig-zag sobre uma subdivisão de cadaquadro em 5 x 5 blocos (Figura 2.6), o que mostrou mais e�ciência em relação a técnicasaplicadas quadro a quadro.

    Figura 2.6: Curva zig-zag (a) como função de transformação para o Ritmo Visual (b)(Fonte: Valio et al. [87]).

    da Silva Pinto et al. [17] propuseram duas imagens de Ritmo Visual baseadas na linhacentral e coluna central da transformada de Fourier para cada quadro do vídeo. Dessaforma, foram capazes de identi�car falsi�cação de rostos utilizando vídeos em um sistemade biometria. Almeida et al. [3] e dos Santos et al. [21] utilizaram o Rimto Visual pormeio de uma transformação linear de�nida sobre ROI � region of interest, e.g., região deinteresse, em uma sequência de imagens aéreas (série temporal) para estimar alteraçõesnos eventos fenológicos de plantas.

    Rodrigues [73] considerou uma série temporal de grafos, obtida por meio da análisedo posicionamento dos jogadores no campo de futebol. Cada jogador é de�nido comoum vértice, e cada aresta um �uxo possível de se efetuar um passe. A sequência é en-tão submetida a uma função de transformação do Ritmo Visual, criando a imagem deRitmo Visual por Grafo (Graph Visual Rhythm). A proposta de seu trabalho é estudar odesempenho de uma equipe de futebol considerando as estratégias de ataque e defesa.

    É possível observar que, para cada Ritmo Visual proposto, existe uma função de trans-formação especí�ca, possibilitando ampliar as aplicações dessa técnica. A De�nição 2.9[77] generaliza o conceito do Ritmo Visual de forma a atender exatamente a cada umadessas funções de transformação. A Tabela 2.1 resume a nomenclatura utilizada pelosprincipais trabalhos que consideram o uso de imagem representativa, o tipo de transfor-mação proposta e a relação espacial envolvida. Note que a maioria dos trabalhos utilizauma transformação direta sobre os quadros do vídeo, ou sobre um processamento desses(histogramas e transformada de Fourier). Mesmo para os trabalhos [3, 21, 73] em que sãoconsiderados sequências temporais de imagens ou de grafos, ainda assim a generalizaçãoproposta permite de�nir a função de transformação τ especí�ca.

    Mais adiante, na Seção 4.2.2 deste trabalho, serão propostas duas novas transformaçõesde Ritmo Visual especí�cas para jogos de futebol televisivos.

  • 25

    Tabela 2.1: Nomeclatura e transformações utilizadas pelos principais trabalhos relaciona-dos à imagem representiva do vídeo.

    AutoresTipo de Relação

    NomenclaturaTransformação espacial

    Akutsu and Tonomura [2]Joly and Kim [40] linear local imagens raio-x e raio-yLee et al. [50]Ngo et al. [61, 60, 62] linear local space-teporal sliceChung et al. [14]Kim et al. [44] linear local imagem de Ritmo VisualGuimarães et al. [33]Guimarães [32] não-linear global Ritmo Visual do HistogramaSimões [75] não-linear global Ritmo Visual do Hist. AcumuladoValio et al. [87] linear local Ritmo Visual (curva zig-zag)da Silva Pinto et al. [17] não-linear global Ritmo Visual sobre FourierAlmeida et al. [3]

    linear local Ritmo Visual sobre ROIdos Santos et al. [21]Rodrigues [73] linear local Ritmo Visual por Grafo

    2.2 Detecção de eventos em vídeos de esportes

    Com o objetivo de melhorar a competitividade, a tecnologia tem se inserido em dife-rentes modalidades esportivas como, por exemplo, a avaliação de desempenho por meiode vídeos [52, 27, 73]. Essa análise é denominada análise de esporte (sport analysis),despertando o interesse multidisciplinar de várias áreas do desporto, da computação eda medicina. Entretanto, esses trabalhos normalmente fazem uso de câmeras �xas (oumonitoramento), cujos vídeos utilizados não sofrem edição. Esses vídeos são geralmentecombinados para permitir a análise de uma equipe e/ou de jogadores individuais, pro-curando identi�car pontos que podem ser aprimorados para se obter um desempenhomelhor [73].

    Cada modalidade esportiva possui suas regras e motivação, gerando diferentes eventosde interesse para seus espectadores. No basquete, por exemplo, um evento de interesseé quando uma equipe consegue marcar pontos ao se converter uma �cesta�, quando umdefensor consegue efetuar um bloqueio ao arremesso, ou um arremesso de longa distância.Já no futebol, o principal evento e objetivo para uma equipe é o gol [18]. Por outrolado, diferentes eventos, como faltas próximas ao gol, escanteios e cobranças de pênaltis,também são relevantes para a maioria dos fãs, pois demonstram o quão ofensiva pode tersido sua equipe. Kijak et al. [43] classi�ca os esportes em dois tipos: time-constrainedsports � esportes com tempo restrito � e score-constrained sports � esportes com pontuaçãorestrita. O primeiro está limitado a uma duração, dividido em período de mesma duração,em que cada período os eventos são imprevisíveis e seguem um �uxo indeterminado. Éo caso do futebol, futebol americano e basquete, mas não se limita a somente estes. Jáscored-constrained sports possuem estrutura hierárquica bem de�nida, contendo certasunidades de pontuação. Tênis é um exemplo desse tipo de esporte, em que um jogo podeser dividido em sets, games e pontos Kijak et al. [43]. Beisebol e voleibol são outrosexemplos desse tipo de esporte.

    Ao considerar vídeos esportivos, eventos são denominados highlights, e a sua detecção

  • 26

    passou a ser a principal tarefa para sumarizar vídeos para os espectadores, já que, namaioria das modalidades, o tempo total de uma transmissão, seja de uma partida, sejade uma corrida, costuma ser de longa duração. É esperado que este sumário contenhaos principais eventos relacionados a uma determinada modalidade esportiva, do ponto devista do espectador.

    As próximas seções apresentam as principais abordagens para sumarização de vídeosde esportes com ênfase em segmentos de vídeo por difusão. Os primeiros sumários erambasicamente obtidos por detecção de replays, cujos trabalhos são discutidos na Seção 2.2.1.Na sequência, a Seção 2.2.2 apresenta os principais trabalhos relacionados a sumarizaçãode vídeos baseadas em eventos (highlights).

    2.2.1 Detecção de replays e eventos especí�cos

    A transmissão de uma modalidade esportiva requer a utilização de múltiplas câmeraspara conseguir dar diferentes pontos de vista ao espectador. A seleção de qual câmeraserá transmitida �ao vivo�, i.e., durante o registro do evento, provoca a edição do vídeo�nal: vídeo de difusão (broadcast video), utilizado para consulta futura ou para progra-mas esportivos. É nesse contexto que entra a de�nição de replay, que signi�ca reexibir umsegmento de vídeo já transmitido ou exibir um segmento temporalmente anterior (trechonão transmitido ao vivo) capturado por outra câmera. Utilizar replay auxilia na compre-ensão dos eventos de uma modalidade esportiva. Em um jogo de futebol, por exemplo, oevento mais importe (o gol) pode não ter sido observado por um espectador, que o verá noreplay permitindo a compreensão do evento. Nas corridas de Fórmula 1, ultrapassagenspodem ocorrer simultaneamente em diferentes pontos da pista, sendo que apenas umadessas ocorrências pode ter sido transmitida ao vivo. Além disso, são raros os momentosem que a corrida encontra-se parada, por exemplo, uma interrupção para nova largadaou a entrada de um safety-car na pista. Logo, os replays tornam-se imprescindíveis paradescrever importantes ultrapassagens ou brigas por posições na corrida e acabam sendoutilizados frequentemente.

    A identi�cação de replays começou a ser proposta por Kobla et al. [45] quando procu-ravam identi�car segmentos de vídeos relacionados a esporte, contribuindo para o processode classi�cação, indexação e recuperação de segmentos em bancos de dados multimídia.A técnica apresentada utilizava como base a ocorrência de replays em slow motion, i.e.,replays de eventos cujos quadros são replicados para causar a redução aparente da taxade quadros por segundo. A sequência exibida por um replay em slow motion é exibidacom lentidão em relação à taxa de gravação do evento original[45]. Os autores realizavama detecção diretamente no padrão MPEG, considerando as informações dos macroblocks� cada quadro é divido em blocos de tamanhos quadrados �xos de 16x16, 8x8 ou 4x4, aquantidade de bits utilizados na codi�cação de um quadro e as informações do �ow vectors� vetores com estimativa de movimento dos pixels em relação aos quadros anteriores �fornecidas pela codi�cação, o que permitia distinguir a ocorrência de quadros repetidosna sequência e detectar os replays em slow-motion. Posteriormente, [46] aprimoraram aclassi�cação de vídeos de esporte explorando a identi�cação de padrões de texto � in-formações do esporte são exibidas durante a transmissão, bem característicos em vídeos

  • 27

    esportivos.Já Babaguchi et al. [9] procuram associar as tomadas de replay com os segmentos �ao

    vivo� de um vídeo utilizando cor predominante procurando similaridade entre os quadrosdo replay com os anteriores. Um vídeo de transmissão é dividido principalmente emcenas ao vivo e cenas de replay. Para tanto, são considerados dois padrões de exibição dereplays : uma sequência de vídeo com o texto �REPLAY� exibido durante o replay ; e o usode efeitos de vídeo nas transições entre os segmentos ao vivo e os de replay, conhecidoscomo DVEs (Digital Vídeo E�ects) em que, muitas vezes, utilizam algum padrão de wipe.A Figura 2.7 ilustra a ocorrência de um replay entre DVEs, caracterizada pela exibiçãodo par DVE-IN e DVE-OUT.

    Figura 2.7: Utilização de DVEs entre segmentos de replay em um vídeo [9].

    Pan et al. [65] também consideraram a ocorrência de DVEs entre um segmento dereplay em slow-motion, aprimorando o trabalho de Kobla et al. [46] e produzindo comoresultado um sumário do vídeo baseado em uma coletânea de replays em slow-motion.Entretanto, os autores também utilizam análise de histograma para diferenciar dos seg-mentos em slow-motion que podem ocorrem em comerciais. Posteriormente, Pan et al.[66] utilizaram a detecção de replays de [65] para encontrar Logo Transitions, um tipo es-pecial de DVE em que uma imagem de logo de um canal de televisão, de uma competiçãoou de um programa esportivo é utilizada no efeito de transição. Até hoje, Logo Transitionscontinuam sendo utilizadas em transmissões esportivas na Europa e nos Estados Unidos.

    Wang et al. [89] propõem um modelo em que o vídeo é dividido em duas partes: aparte visual, de vídeo (imagens) e a parte de áudio. Cada segmento passa pelos processosde extração de características e classi�cação utilizando Support Vector Machine � SVM,que no �nal são agrupadas novamente. A classi�cação SVM é utilizada para associar aossegmentos de vídeo e áudio em um conjunto �xo de classes. Nos segmentos de vídeo, aclassi�cação associa cada segmento a ângulos de visão da câmera, replay e se há registro datorcida. No segmento de áudio, a classi�cação é realizada identi�cando as classes de áudio:entusiasmo, discurso do comentarista, apito e silêncio. Ao �nal, uma nova classi�caçãoutilizando Hidden Markov Model � HMM � é realizada para de�nir a ocorrência de umevento.

    Deve-se observar que, para a maioria das modalidades esportivas em que a transmissãodo evento é local � considerando uma determinada região geopolítica ou um país, existemdois padrões de transmissão de replays. A maior parte dos países utiliza o modelo detransmissão americano e/ou europeu, em que os segmentos de replays são exibidos emsequência entre DVEs contendo uma logomarca (Logo Transitions). Entretanto, o Brasiladotou uma dinâmica diferente e os segmentos de replays não são destacados e nemexibidos entre logos. Em geral, replays são apresentados sem a utilização de DVEs, e

  • 28

    muito raramente em slow-motion, cabendo ao espectador identi�car se o segmento trata-se de um replay ou não.

    2.2.2 Sumarização baseada em eventos

    A sumarização de vídeos parte dos trabalhos apresentados na seção anterior, uma vez queo vídeo produzido com a coletânea dos eventos detectados já servia como um sumáriodo vídeo esportivo. Babaguchi et al. [10] denominaram o sumário do vídeo como videoabstract, e propuseram um mapeamento da dinâmica de transmissão para identi�car aocorrência de um evento a partir da ligação, apontada na subseção anterior, que envolvesegmentos de replay com os segmentos ao vivo do jogo. A veri�cação da detecção do eventofaz uso de estatísticas extraídas de páginas especializadas em esportes, comparando comos eventos selecionados.

    Resumidamente, a sumarização de vídeos baseada em eventos pode ser dividida emdois grupos: aqueles que utilizam conhecimento de domínio e aqueles que considerama dinâmica televisiva.

    Vídeos de esporte são considerados vídeos baseados em regras [42] (ruled-based videos),e as tomadas de vídeo podem ser agrupadas em tomadas de sequências de jogo e paradas dejogo [51, 92]. Quando se conhece a modalidade esportiva, pode-se de�nir uma semânticade como essas paradas de jogo ocorrem. Como exemplo, em um jogo de tênis, sequênciasde jogo são sempre acompanhadas por silêncio dos torcedores. Já dinâmica está associadaa um padrão na transmissão da modalidade esportiva, ou seja, utilização de replays,padrão de transições, duração e ângulo de visão das tomadas.

    Considerando o conhecimento de domínio, Li and Sezan [51] modelam um vídeode difusão esportivo como um conjunto de sequências de jogo (play sequences ou sim-plesmente play) intercaladas entre sequências de não-jogo (non-play sequences ou sim-plesmente non-play). O que os autores chamam de sequência, este trabalho de�ne comosegmento de vídeo. Logo, Plays estão associadas a um segmento em que alguma açãoimportante do jogo está em andamento e non-plays a qualquer outro segmento. Time-constrained sports possuem a característica de segmentos de plays e non-plays. Do pontode vista do espectador, o interesse estaria associado os segmentos de jogo e não aos breaks.Os autores de�niram o início de um play considerando um padrão especí�co para tomadasde vídeo de beisebol, futebol americano e sumô. Em [52], os autores parametrizaram oconhecimento de domínio para um sistema baseado em regras, que especi�ca o padrão detomadas, as características visuais, a ocorrência de replays e a classi�cação do sinal deáudio, introduzido por Rui et al. [74] para vídeos de esporte televisivos. Em [53, 54], osautores estenderam esse modelo para jogos de futebol, explorando a ocorrência de replayse padrões de enquadramento da câmera � close-ups, em que utiliza-se uma aproximaçãoda câmera para o objeto da cena. A Figura 2.8 apresenta a arquitetura �nal do frameworkapresentado por Li et al. [53].

    Note que o framework da Figura 2.8 considera a realização de três detecções: detecçãode segmentos de replay e detecção de close-ups, utilizando apenas informações visuais; e adetecção de pontos de euforia do locutor apenas com informações de áudio. Essas três de-tecções utilizam o conceito de conhecimento de domínio associado à modalidade esportiva

  • 29

    Figura 2.8: Algoritmo para detecção de eventos apresentado por Li et al. [53, 54].

    do vídeo analisado. Coldefy and Bouthemy [16] também apresentaram uma sumarizaçãoconsiderando informações de áudio e vídeo para futebol. Entretanto, a detecção de euforiaé baseada em Pitch detection, enquanto a análise de vídeo considera apenas a detecçãode cor predominante no modelo RGB.

    Assfalg et al. [7] identi�caram eventos automaticamente utilizando Hidden MarkovModel (HMM) com o objetivo de realizar anotação semântica nos eventos de jogos de fute-bol. Utilizando o mesmo conceito de (play e break sequences), Xie et al. [92] e Xie et al. [93]de�niram um grupo de regras de domínio para jogos de futebol, analisados por meio deum conjunto de HMMs, cuja classi�cação entre plays e breaks é realizada por meio de umalgoritmo de programação dinâmica. Tanto [51] quanto [92] utilizaram HMM para clas-si�car plays baseado em características visuais ou informações de movimentos do padrãoMPEG [93]. A quantidade de movimento dos pixels na codi�cação do MPEG é maiorpara segmentos de sequência de jogo do que segmentos de parada de jogo, já que replayssão utilizados. os autores propuseram a extração de diversas características visuais base-adas principalmente no ângulo de visão da câmera, no posicionamento dos jogadores, eno movimento da bola em campo.

    Semelhantemente, Xu et al. [96] apresentaram um framework de análise semântica,baseado em multiníveis de HMM, para detecção de eventos em vídeos de esportes te-levisivos, mais especi�camente para basquete e voleibol. O framework é ilustrado pelaFigura 2.9.

    Nesse caso, a análise semântica é realizada de baixo para cima (bottom-up). A primeiracamada gera as hipóteses sobre quais seriam os eventos básicos a partir de característicasextraídas do vídeo � características de baixo nível. As camadas superiores elevam o nívelsemântico dos eventos candidatos, agregando-os em novos candidatos. São adicionadasrestrições semânticas de forma a realizar uma �ltragem das características relevantes quedevem ser consideradas. Cada camada superior avalia a semântica conforme a complexi-dade do evento da modalidade esportiva analisada. A última camada, composta apenaspor um HMM, determina o reconhecimento �nal do evento. O conhecimento de domíniofoi utilizado para modelar os eventos para cada modalidade esportiva, de�nindo quais ca-racterísticas visuais deveriam ser extraídas e quais informações semânticas deveriam serconsideradas. A modelagem apresentada para eventos de basquete utilizou apenas duascamadas, enquanto para voleibol foram necessárias três camadas [96].

  • 30

    Figura 2.9: Framework baseado em HMM para detecção de eventos [96].

    Kijak et al. [43] propõem um sistema de análise estrutural de vídeos de esportes utili-zando HMMs ilustrado na Figura 2.10. Os autores consideraram como conhecimento dedomínio a estrutura de um jogo de tênis e que a ocorrência de replays faz parte do padrãotelevisivo para este tipo de vídeo.

    Figura 2.10: Visão geral do sistema de análise estrutural de vídeos de esportes [43].

    Após a detecção de transições entre tomadas é realizada a extração das característicasvisuais por meio de um key-frame, de�nido a partir do início de cada tomada. A Fi-gura 2.11 apresenta o conceito da estrutura de um jogo de tênis de�nida no conhecimentode domínio da Figura 2.10. A análise estrutural considera quatro unidades básicas para ojogo de tênis: erro no primeiro serviço, ralis, breaks e replays. Cada unidade foi modeladapor um HMM especí�co, em que as características extraídas também são utilizadas emconjunto com o conhecimento de domínio para o treinamento dos HMMs.

    Por �m, o processo HMM Parsing é responsável por realizar a análise �nal, consi-derando o modelo hierárquico ilustrado pela Figura 2.12. Note que os quatro níveis deHMMs estão conectados a um último HMM de nível semântico mais elevado, re�etindo

  • 31

    Figura 2.11: Estrutura de um jogo de tênis [43].

    na estrutura do jogo de tênis ilustrado pela Figura 2.11.

    Figura 2.12: Hierarquia do conteúdo de vídeos televisivos de tênis [43].

    A variedade de eventos existentes e as particularidades de cada modalidade di�cultam ade�nição de um único modelo para detecção de eventos e sumarização de vídeos esportivos.Note que as duas principais classes de vídeos de esporte, elencadas por Kijak et al. [43](time-constrained e score-constraine sports), já de�nem diferentes tipos de análises. Asinformações semânticas relacionadas a cada evento de cada modalidade é especi�cada noconhecimento de domínio dos trabalhos apresentados anteriormente. Além disso, princi-palmente para esportes do tipo time-constrained, podem ser adicionadas semânticas para opadrão de transmissão televisivo, denominado dinâmica televisiva. Rui et al. [74]consideraram o padrão de áudio em transmissões de beisebol, de�nindo um conjunto de

  • 32

    classes permitindo a classi�cação do áudio. A análise de áudio proposta procurava sincro-nizar a detecção de uma rebatida (baseball hit) com a detecção de entusiasmo na narração.A dinâmica televisiva, neste caso, não considerava características visuais, mas apenas atemporalidade em que esses eventos aconteciam no sinal de áudio.

    Babaguchi et al. [9] perceberam que a dinâmica de transmissão possuía um padrãopara a exibição de replays, em que DVEs � Digital Video E�ects � eram utilizados antese depois destes segmentos. Esta é a principal característica do padrão de transmissãoeuropeu e americano para a maioria das modalidades esportivas. Em seu trabalho, osautores realizaram a detecção de replays em vídeos de futebol americano, e em [10] ex-pandiram a proposta para um sistema de sumarização de vídeos de esporte baseado emreplays, incluindo a análise de padrões de informações textuais. Babaguchi and Nitta [8]acrescentaram ainda a análise de áudio em [10] para detectar highlights.

    Ekin et al. [23] apresentam um sistema automático para sumarização de vídeos defutebol. Diferentemente das abordagens anteriores, os autores não utilizaram treinamentoe de�niram um sistema desenhado especi�camente para o domínio de futebol. Em seutrabalho, o termo cinemática é utilizado para se referir ao que neste trabalho denominamosde dinâmica televisiva, ou simplesmente dinâmica. Ela está associada à ocorrência dereplays e as transições entre tomadas cuja abertura de câmera segue determinado padrão.A abertura de câmera, denominada visão, será discutida com detalhes no Capítulo 4. AFigura 2.13 ilustra o �uxograma do sistema proposto.

    Figura 2.13: Sistema para detecção de eventos em futebol [23].

    Os autores consideram a detecção da cor do gramado como o primeiro passo para osdemais processos, principalmente para a detecção de tomadas. A partir daí, é realizada aclassi�cação de tomadas conforme o ângulo de visão da câmera em quatro classes: close-up ou zoom, long view � visão longa, medium view � visão média � e out of �eld � visãofora de campo. Paralelamente, é realizada a detecção de replays em slow-motion. Essesdois processos fornecem as principais informações sobre a dinâmica de transmissão paraos eventos desejados.

    Ekin et al. realizam ainda a detecção da grande área e, utilizando o padrão de trans-missão, de�nem a sumarização de ataques, pênaltis e chutes livres. A detecção do juiz érealizada utilizando as projeções verticais e horizontais dos pixels que representam a cordo juiz. Esse parâmetro deve ser introduzido para cada jogo, assim como os parâmetrospara a visão média e de zoom. A detecção de replays em slow-motion e os tipos de visõesentre as tomadas são a base para sumarizar os segmentos relacionados aos gols.

    Tjondronegoro et al. [83] propuseram um modelo hierárquico utilizando o padrão deplay, break e highlights scenes com análise de áudio e vídeo. É utilizada uma detecção

  • 33

    de apito para marcar highlights em jogos de futebol e natação, além de entusiamos dolocutor para outros eventos e detecção de informações textuais. O modelo é ilustrado naFigura 2.14.

    Figura 2.14: Modelo hierárquico para sumarização de vídeos de esporte baseado em playe break Tjondronegoro et al. [83].

    Como conhecimento de domínio, os autores modelaram o vídeo como sequências deplays e breaks, intercalando highlights provenientes de replays (highlights colletions) oude segmentos das demais sequências. Para o re�namento dos segmentos, é consideradoum padrão de transmissão televisivo para a análise de áudio, além do posicionamentoadequado para a detecção de informações textuais, tais como substituição de jogado-res, placar, escalação (team line-up information) e texto informativo para natação, entreoutras.

    Tjondronegoro et al. [84] aprimoraram o trabalho anterior adicionando análise da di-nâmica televisiva, semelhante a apresentada por Ekin et al. [23], para vídeos de futebolamericano. Para realizar a análise da dinâmica, foi necessário considerar a classi�ca-ção das tomadas conforme o ângulo de visão das câmeras, nos seguintes grupos: global,zoom-in and close-up).

    Utilizando o mesmo conceito de dinâmica em vídeos de futebol, Ye et al. [98] apre-sentaram um modelo para sumarização a partir da detecção de gol e cobrança de faltas.Propuseram uma análise de vídeo que inclui a detecção de movimentos de câmera e umaclassi�cação das tomadas conforme cinco tipos de visões: visão do gol, visão do meio decampo, visão do escanteio (corner), visão de zoom ou close-up de um jogador e visão forado gramado. A classi�cação é realizada por meio de um classi�cador SVM, em que ascaracterísticas visuais de cada tipo de visão � por exemplo, a linha do meio do campo, aslinhas de escanteio. � são extraídas para identi�car cada padrão de visão.

    Eldib et al. [24] apresentaram um sistema de sumarização de vídeos de futebol baseadona detecção de replays e logo transitions. De forma semelhante a Ekin et al. [23], osautores utilizam a detecção de cor predominante para realizar a detecção de tomadas.Estas, por sua vez, são classi�cadas como global, média, zoom e torcida. A detecção daalteração textual do placar nos quadros do vídeo também é considerada para auxiliar nadetecção de gols, faltas e ataques. Zawbaa et al. [101] também utilizaram a detecção dereplays e de alterações no placar para sumarizar vídeos de futebol.

  • 34

    Tavassolipour et al. [81] utilizam uma Rede Bayesiana e funções Cópulas 1 para adetecção de eventos e sumarização de vídeos de futebol. A detecção de tomadas é realizadapor um classi�cador SVM ao mesmo tempo que se realiza a detecção de replays (padrãode replays entre logos). Cada tomada é classi�cada conforme o tipo de visão para cadasequência em uma das quatro classes: visão longa, visão média, close-up ou fora de campo.Com as informações da visão e dos replays, um modelo HMM é utilizado para de�nir osseguimentos relacionados a play e break. Os conceitos semânticos são, então, obtidos pormeio da extração de características visuais, tais como: a área de pênalti, o goleiro e ostextos grá�cos. Um vetor de características semânticas é utilizado para a classi�caçãodos segmentos por meio de uma Rede Bayesiana. O processo de sumarização é realizadoutilizando um algoritmo de programação dinâmica como uma redução do problema deotimização da mochila binária (0-1 knapsack problem).

    Jai-Andaloussi et al. [37] propuseram um sistema de sumarização de vídeos de futebolcombinando análise de áudio, vídeo e de dados minerados de redes sociais. Os autoresextraíram informações visuais do vídeo para determinar segmentos candidatos, associadoscom a detecção de pontos de entusiasmo do locutor no sinal de áudio. Esses trechos foramentão combinados com a análise do �uxo de redes sociais � sequência de postagens emredes sociais, em que se identi�cou-se um aumento no número de postagens próximode eventos relevantes. Foram considerados os seguintes eventos: gol, pênaltis, cartões,escanteio e cobrança de falta.

    Nguyen and Yoshitaka [64] propuseram um sistema de sumarização de vídeos de fute-bol considerando o �uxo de uma partida: cenas de competição intensiva, eventos especí�-cos e momentos de emoção � de jogadores ou da torcida. O sistema considera a dinâmicatelevisiva , semelhante à proposta por Ekin et al. [23], i.e., baseada em replays e visões decâmera. A dinâmica foi de�nida como um padrão de transições de visões e ocorrência dereplays, iniciando a segmentação de um evento por um close-up. Em segmentos de close-up, é aplicado um algoritmo de rastreamento de jogadores para analisar os movimentose de�nir o grau de emoção do segmento. O sistema foi submetido para a avaliação deusuários que, em sua maioria, consideraram o resumo bom ou muito bom.

    Kapela et al. [41] apresentaram um classi�cador de eventos para vídeos de esportetelevisivos considerando o entusiasmo do locutor no áudio e a dinâmica da utilização deângulos de visão da câmera. Os autores utilizaram como classi�cadores uma árvore dedecisão e duas redes neurais � feed-forward e Elman. Foram detectados eventos em jogosde críquete, basquete, futebol, hóquei e rugby.

    Kolekar and Sengupta [47] utilizaram redes Bayesianas probabilísticas para sumarizarvídeos de futebol, em que propuseram o uso de um conjunto de características áudio-visuais para detectar replays entre logos, cartões, jogadores e o árbitro. Os autores consi-deram como highlights a sequência de um conjunto de eventos de entusiasmo, de acordocom a dinâmica televisiva internacional, de�nindo o conceito de geração de highlight parajogos de futebol.

    Raventós et al. [72] de�niram um modelo de sumarização para jogos de futebol base-ado em descritores áudio-visuais extraídos do padrão MPEG-7. Os eventos são classi�ca-dos utilizando a detecção de replays entre logos, close-ups, faces e do apito. Os autores

    1São utilizadas para formular distribuições multivariadas em estatística.

  • 35

    também consideram o uso de key-frames para a extração de características visuais. Ape-sar de considerar a dinâmica televisiva internacional, a classi�cação dos eventos considerasomente aqueles que foram pré-de�nidos de acordo com o peso para cada característicaaudiovisual proposta.

    Jiang et al. [39] apresentaram um sistema para sumarização de vídeos de futebol explo-rando técnicas Convolution Neural Network (CNN) e Recurrent Neural Network (RNN).A detecção de tomadas classi�ca os segmentos em play e break. Na sequência, é realizadaa seleção de key-frames que são utilizados para a extração das características semânticaspor meio de uma CNN treinada. Finalmente, é utilizada uma RNN para mapear os re-cursos semânticos dos segmentos de play e break para os eventos típicos do futebol, taiscomo gol, chutes ao gol, cartões e escanteio.

    Javed et al. [38] propuseram um framework para a sumarização de eventos para vídeosde críquete, basebol, basquete e tênis. O framework é baseado na detecção de transiçõesgraduais e do placar. Os autores consideraram a dinâmica televisiva de que replays entrelogo utilizam transições graduais, e que a o placar não é exibido durante um segmento dereplay. O resultado é uma coletânea de segmentos de replays do jogo.

    Embora a maioria dos artigos realizam a sumarização a partir do vídeo de um jogo,Godi et al. [29] propuseram a detecção de eventos utilizando como base o vídeo da tor-cida. A proposta é detectar a ocorrência de eventos diretamente do comportamento dostorcedores, o que reforça a ideia de que o evento é realmente importante. A partir deum vídeo de monitoramento (câmera �xa) dos torcedores, os autores utilizaram uma redeneural convolucional 3D (3D-CNN) para identi�car as alterações comportamentais du-rante uma partida, identi�cando os seguimentos relacionados a um evento. Os eventosforam identi�cados em jogos de futebol do campeonato italiano.

    A maior parte dos frameworks e arquiteturas apresentados até aqui fazem uso dealgoritmos com treinamento utilizando aprendizado de máquina para diferentes tipos deeventos, e consideram modelar o vídeo em sequência de play e breaks. Algumas dinâmicastelevisivas são consideradas principalmente com a utilização de replays (em slow-motionsou entre logos) e, quando possível, entusiasmo do locutor no sinal de áudio ou a detecçãodo apito do árbitro. A Tabela 2.2 sintetiza os principais frameworks apresentados nestaseção para sumarização baseada em eventos.

    A parametrização dos frameworks ainda está muito associada ao algoritmo, e algunscasos exigem parâmetros para cada vídeo. Mas o que se pôde observar é que poucaspropostas consideram o uso de key-frame para a extração de características visuais, eque os níveis semânticos estão muito enraizados numa estrutura de�nida para os even-tos. Tank [80] e Thomas et al. [82] apresentam outros algoritmos semelhantes, enquantoKhan and Pawar [42] elencam outros direcionadas especi�camente para jogos de futebol.

  • 36

    Tabela 2.2: Síntese dos principais framewroks e aplicações para sumarização de vídeos deesportes.Autores Esportes Dados Domínio Abordagem

    Babaguchi et al.[9]

    A Vídeo replays entre DVEsEncontrar DVEs que limitamsequências de replays em slow-motion

    Babaguchi et al.[10]

    A Vídeoreplays entre DVEs e infor-mações textuais

    Encontrar DVEs, relacionar altera-ções de informações textuais

    Babaguchi andNitta [8]

    A Áudio, Vídeo replays entre DVEsEncontrar DVEs que limitamsequências de replays em slow-motion

    Li and Sezan [51] A B S Vídeo play e non-play sequencesPadrão visual para sequências plays,classi�cadas com HMM.

    Xie et al. [92] F Vídeo play e break sequencesCor predominante e motion vectors,classi�cados com HMM.

    Li et al. [53] F Áudio, Vídeoreplays, close-ups e entusi-asmo no áudio

    detecção de replays

    Li and Sezan [52],Li et al. [54]

    A B F S Áudio, Vídeoplay, replays, close-ups eentusiasmo no áudio

    extensão dos trabalhos [51, 53], clas-si�cação por HMM.

    Xu et al. [96] K V VisualCurvas de movimentos [95]nas direções horizontal,vertical e radial

    Múltiníveis de HMM, semântica es-pecí�ca para cada esporte.

    Kijak et al. [43] T Visual Estrutura do jogo de tênisClassi�cação por HMM, key-framespara extração de características

    Ekin et al. [23] F Vídeo Ângulos de Visão, replays,juiz e grande área

    Dinâmica televisiva, característicasvisuais, cor predominante do gra-mado

    Tjondronegoroet al. [83]

    F N Áudio, Vídeoplay e break, apito e entu-siasmo no áudio

    Modelo hierárquico baseado em playe breaks, detecção do apito, entusi-asmo no áudio e informações textu-ais

    Tjondronegoroet al. [84]

    A Áudio, Vídeoplay e break, replays, dinâ-mica de câmeras.

    Aprimoraram o trabalho [83] acres-centando dinâmica de câmeras seme-lhante a Ekin et al. [23]

    Tavassolipouret al. [81]

    F Vídeoreplays, play e break e clas-si�cação de visões

    Classi�cadores SVM e Bayesyanos,utiliza detecção de replays, dinâmica

    Jai-Andaloussiet al. [37]

    F Áudio, Vídeo, TextoRedes sociais, entusiasmodo locutor e análise de ví-deo

    Análise do �uxo em redes sociaiscombinadas com a análise de áudioe vídeo

    Nguyen andYoshitaka [64]

    F Vídeoreplays, dinâmica, rastrea-mento

    Detecção de replays, dinâtica televi-siva internacional e rastreamento dejogadores

    Kapela et al. [41] B C F H R Áudio, Vídeoângulos de visão, entusi-asmo do locutor, dinâmica

    Utiliza árvore de decisão e redes neu-rais Feed-forward e Elman para clas-si�cação de eventos

    Kolekar and Sen-gupta [47]

    F Áudio, Vídeo logo replays, dinâmicaRede Bayesiana probabilística, even-tos de entusiasmo, dinâmica

    Raventós et al.[72]

    F Áudio, Vídeologo replays, apito, key-frames, detecção de face

    Utiliza descritores a partir doMPEG-7, dinâmica

    Jiang et al. [39] F Vídeo play e break, key-frames

    Utiliza key-frames para a extraçãode características semânticas para otreinamento da CNN e mapeamentodos eventos por uma RNN

    Javed et al. [38] B C K T Vídeoreplays, transições gradu-ais, OCR

    Detecção de replays e placar, dinâ-mica

    Godi et al. [29] F Vídeo vídeo da torcidaAnálise do comportamento da tor-cida por meio do uso de câmeras �-xas; Classi�cação com 3D-CNN

    Legenda:A: Futebol americano, B: Basebol, C: Críquete, F: Futebol, H: Hóquei, K: Basquete, N: Natação, R: Rugby,S: Sumô, T: Tênis e V: Voleibol

  • 37

    Capítulo 3

    Um Framework para sumarização de

    vídeos

    Este trabalho propõe um framework para sumarização de vídeos esportivos, ilustradona Figura 3.1. Ele concentra a análise audiovisual dependente da natureza do vídeoesportivo. Essa natureza está ligada à estrutura semântica necessária para de�nir como oseventos são apresentados no vídeo a ser analisado. Portanto, essa natureza deve expressara semântica associada ao conhecimento do domínio e a dinâmica de transmissão paraos eventos a serem considerados. Além disso, o framework proposto tem como base aextração e análise de key-frames do vídeo, reduzindo os dados necessários para a extraçãode características visuais.

    Figura 3.1: Framework para sumarização de vídeos de esporte televisivos.

    O framework apresentado na Figura 3.1 é composto por sete processos: três destesrealizam análise audiovisual, três analisam apenas componentes visuais e somente um éresponsável pela análise de áudio. Cada um desses processos são detalhados nas próximasseções deste capítulo. Note que, na �gura, os processos dependentes da natureza do vídeoestão internos à caixa de�nida por linhas pontilhadas, sendo estes: seleção de tomadas,seleção de key-frames, análise intraframe, classi�cação semântica e análise de áudio.

    3.1 Detecção de tomadas

    A detecção de tomadas é, na maioria das vezes, o ponto de partida para a análise semânticade vídeos. Esse processo estava presente em todos os trabalhos relacionados até aqui que

  • 38

    consideravam características visuais, sempre como etapa inicial da segmentação do vídeo eantes da realização de outras análises visuais propostas. Apesar da maioria dos trabalhosconsiderar a segmentação do vídeo em tomadas, essa etapa não se limita a ela somente.De maneira geral, a detecção de tomadas pode ser substituída pela identi�cação de groupof frames (GoF), e.g, pode-se especi�car qualquer conjunto de quadros como base nade�nição do vídeo digital, independente se são segmentos de tomadas ou um conjuntodestas (De�nições 2.6 e 2.7).

    A maioria das transições entre tomadas em vídeos esportivos é abrupta. Isso é decor-rente da seleção de câmeras durante a transmissão enquanto o jogo está em andamento.Quando o jogo está parado, é possível utilizar efeitos de transmissão tais como dissolvese wipes. Portanto, não é relevante para este processo avaliar informações quanto à natu-reza do vídeo, uma vez que a detecção de tomadas não se diferencia de outros tipos devídeos. Portanto, esse processo é independente da natureza do vídeo. Note que a maioriados trabalhos que consideraram dependência semântica para esse processo apenas utili-zou técnicas fundamentais para outros processos, como por exemplo a detecção de corpredominante. Entretanto, mesmo para a detecção de DVEs em que wipes são utilizados,a detecção de tomadas ainda assim pode ser realizada de forma geral, já que os DVEsestão associados a exibição de logomarcas identi�cadas pelas características visuais dosquadros.

    Optou-se, portanto, por deixar este processo o mais genérico possível para que possamser implementados técnicas gerais para detecção de transições entre tomadas, abruptasou não, independente do tipo de vídeo ou de sua natureza. Como entrada de dados, esteprocesso recebe um vídeo digital e produz, como saída, um conjunto de segmentos devídeo, realizando a segmentação do vídeo de entrada. As informações dos quadros iniciale �nal em relação ao vídeo original, e o tamanho do segmento também são fornecidascomo resultado.

    3.2 Especi�cação da natureza do vídeo

    O framework da Figura 3.1 agrupa alguns processos que dependem da natureza do vídeo,especi�cando os processos dependentes desta natureza. Essa natureza está associadaàs informações da modalidade esportiva � conhecimento de domínio � e da dinâmicatelevisiva. Uma vez de�nido o tipo de vídeo a ser considerado, pode-se especi�car osparâmetros de cada um desses processos internos, fornecendo a semântica adequada parase obter o resumo desejado.

    Como exemplo, um vídeo de basquete possui padrões de transmissão diferentes deum vídeo de futebol ou tênis. Mesmo para vídeos de futebol, pode-se especi�car osparâmetros de�nindo a semântica associada aos padrões de transmissão � brasileiro ouamericano/europeu, já discutidos neste trabalho. Outros trabalhos ([52, 23, 43]) já apre-sentavam uma de�nição semântica decorrente do conhecimento de domínio do vídeo e/ouda dinâmica televisiva, o que in�uenciava nos eventos que se propunham detectar. Noteque para o padrão americano/europeu, replays são exibidos entre logos. Essa é a mesmadinâmica para jogos de basquete, voleibol e tênis, entre outros. Mas no Brasil, apenas o

  • 39

    futebol possui uma dinâmica diferente, não utilizando replays entre logos.Cada um dos processos dependentes da natureza do vídeo serão detalhados nas próxi-

    mas seções. A Seção 3.3 descreve o processo de Seleção de tomadas, descartando segmen-tos de vídeo que não contribuem para o resumo �nal. A Seção 3.4 de�ne o processo deSeleção de key-frames, reduzindo a quantidade de dados a serem analisados nos demaisprocessos. A Seção 3.5 apresenta o processo de análise intraframe, em que característicassão de�nidas a partir de descritores dos key-frames de�nidos. A Seção 3.6 descreve o pro-cesso de análise de áudio que poderá ser realizado paralelamente aos processos anteriores.Por último, a Seção 3.7 de�ne o processo de classi�cação semântica, em que a dinâmicade transmissão de�nirá os segmentos que devem ser selecionados como highlights para oresumo do vídeo.

    3.3 Seleção de tomadas

    A Seleção de tomadas é responsável por de�nir os segmentos do vídeo que serão consi-derados no restante do framework. Isso é necessário pois alguns segmentos podem apre-sentar uma duração muito curta ou até mesmo falha de transmissão (ausência de sinal,por exemplo). Neste caso, os trechos do vídeo identi�cados como defeituosos ou extre-mamente curtos para a percepção do espectador devem ser descartados. Apesar de fazerreferência ao termo Tomadas de vídeo (De�nição 2.4), este processo está relacionado aqualquer subdivisão lógica a qual o vídeo fora submetido, recebendo como entrada umsegmento de vídeo (De�nição 2.3) qualquer.

    A Seleção se faz necessária como uma primeira �ltragem para as demais análisesvisuais. Por se tratar de vídeos televisivos, é natural considerar que esses vídeos podemapresentar quadros dani�cados, duração incompatível com a modalidade esportiva e etc.Tudo dependerá de quão complexo são os parâmetros de�nidos na natureza do vídeo.De�ne-se, portanto, uma primeira análise visual do segmento de vídeo podendo, inclusive,realizar a primeira extração dessas características. A base deste framework é não realizaressas extração quadro a quadro, já que é pressuposto a extração de key-frames no processoseguinte.

    3.4 Seleção de key-frames

    É interessante realizar um análise preliminar do conteúdo de cada segmento selecionadopelo processo anterior de forma a de�nir um key-frame (quadro-chave) representativo. Aseleção de key-frames é um importante passo para reduzir a quantidade de dados aserem processados no restante do framework. A correta identi�cação do quadro repre-sentativo permitirá, posteriormente, realizar a extração de características visuais sem anecessidade de recorrer a todos os quadros do segmento. Kijak et al. [43] também utiliza-ram key-frames como alternativa para redução dos dados para a extração de característicasvisuais do segmento analisado.

    Este framework não especi�ca que a seleção de key-frame seja única. Dependendo dosparâmetros necessários de�nidos pela natureza do vídeo, pode-se especi�car a extração

  • 40

    de um ou mais key-frames. Para longos segmentos, por exemplo, pode ser necessáriode�ni