modèles pour résumés adaptatifs de vidéos

Ingénierie des systèmes d'information. Volume X – n° X/2002, pages 1 à X

Modèles pour résumés adaptatifs de vidéos Philippe Mulhem* — Jérôme Gensel** — Hervé Martin**

* Laboratoire IPAL-CNRSNational University of SingaporeSchool of ComputingLower Kent Ridge RoadSingapore 119260Singapore** Laboratoire LSR-IMAG,681, rue de la Passerelle, BP. 7238402 Saint Martin d'Hères cedexFrance

[email protected], [email protected], [email protected] RÉSUMÉ. La vidéo est un média qui pose des problèmes complexes en raison du volume important de données à traiter et de la difficulté de représenter et d'extraire des informations de son contenu. Nous proposons d'annoter le contenu d'une vidéo à l'aide de Graphes Conceptuels. Ce formalisme de représentation simple et puissant peut être exploité pour interroger le contenu d'une vidéo à l'aide d' un algorithme d'appariement de graphes. Nous présentons dans ce papier les quatre modèles d'un système appelé VISU pour la génération de résumés adaptatifs de vidéo : un modèle d'annotations, un modèle de strates, un modèle de structure cinématographique, et un modèle de requête. La requête décrivant le contenu attendu du résumé est exprimée en termes de Graphes Conceptuels. Les segments d'images réponses sont sélectionnés à partir de mesures de pertinence inspirées de la Recherche d'Information. Enfin, la durée du résumé peut également être contrôlée. ABSTRACT. Video is a complex media which poses some problems due to the huge amount of data it involves, and to the difficulty to represent and retrieve some information from its content. We propose to annotate the content of a video using Conceptual Graphs. This simple but powerful formalism can be exploited in order to query the content of a video using a graph matching algorithm. In this paper, we present the four models of a system called VISU for the generation of adaptive video summaries: an annotation model, a strata model, a cinematographic structure model and a query model. The query which describes the expected content of a summary to be generated is expressed using Conceptual Graphs. The segments of frames which constitute the result to the query are selected from a measure of relevance adapted from the Information Retrieval domain. Also, the duration of the expected summary can be controlled through the query. MOTS-CLÉS : vidéo, annotation, strate, résumé, Graphe Conceptuel KEYWORDS: video, annotation, stratum, summary, Conceptual Graph

2 Ingénierie des systèmes d'information. Volume X – n° X/2002

1. Introduction

La vidéo est un média continu qui pose des problèmes complexes dus essentiellement aux volumes de données à traiter et à la difficulté d’extraction et de représentation de son contenu. Si la localisation et l’extraction manuelle d’information à l’intérieur d’une vidéo peut représenter un temps prohibitif, la digitalisation a apporté des solutions à certains verrous technologiques, notamment sur l’accès et le traitement des images et des segments qui composent une vidéo. Aujourd'hui, de nombreux logiciels inspirés des bancs de montage cinématographiques permettent d’ajouter, de modifier, de supprimer ou de déplacer des images ou des séquences d’images à l’intérieur d’une vidéo.

Parmi les outils disponibles, les logiciels commerciaux Final Cut Pro (Final, 2002) et Adobe Premiere (Adobe, 2002) sont très utilisés dans le domaine de la vidéo personnelle. Si de tels outils sont adaptés au traitement d’une vidéo par un utilisateur, il faut toutefois souligner que de tels logiciels nécessitent encore une intervention de l’utilisateur lors de la plupart des étapes du travail de montage, que ce soit pour spécifier les segments concernés ou pour définir et appliquer les opérateurs de manipulation. Dans le cas de grandes bases de données vidéo accédées et manipulées de façon concurrentielle par différents groupes d’utilisateurs, il est souhaitable de disposer de logiciels, sinon moins interactifs, en tous cas plus performants. Aussi, quatre fonctionnalités majeures sont attendues des systèmes de gestion de bases de données vidéo. Ils doivent permettre (i) de créer et de gérer de grandes bases de données contenant plusieurs documents vidéo de taille variable ; (ii) de rechercher dans ces bases de données les vidéos ou les segments vidéo qui correspondent à un critère de recherche donné ; (iii) de créer dynamiquement et automatiquement une ou plusieurs vidéos comprenant les segments sélectionnés dans un certain ordre ; (iv) de garantir des niveaux de qualité et de performance acceptables pour l’utilisateur.

Pour le stockage et la manipulation de la donnée vidéo, de tels systèmes s'appuient sur une utilisation intensive des ressources matérielles ainsi que sur le développement d’algorithmes ad hoc pour améliorer le travail de compression et de décompression des données. En ce qui concerne l'indexation, on peut considérer qu'il existe trois niveaux de représentation attachés à la donnée vidéo :

1. un niveau signal ou bas niveau qui s'attache à décrire les caractéristiques des segments d'une vidéo comme les couleurs, la texture, la taille, les formes reconnaissables…

2. un niveau structurel qui met en évidence une organisation hiérarchique de la vidéo en images, plans, scènes et séquences. Cette structuration est issue du monde de la production cinématographique.

Modèles pour résumés adaptatifs de vidéos 3

3. un niveau sémantique qui vise à fournir une description de haut niveau de ce que contient la vidéo, qu'il s'agisse de personnages, de lieux, ou d'actions et de leurs interactions. On cherche ici à modéliser l'"histoire" véhiculée par le contenu de la vidéo. La vidéo étant un média complexe, on peut trouver également à ce niveau une description des sous-titres ou/et de la bande sonore associés, le cas échéant, à la vidéo. Enfin, on peut associer à ce niveau, la description de méta-informations qui peuvent contribuer à expliquer le contexte de la prise de vue, comme par exemple, la date ou l’auteur.

Selon le niveau de représentation ciblé, il est possible ou pas d’extraire automatiquement l’information recherchée. Ce travail de recherche et d’extraction des caractéristiques, de la structure, et de la sémantique à des fins de modélisation constitue le travail d’indexation de la vidéo. En règle générale, l'extraction des informations de bas niveau (couleurs, texture, formes…) d'une image ou d'un segment d'images est un processus automatisable. La recherche de plans ou de scènes d'une vidéo a fait des progrès sensibles depuis une dizaine d'années et l'on peut parler d'un processus semi-automatique, le recours à l'utilisateur pouvant être nécessaire pour valider le découpage ou lever les indécisions du système. Pour les informations de plus haut niveau, hormis quelques domaines particuliers dans lesquelles les vidéos répondent à des schémas fixes, (comme les journaux télévisés ou les reportages sportifs), il est évident que l'indexation nécessite encore aujourd'hui l’assistance d’un opérateur humain.

Le résultat de l’indexation d’une vidéo est une description numérique (exploitable par une machine) de la vidéo dans un ou plusieurs formalismes qui permettent l’accès, la recherche, le filtrage, la classification et la réutilisation de tout ou partie de cette vidéo.

Plusieurs formalismes de représentation ont été proposés pour les trois niveaux évoqués ci-dessus. Le standard MPEG-7 (Mpeg-7, 2002), aujourd'hui reconnu, fédère et supporte différentes descriptions telles que les caractéristiques liées au signal (forme, taille, texture, couleur, mouvement, position…), les informations sur le contenu (personnage, lieu, action…), ou encore les méta-données (auteur, date de création, format…). Il est également possible, en utilisant ce standard, de décrire les relations temporelles et spatiales entre les objets qui composent la vidéo. Ces descriptions MPEG-7, appelées Description Schemes, sont définies en utilisant le langage XML Shema et peuvent être instanciées comme des documents XML.

Une fois la description d'une vidéo établie, il est possible de créer dynamiquement un ou plusieurs résumés de cette vidéo. Un résumé est un extrait de la vidéo qui vise à écourter la présentation de la vidéo en en présentant les moments jugés essentiels. En effet, s'il est possible de créer automatiquement un résumé par sélection "aveugle", la génération automatique de résumé requiert l'expression de critères de préférence qui seront exploités pour la sélection des segments d'images constituant le résumé.


Dans la première partie de ce papier, nous faisons tout d'abord un tour d'horizon des différents travaux qui visent à capturer le contenu d'une vidéo selon les trois aspects évoqués : les caractéristiques techniques intrinsèques, la structure cinématographique et la sémantique. Nous nous intéressons ensuite aux travaux menés dans le domaine de la génération automatique de résumés de vidéos. Dans la seconde partie, nous présentons les modèles de VISU, le système pour la génération automatique de résumés adaptatifs de vidéo que nous développons. Ces modèles capitalisent des approches éprouvées dans le domaine de la recherche d'information, comme l'utilisation de Graphes Conceptuels (Sowa, 1994). Nous montrons comment les modèles de VISU adaptent ces résultats au contexte de la vidéo. Les vidéos sont ici annotées à l'aide de Graphes Conceptuels chargés des descriptions complexes du contenu des images ou des segments d'images de ces vidéos. Nous exploitons un algorithme (Ounis et al., 1998efficace d'appariement de graphes (graphe matching), basé sur l'implication matérielle des Graphes Conceptuels, pour traiter les requêtes chargées de la composition des résumés de vidéos. Le formalisme de requête proposé, basé sur le langage SQL, permet de décrire, à partir de critères de choix sur le contenu et la durée, les résumés à générer. L'adaptativité des résumés repose sur ces critères de choix. Nous présentons la manière dont ces requêtes sont traitées et décrivons comment les contraintes temporelles qui régissent la durée d'un résumé sont satisfaites.

La suite du papier est organisée de la manière suivante. Dans la prochaine section, les différents types de représentation de la donnée vidéo sont présentés. La section 3 rappelle les principales approches dans le domaine des résumés de vidéo. La section 4 décrit les modèles du système VISU. Nous concluons dans la section 5 en donnant les perspectives de ce travail.

2. Descriptions de Vidéos

2.1. Description de bas niveau

Les caractéristiques bas-niveau d'une vidéo sont des éléments d’indexation qui peuvent être extraits automatiquement par application d’algorithmes et sans connaissance particulière du contexte. Ces données correspondent généralement à des interprétations en terme de couleur, de forme, de structure ou de déplacement d’objets. Ces informations résultent de l’analyse de chaque image ou de segments d'images de la vidéo.

Le plus souvent, les techniques d'extraction d'information liées à l'analyse d'une seule image, visent à la segmenter en régions afin d'en extraire des informations concernant les couleurs, textures et formes qu'elle contient. C'est ce qui est proposé notamment par les systèmes d'interrogation de bases d'images QBIC (Flickner et al., 1995) et Netra (Ma et al., 1997). Le standard MPEG-7 propose, dans sa partie


dédiée à la vidéo, des schémas de description qui permettent la description des couleurs des régions d'une image (ou d'une image entière, ou d'un groupe d'images) par détermination de différents espaces de couleur, en utilisant les couleurs dominantes ou des histogrammes. Egalement, MPEG-7 peut rendre compte de la texture des régions, à un bas niveau de description correspondant à des filtres de Gabor ou à un plus haut niveau en utilisant trois caractéristiques : la régularité, la direction et la granularité. Enfin, la forme des régions d'une image peut être décrite en MPEG-7 par une représentation des contours basée sur la courbure multi-échelles ou CSS (Curvature Scale Space) ou sur des histogrammes de formes.

L'interrogation d'une base d'images peut donc s'appuyer sur des mesures de similarité entre les caractéristiques bas niveau d'une image-requête proposée comme exemple du résultat attendu et celles des images présentes dans la base. Cependant, appliquer une telle technique d'interrogation sur chacune des images d'un document vidéo rendrait le temps de traitement de cette requête prohibitif. D'autre part, il faut prendre en compte le fait que deux images consécutives dans une vidéo sont en général assez semblables, et, si ce n'est pas le cas, cette différence est porteuse d'information au niveau structurel, puisqu'elle peut correspondre à un changement de plan. Cette observation milite donc pour un traitement de segments d'images, plutôt que pour un traitement par image, dans l'indexation et l'interrogation de vidéos.

Les caractéristiques d'un segment d'images peuvent être extraites à partir d'une moyenne des caractéristiques des images de la séquence. C'est ce qui est fait, par exemple dans (Assfalg et al., 1998), pour déterminer le taux de couleurs saturées dans les publicités.

D'autres approches proposent de définir et d'utiliser le mouvement d'objets visibles mais aussi les mouvements de la caméra pour l'indexation de vidéo. Là encore, MPEG-7 intègre la notion de trajectoire soit à partir de la donnée de points clefs et de techniques d'interpolation ou à partir des vecteurs de mouvements utilisés déjà par MPEG-1 et MPEG-2. Dans le système VideoQ (Chang et al., 1998), les auteurs décrivent diverses façons d'extraire des mouvements d'objets de films vidéos et de formuler et traiter des requêtes portant sur ces mouvements. Dans le domaine des bases de données (Li et al., 1997), on s'est également intéressé à la modélisation du mouvement des objets afin de permettre d'interroger rapidement un SGDB orienté objet sur des parties de vidéos, à partir de requêtes SQL.

En conclusion, les éléments d'indexation proposés ici sont de trop de bas niveau pour pouvoir être aisément manipulés dans un processus d'interrogation par des utilisateurs non avertis. L'intérêt principal de ces caractéristiques bas-niveau est qu'elles peuvent être extraites automatiquement des vidéos en s'affranchissent de la sémantique du contenu. Le courant actuel des recherches dans le domaine vise à apparier ces caractéristiques bas niveau à des informations de plus haut niveau, afin d'automatiser le processus d'indexation du contenu.


2.2. Description structurelle

Il est maintenant largement accepté que les documents vidéos sont hiérarchiquement structurés en séquences, scènes, plans et images (comme le montre la Figure 1). Une telle structure reflète sinon le processus de création de la vidéo, les différentes étapes du montage.

Figure 1 : Structure cinématographique d'une vidéo.

Etablir la structure cinématographique de la vidéo trouve sa justification dans le fait que, comme la table des matières d'un livre, elle fournit un accès direct aux différents composants d'une vidéo.

Les plans sont définis comme des séquences continues d'images prises sans arrêter la caméra. Les scènes sont définies comme des suites de plans contigus qui sont sémantiquement reliés, bien que certains systèmes (Li et al., 2001)(Li et al., 2002) n'imposent pas cette condition.

Après le travail séminal de Nagasaka et Tanaka en 1991 (Nagasaka et al., 1991), de nombreuses études ont été menées sur la détection automatique de plans dans les vidéos (Zhang et al., 1993)(Aigrain et al., 1994)(Zabih et al., 1995)(Quénot et al.,1999). L'enjeu est d'essayer de détecter les différents types de transition de plans qui peuvent survenir dans une vidéo. On trouve dans TREC 2001 (Smeaton et al., 2001) la comparaison de différentes approches de segmentation temporelle. Si la détection des coupes franches entre deux plans est assez aisée, la détection des limites entre deux plans liés par des effets spéciaux de la caméra, comme un fondu enchaîné par exemple, est nettement plus difficile.

1 N

plan 1 plan P plan 2

scène 1 scène 2 scène S

séquence 1 séquence Q

…

…

…

Images

Vidéo


D'autres approches s'attachent à détecter des scènes plutôt que des plans. Dans cette lignée, les auteurs de (Li et al., 2001) s'appuient à la fois sur la bande son et la consistance des dialogues entre les plans et sur le sous-titrage, lorsqu'il est présent. Bolle et al. (Bolle et al., 1996) ont introduit des types prédéfinis de plans et des règles pour détecter les scènes. Ce travail a été étendu dans (Nam, 2002) en prenant en compte les changements émotionnels de voix repérés dans la bande-son.

Une fois que les plans et les séquences sont déterminés, il est possible de décrire le contenu de chacun de ces éléments structurels afin d'extraire des extraits de vidéos à partir de requêtes ou en navigant dans un graphe synthétique de la vidéo (Yeo et al.,1997).

2.3. Description sémantique

La description sémantique du contenu d'une vidéo s'appuie sur la notion d'annotation. Une annotation représente une description symbolique de la vidéo ou d’un segment particulier de la vidéo. Bien que dans certains domaines ciblés tels que le sport (Babaguchi et al., 1999) ou les journaux d'informations (Zhang et al., 1995)(Merialdo et al., 1999), il soit possible de réaliser une extraction automatique des annotations, la définition des annotations est réalisée manuellement par l'utilisateur, avec l’aide d’un logiciel d’indexation (Kankahalli et al., 2001).

Le modèle le plus utilisé pour représenter le résultat de l’indexation est le modèle de strates. Une strate est une liste de segments de vidéos auxquels est attachée une annotation. Un segment est un intervalle d’images fixes contiguës. Une strate regroupe des segments d'images qui partagent une sémantique commune, représentée par l'annotation.

Chaque strate est associée à une liste de segments de vidéos ordonnés chronologiquement. Comme le montre la Figure 2, les strates d'une vidéo peuvent avoir des segments en commun. Cela signifie que les objets, évènements ou actions contenus dans les annotations respectives de ces deux strates apparaissent ou se produisent simultanément dans les segments d'images qui se chevauchent.

Strate1 Strate2

0 t

Strate3

Figure 2. Stratification d'une vidéo.


Aguierre Smith et Davenport (Aguierre et al., 1992) ont été les premiers à introduire la notion de stratification pour agréger une collection d'images selon des descriptions contextuelles. Dans (Kankahalli et al., 2000) et (Chua et al., 2002), les auteurs proposent une approche par stratification inspirée de (Aguierre et al., 1992), pour représenter le contenu sémantique de vidéos. Ici, une strate définit une liste d’intervalles temporels disjoints, mais les strates ne sont pas structurées ni reliées les unes aux autres. Un intervalle temporel est défini par les numéros de la première et de la dernière image d'un segment. Une vidéo est décrite par un ensemble de strates, parmi lesquelles on distingue les strates entités et les strates dialogues. Une strate entité spécifie une information sur l'occurrence d’un objet ou d’un concept et possède une représentation booléenne. Par exemple, une strate entité permet de spécifier la présence ou l’absence d’une personne dans un segment ou d’exprimer une information sensitive telle que « images choquantes » sur un segment. Les strates entité sont également utilisées pour modéliser la structure cinématographique plan/scène/séquence de la vidéo. Les strates dialogues contiennent le texte des dialogues de chaque segment. Ces strates peuvent être générées automatiquement via des techniques de reconnaissance de la parole. Les recherches sont basées sur des expressions booléennes pour les strates entités et sur le modèle vectoriel (Salton et al., 1992) pour les strates dialogue.

Dans (Weiss et al., 1995), les auteurs définissent une algèbre vidéo qui permet de combiner les strates pour spécifier de nouvelles strates. La structure de la vidéo est définie selon une approche descendante par raffinements successifs. D’un point de vue utilisateur, parcourir une structure hiérarchique, est certainement plus aisé que de naviguer sur une structure plate. Cependant, cette structuration complexifie la tâche de recherche de segments à l’intérieur d’une vidéo et des algorithmes de parcours des hiérarchies de strates sont introduits pour simplifier l'expression de réponses aux requêtes.

Une telle représentation arborescente des structures est également proposée dans (Subrahmanian, 1997). L’approche consiste à définir des arbres de segments de vidéos dans lesquels apparaissent des objets. Des fonctions spécifiques (comme FindVideoWithObject) permettent alors la recherche de segments sur des critères de contenu. Il existe d’autres approches bases de données telles que (Hjesvold et al., 1994) qui proposent une modélisation bases de données associée à une recherche sur un modèle de strates. Une formalisation des strates et de leurs relations basée sur les graphes a été proposée dans (Egyed-Zsigmond et al., 2000). Les nœuds racines du graphe sont des strates audio-vidéo auxquelles sont attachés des éléments annotations. Ces éléments proviennent d’une base de connaissances à objets dans laquelle les classes décrivant les annotations sont organisées en hiérarchies de spécialisation. L'exploitation de cette structure de graphe est faite par un algorithme de recherche de sous-graphe. Une requête sur le contenu d'une vidéo est formulée sous la forme d'un graphe, appelé graphe potentiel, qui est confronté au graphe global décrivant la vidéo. Le graphe des annotations peut aussi bien décrire les


objets, actions ou événements se produisant dans la vidéo que la décomposition en scènes, plans et images de la vidéo.

Le système VSTORM (Lozano et al., 1998) gère les données vidéo en utilisant un SGBD à objets. Les annotations peuvent être attachées à tous les niveaux de la structure cinématographique (plan, scène, séquence) de la vidéo qui est modélisée elle-même par une hiérarchie de classes. Cette approche "tout objet" facilite la représentation d’objets complexes, l'identification des objets pour une éventuelle réutilisation, et permet l’héritage des attributs et des méthodes. Adoptant une approche voisine, Carlos et al. (Carlos et al., 1999) ont proposé une représentation de la sémantique en utilisant un modèle objet à base de prototypes. Les prototypes peuvent être considérés comme des objets qui jouent à la fois un rôle de classe et un rôle d’instance. L’utilisateur décrit la vidéo en créant ou en adaptant un prototype existant. Les requêtes sont formulées sous la forme de nouveaux prototypes qui sont classés dans des hiérarchies de prototypes afin de chercher des correspondances avec les prototypes existants et de retourner les prototypes les plus satisfaisants. C'est donc un mécanisme de classification qui est ici sollicité.

Parmi les standards de la famille MPEG, le standard MPEG-7 s’intéresse plus particulièrement au problème des annotations (Mpeg-7, 2002)(Salembier et al., 2001). L’objectif général de MPEG-7 est de proposer des standards de description pour l’indexation et la recherche de segments audio-vidéo. Les descripteurs MPEG-7 sont définis, soit sous un format XML et donc aisément manipulables, soit sous un format binaire pour optimiser les ressources telles que la mémoire et la bande passante. Les descripteurs MPEG-7 permettent la description d'informations de bas niveau (la couleur, la texture, la forme…) ou de méta-informations (la localisation, la durée, le format…) qui peuvent être extraites automatiquement ou déterminées. Ils permettent également de décrire des informations de plus haut niveau, issues d’une indexation manuelle et concernant l'organisation des images ou des segments (les régions, les relations spatiales, temporelles…), mais aussi le contenu (les objets, les actions…), la vidéo en tant que document (copyright, date de création, résumé…). Il est également possible de décrire comment prendre en compte les préférences des utilisateurs au moment de la présentation.

MPEG-7 propose des schémas de description qui englobent des descripteurs et des relations entre descripteurs. Le langage de définition des schémas de description et des descripteurs est basé sur le langage XML Schema avec des extensions pour prendre en compte les vecteurs et les matrices. Parmi les schémas de description, le schéma de description sémantique est dédié à la représentation d'objets, de concepts, de lieux et de temps du monde narratif. Ces descriptions peuvent être très complexes ou abstraites. Par exemple, en utilisant des structures d’arbre ou de graphe, il est possible de définir des actions ou des relations entre des objets simples, des strates vidéo ou des concepts abstraits tel que le bonheur. Enfin, et c'est ce qui permet de faire un parallèle avec l'approche à base de strates, il est possible de relier chacun des schémas de description de MPEG-7 avec un intervalle temporel correspondant à un segment d'images de la vidéo.


En conclusion, la puissance d’expression d’un modèle d’indexation est donc liée à sa capacité à définir finement des strates, les éventuelles relations (ensemblistes, temporelles…) entre les strates, et les liens entre strates et annotations associées. Non moins important est le choix d'un formalisme de représentation de connaissances (logique, relationnel, objets, graphes conceptuels, réseaux sémantiques…) pour représenter les annotations chargées de la description sémantique de haut niveau.

3. Résumés de vidéos

La production de résumés de vidéos vise à construire un extrait "fidèle" de la vidéo originale afin d'en écourter le visionnage et donc la navigation lors de la recherche d'une information. La problématique de la production de résumés de vidéos consiste à être capable de présenter de manière synthétique le contenu de la vidéo, en préservant l'essentiel du message original (Pfeiffer et al., 1996). Comme l'indiquent Li et al (Li et al., 2001), il existe deux types de résumés de vidéos : ceux réalisés à partir d'images fixes et ceux réalisés à partir de segments d'images qui ont chacun une intégrité sémantique. Les résumés à base d'images fixes, comme ceux proposés par Video Manga (Uchihashi et al., 1999)(Uchihashi et al., 1999), présentent les images clefs de la vidéo, alors que les résumés à segments d'images rassemblent des séquences importantes de la vidéo originale. Dans la littérature, les premiers résumés sont appelés simplement résumés de vidéo (ou video summary), les seconds sont appelés condensés de vidéo (ou video skimming).

Réaliser un condensé de vidéo est un processus plus compliqué que de réaliser un résumé de vidéo car ce choix impose une synchronisation audio-visuelle des séquences d'images sélectionnées, afin de restituer un condensé sonore cohérent de la vidéo originale. Un condensé de vidéo peut être d'abord obtenu par une modification de l'échelle temporelle du son (Amir et al., 2000) qui consiste à compresser la vidéo et à augmenter la vitesse du son en préservant un timbre, une qualité et un ton de voix audible et compréhensible. Une autre approche s'attache à ne retenir que les scènes importantes afin de construire un condensé qui peut dès lors être apparenté à une bande-annonce de la vidéo originale. Il s'agit donc ici de proposer un mécanisme de détection de scènes. Dans les travaux de Lienhart et al (Pfieffer et al., 1995)(Lienhart et al., 1997), les scènes présentant un contraste important, les scènes dont la coloration est dans la moyenne de la vidéo, et les scènes comportant de nombreuses images distinctes les unes des autres, sont considérées comme des scènes déterminantes. A ce titre, détectées automatiquement, elles sont intégrées dans la bande annonce. Les scènes d'action (présentant un bruit d'explosion, un coup de feu, un mouvement rapide de la caméra) sont également détectées. Là encore, le sous-titrage peut être exploité afin de sélectionner des segments audio qui contiennent des mots-clefs recherchés (Smith et al., 1997) en faisant appel à des techniques de reconnaissance de texte. Une fois ces segments audio identifiés, les segments d'images correspondants sont assemblés dans l'ordre


chronologique en un condensé de vidéo. La classification (ou clustering) est également souvent utilisée pour rassembler des images de vidéos qui ont en commun des caractéristiques (couleur, texture, mouvement…) semblables (Hanjalic et al., 1999). Une fois que l'ensemble des groupes (ou clusters) d'images est obtenu, l'image-clef la plus représentative de chaque cluster est extraite. Le condensé est ici construit en assemblant les plans ou les scènes de vidéo qui contiennent ces images-clefs. Ainsi, dans (Lienhart, 2000), des sous-parties de plans sont traitées par un algorithme de classification hiérarchique afin de générer des résumés de vidéo.

Obtenir un résumé de vidéo en assemblant des images fixes peut sembler une tâche plus facile à effectuer puisqu'il s'agit simplement d'extraire de la vidéo originale des séquences d'images que l'on juge les plus représentatives, en écartant les problèmes de sélection des segments audio associés, de synchronisation ou de gestion du sous-titrage. La représentation des résumés de vidéos peut être étendue des images fixes à des segments d'images. De même, cette représentation peut chercher à s'appuyer sur la structure cinématographique de la vidéo. Là encore, le problème est de définir une mesure de la pertinence des images ou segments d'images à assembler pour créer le résumé.

De nombreuses approches reposent uniquement sur la construction de résumés à partir d'une extraction d'images basée sur des caractéristiques de niveau signal. Par exemple, Sun et Kankanhalli (Sun et al., 2000) ont proposé une classification adaptative basée sur le contenu (Content-Based Adaptive Clustering) qui élimine de manière hiérarchique des groupes d'images à partir des différences de couleur qu'ils présentent. Conceptuellement, ce travail est proche de (Chiu et al., 2000) (basé sur les Algorithmes Génétiques) et de (Gong et al., 2000) (basé sur une décomposition en valeur simple). D'autres approches, comme (Oh et al., 2000) et (DeMenthon et al., 2000), s'appuient sur la reconnaissance d'objets et/ou de fonds d'images particuliers pour générer des résumés. Une autre caractéristique de niveau signal qui est exploitée pour la génération de résumés est le mouvement. Par exemple, les auteurs dans (Ju et al., 1998) proposent d'utiliser la reconnaissance de mouvement de caméra ou de mouvements de personnes dans le contexte de films comportant des exposés oraux réalisés à l'aide de transparents. Tseng et al. (Tseng et al., 2002) montrent comment les représentations MPEG-7 peuvent être utilisées pour générer des résumés à partir de l'assemblage de plans dont la pertinence est déterminée à partir de la description de ces plans en termes de couleurs et de mouvements.

Enfin, dans des contextes particuliers présentant des séquences répétitives (Ebadollahi et al., 2001), comme les électrocardiogrammes, le processus de génération utilise une connaissance a priori pour extraire des résumés. Dans d'autres contextes comme les journaux télévisés (Maybury et al., 1997), le déroulement étant supposé connu et fixe (générique, enchaînement, lancement d'un sujet, international, national, sports, météo…), il est plus facile de détecter et d'extraire les parties les plus intéressantes. D'autres approches exploitent de multiples caractéristiques pour résumer des vidéos : (Maybury et al., 1997) extraient les sous-titres et détectent des


changements de voix, (Smith et al., 1997) extraient des visages humains et des segments sonores significatifs, etc.

Le processus qui mène à la conception et à la génération de résumés de vidéos est donc complexe comme le montrent les différentes approches présentées. Notre approche consiste à annoter des segments d'images d'une vidéo à l'aide de Graphes Conceptuels (Sowa, 1984) et à stratifier la vidéo en distinguant diverses annotations communes à des segments d'images non contigus de la vidéo. Les Graphes Conceptuels sont un formalisme qui permet des descriptions complexes du contenu d'une vidéo. Ces descriptions peuvent ensuite être manipulées pour le traitement de requêtes par des algorithmes efficaces (Ounis et al., 1998). Cette approche est adoptée par le système VISU (pour VIdeo SUmmarization) dont nous présentons les modèles dans la section suivante.

4. Modèles pour la génération de résumés adaptatifs de vidéos

Nous présentons dans cette section les modèles du système VISU qui permettent d'annoter les vidéos afin de décrire la sémantique de leur contenu, de tenir compte de leur structure cinématographique et d'interroger les annotations afin de produire un résumé. Les deux premiers de ces modèles sont un modèle d'annotations qui utilise des Graphes Conceptuels pour représenter les annotations et un modèle de strates pour lier des annotations à des segments d'images. Les segments d'images sont eux-mêmes associés aux divers constituants d'un modèle qui rend compte de la structure du point de vue cinématographique d'une vidéo : séquences, scènes, plans, images. Enfin, le modèle de requêtes étend le standard SQL pour permettre la description des résumés à générer. Le traitement des requêtes exploite un algorithme d'appariement de graphes (graph matching) afin d'extraire les images ou segments d'images qui correspondent à la sélection opérée par la requête. Dans un deuxième temps, les images ou segments d'images obtenus en résultat sont filtrés ou bien d'autres segments d'images de la vidéo sont sélectionnés afin de répondre aux contraintes temporelles formulées dans la requête.

4.1. Modèle d'annotations et modèle de strates

Une vidéo est vue ici comme un ensemble de N segments d'images consécutifs. Chaque segment est déterminé soit par un intervalle [td , tf] où td est le temps de début du segment (par rapport au temps t0 du début de la vidéo) et tf est le temps de fin du segment (où t0 est le temps du début de la vidéo), soit par un intervalle [id , if] où id est le numéro de l'image de début du segment (où i0 est la première image de la vidéo) et if est le numéro de l'image de fin du segment (par rapport à la première image i0 de la vidéo). Annoter une vidéo peut se faire de deux façons. Il est possible de parcourir séquentiellement la vidéo et de définir, pour chaque segment d'images identifié, une description ou annotation. De même, il est possible de définir des


strates et d'associer à chacune d'elle une annotation. Une strate est une liste de segments (donc d'intervalles de temps ou d'images) disjoints et chronologiquement ordonnés dans lequel les objets, concepts, événements ou actions décrits par l'annotation associée à la strate apparaissent.

Nous conservons ici ces deux possibilités d'annotation, séquentielle dans le premier cas, stratifiée dans le second. Dans les deux cas, nous choisissons de décrire les annotations d'une vidéo à l'aide du formalisme des Graphes Conceptuels (GC). Les Graphes Conceptuels sont un formalisme simples, déclaratifs et puissant de représentation de connaissances comme l'ont notamment montré Mugnier et Chein (Mugnier et al., 1996).

Nous considérons que les objets, concepts, événements et actions qui sont impliqués dans le contenu d'une vidéo forment des Unités de Représentations Elémentaires (URE) et correspondent à des nœuds de Graphes Conceptuels GC). Annoter un segment consiste à choisir les URE (objets, concepts, événements, actions) décrivant son contenu et à lier entre eux ces nœuds pour former un Graphe Conceptuel ou plusieurs Graphe Conceptuel non connexes. Définir l'annotation associée à une strate consiste à lier un ensemble de segments à un Graphe Conceptuel formé d'une URE ou de plusieurs URE liés.

Figure 3. Un exemple de structuration d'annotations pour une vidéo. Une vidéo de 300 images est annotée en utilisant 2 strates, Strate1 et Strate2. Le segment de vidéo entre les images 87 et 165 est lié seulement à la Strate2. Les segments d'images [16, 86], [178,192] et [230,246] sont décrits par la même annotation associée à la Strate1. Les intervalles d'images [166, 177] et [193,229] sont décrits par une strate composée Strate3 qui correspond à la conjonction des annotations des strates Strate1 et Strate 2.

Strate 287-165

Strate 1 16-86; 178-192 230-246

Strate3 166-177 193-229

video 0-22

video 246-300

Strate 1 Strate 2

0 300 niveau strate

niveau structuré


Dans la stratification d'une vidéo, comme le montre la Figure 3, deux strates de la vidéo peuvent avoir des segments en commun, ce qui signifie que les objets, concepts, événements ou actions liés à ces strates apparaissent simultanément dans ces segments et que ces segments sont annotés par un Graphe Conceptuel contenant les deux annotations correspondantes, ou par deux Graphes Conceptuels non connexes contenant chacun une annotation. Les segments communs à deux strates peuvent être obtenus en faisant l'intersection des listes de segments de ces deux strates.

Les Graphes Conceptuels qui constituent les annotations associés aux segments d'images sont des graphes bipartis orientés composés de deux types de nœuds : les concepts et les relations.

- Un concept, noté [T: r] de manière alphanumérique et T: r de manière graphique, est composé d'un type de concept T et d'un référent r. Les types de concepts sont organisés dans un treillis qui représente la relation d' ordre partiel de généralisation/spécialisation. Pour qu'un concept soit syntaxiquement correct, le référent doit être du type du concept, en accord avec la relation de d'appartenance préétablie. La Figure 4 montre un treillis simple qui décrit les types de concept Personne, Femme et Homme; Tc et ⊥ c représentent respectivement les types du concept le plus générique et du concept le plus spécifique. Un référent r peut être individuel (i.e. il représente une instance identifiée de manière unique du concept), ou générique (i.e. il représente n'importe quelle instance du concept et est noté par une étoile : "*"). Les Concepts représentent des objets, événements ou concepts abstraits de l'univers du discours (ici le contenu de la vidéo).

- Une relation R est notée (R) de manière alphanumérique et par un ovale contenant R de manière graphique. Les relations sont également représentées dans un treillis basé sur une relation d'ordre partiel de généralisation/spécialisation (voir Figure 5). Les Relations représentent les actions ou relations (spatiales, temporelles…) existant entre les objets de l'univers du discours.

Tc

Personne

Femme Homme

⊥ c

TR

Action

Tenir Lancer_à Donner_à

⊥ R Figure 4. Un exemple de treillis de types de concept.

Figure 5. Un exemple de treillis de relations (ici des actions).


Nous appelons arche un triplet (concept, relation, concept) qui lie trois nœuds – deux concepts et une relation – dans un Graphe Conceptuel. Dans la suite du papier, nous notons une arche par le triplet "concept!relation!concept".

Les Graphes Conceptuels peuvent être utilisés pour des descriptions simples ou complexes. Par exemple, le Graphe Conceptuel, noté [Homme: #Jean]!(parler_à)![Femme: #Marie] peut servir de description (annotation) de la sémantique du contenu d'une image ou d'un ou plusieurs segments d'images. Dans cette description, [Homme: #Jean] représente l'occurrence d'un homme, appelé Jean, [Femme: #Marie] représente l'occurrence d'une femme, appelée Marie, et le Graphe Conceptuel (ici réduit à une simple arche) exprime le fait que Jean parle à Marie. La Figure 6 donne une représentation graphique de ce Graphe Conceptuel simple. On peut noter que la puissance d'expression des Graphes Conceptuels permet de représenter des hiérarchies de concepts et de relations entre des objets comme cela est proposé par le comité MPEG-7.

H o m m e : # J e a n F e m m e : # M a r iep a r le r_ à

Figure 6. Un exemple de Graphe Conceptuel.

Les Graphes Conceptuels syntaxiquement corrects sont appelés Graphes Canoniques. Ils sont construits en utilisant un ensemble de graphes basiques, appelé Base Canonique, à partir des opérateurs de construction suivants :

- la jointure : cet opérateur joint deux graphes qui contiennent un concept identique (même type de concept et même référent),

- la restriction : cet opérateur contraint un concept en remplaçant un référent générique par un référent individuel,

- la simplification : cet opérateur supprime les relations redondantes qui peuvent apparaître après une jointure par exemple,

- la copie : cet opérateur copie un graphe.

Comme l'a montré Sowa (Sowa, 1984), l'avantage d'utiliser les Graphes Conceptuels est qu'il existe une transformation, notée φ, entre ces graphes et la logique du premier ordre, qui fournit aux Graphes Conceptuels une sémantique bien fondée. Un Graphe Conceptuel G est transformé φ, en la formule logique φ(G). Nous exploitons cette propriété pour garantir la validité du processus de génération automatique de résumés de vidéos. Ce processus est basé sur l'implication matérielle de la logique du premier ordre.


L'opérateur de jointure peut être utilisé pour fusionner des graphes. Le graphe G qui est la jointure de deux graphes Gi et Gj, réalisée à partir du concept Ci de Gi et du concept Cj de Gj, où Ci et Cj sont identiques, est tel que:

- chaque concept de Gi est dans G

- chaque concept de Gj sauf Cj est dans G

- chaque arche de Gj contenant Cj est transformée dans G en une arche contenant Ci

- chaque arche de Gi est dans G

- chaque arche de Gj qui ne contient pas Cj, est dans G

Comme décrit plus haut, une annotation associée à une strate peut correspondre à un Graphe Conceptuel ou à un ensemble de Graphes Conceptuels non connexes. Plus précisément, considérons par exemple deux annotations A1 et A2, décrites respectivement par les graphes GA1, "[Homme: Jean]! (parler_à) ! [Femme: Marie]", et GA2, "[Homme: Jean] ! (jouer) ! [Piano: piano1]" et associées respectivement aux strates S1 et S2. Si les segments d'images des strates S1 et S2 ont une intersection non vide, alors le graphe décrivant la strate S3 contenant les segments d'images communs à S1 et à S2, est le graphe GA3. Dans ce cas, les deux graphes GA1 et GA2 ont un concept commun : [Homme: Jean]. Aussi, le graphe GA3 est obtenu par la jointure des graphes GA1 et GA2, comme le montre la Figure 7. Le graphe GA3 est ici la meilleure représentation pour la conjonction des graphes GA1 et GA2, puisque dans GA3 est explicitement exprimé le fait que la même personne (Jean) joue et parle en même temps. Si nous considérons maintenant le graphe GA4 "[Homme: Pierre] ! (jouer) ! [Piano: piano1]", associé à une strate S4, alors la description de la strate S5 correspondant aux segments d'images qui se trouvent dans l'intersection de S1 et S4 ne peut pas être un Graphe Conceptuel résultat de la jointure entre GA1 et GA4 car ces deux graphes n'ont pas de concept en commun. L'annotation associée à S5 est l'ensemble des Graphes Conceptuels non connexes { GA1, GA4 }. La Figure 7 décrit la jointure des deux graphes GA1 et GA2.

Nous exploitons cette opération de jointure en étendant le modèle de stratifications avec les strates qui sont le résultat d'une intersection de deux ou plusieurs strates (par fermeture transitive de l'intersection). Pour chaque strate composée à considérer, on recherche à partir du plus petit des deux Graphes Conceptuels associés aux strates composantes, les concepts communs. Si de tels concepts communs existent, l'opération de jointure est lancée, le graphe joint résultat remplace alors les deux graphes joints. Si aucune jointure n'est possible, ces graphes sont conservés et placés dans l'ensemble des graphes qui décrivent la strate composée. La vidéo se trouve ainsi découpée en de plus nombreux segments d'images, mais les strates composées générées permettent de représenter les segments d'images décrits par des conjonctions d'annotations.


Figure 7. Jointure de deux graphes GA1 et GA2 sur le concept [Homme: #Jean] en un graphe GA3.

Notre objectif ici est d'exploiter les descriptions complexes données par les Graphes Conceptuels afin de générer des résumés de vidéos à partir de la description du contenu attendu de ces résumés. La description du contenu des résumés doit s'appuyer sur les URE utilisées pour décrire le contenu de la vidéo. Il faut alors être en mesure de comparer la description du contenu attendu (vue comme une requête) avec la description des segments annotés de la vidéo ou des vidéos (vue comme une base de données). Ceci requiert d'associer une mesure de pertinence relative aux éléments d'un Graphe Conceptuel : les concepts et les arches.

Les Concepts sont importants à considérer dans cette mesure de pertinence car ils correspondent à des objets, concepts abstraits ou événements présents dans les descriptions. Les arches sont importantes également car elles représentent les relations qui lient ces Concepts. La solution adoptée ici pour mesurer la pertinence des concepts et des arches est basée sur une approche Recherche d'Information et, plus particulièrement, sur l'attribution d'un poids de valeur ft*fid (fréquence du terme * fréquence inverse du document), utilisé depuis 30 ans dans le domaine de la recherche documentaire (Salton et al., 1975). La fréquence du terme ft est liée à l'importance d'un terme dans un document, la fréquence inverse du document fid est liée au pouvoir du terme de distinguer des documents dans un corpus. Historiquement, les valeurs ft et fid ont été définies pour des mots. Ici, nous les utilisons pour évaluer la pertinence des concepts et des arches dans les Graphes Conceptuels. Nous décrivons ci-dessous comment ces valeurs sont calculées, respectivement pour un concept et pour une arche, dans un Graphe Conceptuel :

- La fréquence du terme ft associée à un concept C dans un Graphe Conceptuel G est définie comme le nombre de concepts de G qui sont spécifiques au concept C. Un concept X défini par [typeX : référentX] est spécifique à un concept Y,

Homme: #Jean Femme: #Marie parler_à

Homme: #Jean Piano: piano1jouer

Homme: #Jean Femme: #Marie parler_à

Piano: piano1 jouer

GA1

GA2

GA3


[typeY : référentY], si le type typeX est un sous-type de typeY conformément au treillis des types des concepts, et si soit référentX=référentY (les deux concepts représentent le même individu), soit référentX est un référent individuel et référentY est le référent générique "*". Par exemple, dans le graphe "[Homme: Jean] ! (parler_à) ! [Homme: *]", représentant le fait que Jean parle à un homme non identifié, ft([Homme: Jean]) vaut 1, et ft([Homme: *]) vaut 2 car [Homme: Jean] et [Homme: *] sont spécifiques à [Homme: *]. Ceci traduit le fait que dans le graphe, un seul homme nommé Jean apparaît et, qu'en revanche, il est question de deux hommes, Jean et un autre.

- La fréquence inverse de document fid associée à un concept C est basée sur la durée relative des segments de la vidéo (considérée ici comme le document) qui sont décrites par C ou par un concept spécifique à C. Nous utilisons une formule inspirée de (Salton et al., 1998) : fid(C)=log(1+D/d(C)) où D est la durée totale de la vidéo et d(C) la durée de l'occurrence de C ou d'un concept spécifique à C. Par exemple, si Jean apparaît pendant 10% de la durée de la vidéo, alors fid ([Homme: Jean])=1.04, alors que si une homme (non identifié, Jean ou un autre) apparaît pendant 60% de la durée de la vidéo, fid ([Homme: *])=0.43. Ceci traduit le fait que chercher Jean est plus discriminant et précis que le fait de chercher un homme dans la vidéo.

Pour une arche, le principe est similaire aux concepts.

- La fréquence du terme ft associée à une arche A dans un Graphe Conceptuel G est définie comme le nombre d'arches de G qui sont spécifiques à l'arche A. Une arche (C1X, RX, C2X) est spécifique à une arche (C1Y, RY, C2Y) si et seulement si le concept C1X est spécifique au concept C1Y, et si le concept C2X est spécifique au concept C2Y, et si la relation RX est spécifique à la relation RY en accord avec le treillis des relations.

- La fréquence inverse de document fid associée à une arche A est définie de manière similaire à la fréquence inverse de document associée à un concept C. Elle est basée sur la durée relative des segments consécutifs de vidéos décrits par l'arche A ou des arches spécifiques à A.

4.2. Modèle de la structure cinématographique

Le modèle de la structure cinématographique (tel que décrit par la Figure 2) est dédié à la représentation de l'organisation de la vidéo en images, plans, scènes, séquences, comme décrit dans la section 2.3. Cette structure est un arbre qui reflète l'aspect compositionnel d'une vidéo. Chaque niveau de la structure cinématographique correspond à un niveau de l'arbre et un nœud à un niveau donné fournit l'intervalle qui délimite le plan, la scène ou la séquence correspondante. Nous avons choisi de limiter cette structure aux seuls images et plans, car les recherches actuelles dans le domaine de la détection automatique de plans font état d'une


précision de plus de 95% (à partir de coupes, comme décrit dans (Ma et al., 2001)), alors que la détection automatique de scènes ne nous semble pas encore assez efficace pour nos besoins.

4.3. Modèle de requête

Nous utilisons un modèle de requête basé sur SQL pour décrire le contenu attendu et la durée souhaitée du résumé. Par exemple, une requête, R1 qui exprime le fait que nous cherchons des extraits de vidéo(s) dans lesquels Jean parle à quelqu'un, peut s'écrire : "[Homme: #Jean]!(parler_à)![Humain: *]". Il est clair que le graphe G1 présenté en section 4.1.1 et noté [Homme: #John]!(parler_à)![Femme: #Marie] est une réponse à la requête R1. Dans le contexte de VISU, cela signifie qu'une image ou un segment d'images (en supposant que la contrainte sur la durée du résumé soit satisfaite) décrit par le graphe G1 devrait a priori être présent dans le résumé décrit au moyen de la requête R1.

Figure 8. Syntaxe générale d'une requête.

Dans le modèle de requêtes de VISU, nous autorisons également l'utilisateur à affecter des poids aux différents constituants de la partie sélection de la requête. Ces poids reflètent l'importance relative donnée par l'utilisateur aux termes de la requêtes et donc aux différents contenus retournés par celle-ci. La syntaxe générale d'une requête est donnée à la Figure 8, en utilisant la forme de Backus-Naur et la sémantique usuelle pour les symboles "[", "]", "{", "}" et "*".

Dans la forme générale d'une requête donnée Figure 8 :

- video désigne la vidéo initiale qui doit être résumée,

- graph est un Graphe Conceptuel représenté comme un ensemble d'arches écrites sous forme alphanumériques. Une arche a pour forme "[Type1: référent1|id1] ! (relation) ! [Type2: référent2|id2]", où les identificateurs de concepts id1 et id2 définissent de manière unique chaque concept qui apparaît dans plus d'une arche. Ces identificateurs sont ici nécessaires pour distinguer les concepts impliqués dans les requêtes, en particulier lorsque les requêtes portent sur des référents génériques. Par exemple, un graphe (donc une requête) représentant un homme Jean qui parle à une femme non identifiée et qui, en même temps, sourit

SUMMARY FROM video

WHERE graph [WITH PRIORITY {HIGH|MEDIUM|LOW}] [{AND|OR|NOT} graph [WITH PRIORITY {HIGH|MEDIUM|LOW}]]*

DURATION {<| ≤|≥|>|=}integer {s|m}


à une autre femme, est représenté par l'ensemble des arches : "{[Homme: Jean|0] ! (parler_à) ! [Femme: *|1], [Homme: Jean|0] ! (sourire_à) ! [Femme: *|2]}". Sans de tels identificateurs, il ne serait pas possible de distinguer le fait que Jean parle à une femme et qu'il sourit à une autre.

- integer après le mot-clef DURATION correspond à la durée souhaitée du résumé avec s pour les secondes et m pour les minutes.

La figure 9 montre comment obtenir un résumé extrait de la vidéo nommée "Vid001", montrant un homme, Jean, qui parle à une femme, Marie, Jean étant situé à droite de Marie – cette caractéristique est de priorité haute –, ou bien montrant de la neige tombant sur des maisons – cette caractéristique est de priorité moyenne –. On impose que la durée du résumé soit de 20 secondes.

Figure 9. Exemple de requête pour la génération d'un résumé.

5. Génération de résumés avec VISU

Nous détaillons ici le traitement d'une requête décrivant le contenu attendu d'un résumé de vidéo. Ce traitement comporte deux phases. La première est chargée de la correspondance entre le contenu extrait de la vidéo et la description fournit dans la requête. La seconde est chargée de rendre conforme la durée des segments d'images extraits de la vidéo constituant la réponse à la requête, à la contrainte de durée éventuellement exprimée dans la requête. Nous décrivons ici ces deux phases.

5.1. Quelques rappels théoriques de la Recherche d'Information

Afin d'évaluer la valeur de pertinence d'une annotation Aj vis-à-vis d'une requête Ri, nous adoptons le modèle logique associé à la Recherche d'Information proposé par Van Rijsbergen (Van Rijsbergen, 1986). Ce méta-modèle stipule dans son Principe Logique de l'Incertitude que l'évaluation de la pertinence d'un document (représenté par une phrase D) vis-à-vis d'une requête (représentée par une phrase R) repose sur l'extension minimale à ajouter à l'ensemble des données afin que

SUMMARY FROM Vid001 WHERE {[Homme: Jean|0] ! (parler_à) ! [Femme: Marie|1],

[Homme: Jean |0] ! (à_droite_de) ! [Femme: Marie|1]}WITH PRIORITY HIGH

OR {{[Neige:*|0]->(tomber_sur)->[Maison:*|1]} WITH PRIORITY MEDIUM

DURATION = 20s


l'implication logique D⇒R soit vérifiée. Dans notre cas, l'établissement de D⇒R est liée à la connaissance disponible dans le Canon des Graphes Conceptuels (constitué de la base canonique, du treillis des types de concepts, et du treillis des relations, ainsi que la relation d'appartenance des référents aux types de concepts). Le document D et la requête Y sont ici des Graphes Conceptuels ou des ensembles de Graphes Conceptuels. Nous expliquons dans la section suivante comment la valeur de pertinence d'une annotation Aj vis-à-vis d'une requête Ri est obtenue.

5.2. Appariement de graphe

Le formalisme des Graphes Conceptuels permet d'interroger et de chercher de sous-graphes dans un graphe en utilisant l'opérateur de projection (Sowa, 1984). L'opérateur de projection est équivalent à l'implication matérielle de la logique du premier ordre d'après la sémantique donnée aux Graphes Conceptuels. Cette opération de projection correspond à une recherche de sous-graphe et prend en compte les treillis de types de concepts et de relations. La projection d'un graphe requête GRi sur un graphe conceptuel GAj, notée πGAj(GRi), conclut à l'existence d'un sous-graphe de GAj qui est spécifique au graphe GRi. De manière informelle, un Graphe Conceptuel GD est une projection d'un graphe GR si chaque concept de GR a un concept spécifique dans GD. Si une telle projection existe, alors il a été prouvé que φ(GD) ⇒ φ(GR). Ce qui signifie que le document répond à la requête. La projection est donc un opérateur essentiel pour l'appariement de graphe et permet de comparer une requête de résumé à une annotation de vidéo. Dans (Ounis et al., 1998), il a été montré qu'un algorithme de recherche correspondant à l'opérateur de projection sur les Graphes Conceptuels peut être implémenté de manière très efficace en termes de complexité. Nous proposons d'utiliser cet algorithme.

Nous quantifions l'appariement entre un graphe requête GR et un graphe d'annotation GS en combinant un appariement sur les concepts et un appariement sur les arches, en nous inspirant de (Beretti et al., 2001) et (Mulhem et al., 2001) : F(GR, GS) = Σ{ft(C).fid(C)|C ∈ concepts de πGS(GR)}

+ Σ{ft(A).fid(A)|A ∈ arches deπGS(GR)} [1]

Dans la formule [1], les fréquences de termes ft et les fréquences inverses de documents fid sont calculées comme cela est décrit dans la section 4.1.1.

Etant donné qu'une annotation peut-être un Graphe Conceptuel ou un ensemble de Graphes Conceptuels non connexes, nous définissons l'appariement entre un graphe requête GR et un ensemble S de graphes d'annotation GS, comme le maximum des appariements entre GR et chacun des graphes GS de S :


)),(F(S),M( GGmaxG SRR SGS∈= [2]

Cet appariement entre un graphe requête GR et un ensemble d'annotations donne une valeur de la pertinence de chaque annotation de cet ensemble vis-à-vis de la requête.

5.3. Evaluation des expressions de requête

Nous décrivons ici comment est traitée une priorité P apparaissant dans la sous-expression de requête "{graph} WITH PRIORITY P", P valant "HIGH", "MEDIUM" ou "LOW". La priorité reflète l'importance attachée par l'utilisateur à cette sous-expression de requête dans la génération de résumé. Cette notion de priorité, souvent utilisée en Recherche d'Information, a été introduite par les systèmes MULTOS (Rabitti et al., 1990) et OFFICER (Croft et al., 1990). Pour chaque sous-expression de requête, la pertinence de chaque annotation associée à un segment de la vidéo est évaluée à partir de la formule (2). Soit v la pertinence d'une des annotations de la vidéo. La valeur de pertinence effective associée à la sous-expression est v×p, où p vaut 0.3 lorsque P vaut "LOW", 0.6 lorsque P vaut "MEDIUM" et 1.0 lorsque P vaut "HIGH". On cherche ici à donner plus de poids aux annotations répondant aux sous-expressions de requêtes de priorités fortes.

Les expressions complexes de requêtes sont construites à partir d'expressions booléennes portant sur des sous-expressions élémentaires. Ces expressions complexes de requêtes sont évaluées en utilisant les définitions de Lukasiewicz pour les logiques multivaluées :

- une expression de requête composée de "A AND B" où A et B sont deux sous-expressions élémentaires a pour valeur le minimum des appariements des sous-expressions (sous-requêtes) A et B. L'annotation qui répond à la fois à A et à B a pour valeur de pertinence le minimum des valeurs de pertinence de cette annotation pour A et pour B.

- une expression de requête composée de "A OR B" où A et B sont deux sous-expressions élémentaires a pour valeur le maximum des appariements des sous-expressions (sous-requêtes) A et B. L'annotation qui répond à la fois à A ou à B a pour valeur de pertinence le maximum des valeurs de pertinence de cette annotation pour A et pour B.

- une expression de requête composée de "NOT A" où A est une sous-expression élémentaire a pour valeur l'opposée de la valeur de l'appariement de la sous-expression (sous-requête) A. L'annotation qui répond à A n'est en effet pas pertinente pour cette requête.


A partir de ces interprétations des opérateurs booléens impliqués dans les requêtes, on peut alors obtenir une valeur de pertinence globale pour chaque annotation d'une vidéo vis-à-vis d'une requête.

La partie d'une requête consacrée à la durée du résumé engendre trois cas de figure :

- La durée de toutes les parties (segments d'images) de la vidéo obtenues pour constituer le résumé est plus longue que la durée imposée. Dans ce cas, nous ne retenons que les parties dont la valeur de pertinence est la plus grande. Notons cependant, que les parties considérées ici sont celles dont la valeur de pertinence est positive pour la génération de résumé.

- La durée de toutes les parties (segments d'images) de la vidéo obtenues pour constituer le résumé est compatible avec la contrainte imposée sur la durée du résumé. C'est le cas idéal, le résumé est généré à partir de ces segments d'images.

- La durée de toutes les parties (segments d'images) de la vidéo obtenues pour constituer le résumé est plus courte que la durée imposée. Dans ce cas le résumé est généré en utilisant tous ces segments et en exploitant la structure cinématographique de la vidéo pour compléter par des images ou segments d'images de la vidéo. Par exemple, si la requête requiert un résumé de x secondes et que la durée des segments réponses est de y secondes (on a y < x par hypothèse), il faut compléter par un ensemble d'images ou de segments d'images d'une durée de x-y secondes. Afin de rendre compte du contenu total de la vidéo, nous proposons d'ajouter des segments d'images d'une durée de (x-y)/n secondes, pour chacun des n plans qui n'ont pas d'intersection avec les parties de vidéos jugées pertinentes pour le résumé. Un des critères est de choisir, dans de tels plans, les segments qui présentent le plus d'activité en termes, comme utilisé dans (Sun et al., 2000) pour la génération de résumés à partir de l'étude du signal de la vidéo..

Dans tous les cas, nous imposons que le résultat soit monotone : pour chaque image Fri et Frj se trouvant dans le résumé et correspondant respectivement aux images Fok and Fol dans la vidéo originale, si l'image Fok est avant (respectivement après) l'image Fol dans la vidéo originale, alors l'image Fri est avant (respectivement après) l'image Frj dans le résumé généré.

6. Conclusion et perspectives

Dans ce papier, nous avons tout d'abord présenté les différents travaux de recherche portant sur le média vidéo afin de rendre compte de son contenu. Selon le niveau visé, on peut distinguer trois types d'approches, non forcément exclusifs, dans la description de vidéo :


- Le niveau signal qui représente les caractéristiques bas niveau de la vidéo relatives, par exemple, à la couleur, la texture, le signal sonore, les mouvements de caméra, etc.

- Le niveau structure cinématographique qui exprime comment la vidéo est organisée en termes de séquences, scènes et plans. Une telle structure permet de capturer les propriétés temporelles de la vidéo.

- Le niveau sémantique qui donne une description de haut niveau du contenu de la vidéo et vise à représenter les objets, concepts, événements, actions qui sont impliqués dans la vidéo.

Un autre aspect des travaux sur la vidéo est la génération de résumé. Nous avons introduit dans ce papier un formalisme approprié et puissant permettant la création dynamique de résumés de vidéos adaptatifs. Notre proposition consiste en un ensemble de modèles : un modèle d'annotations, un modèle de strates, un modèle de structure cinématographique et un modèle de requêtes. Une strate fait le lien entre une annotation est un ensemble de segments d'images décrits par cette annotation. Une annotation est une description d'objets, concepts, événements et actions impliqués dans un extrait de la vidéo. Les annotations sont représentées par des Graphes Conceptuels qui sont un formalisme de représentation de connaissances simple, puissant et sémantiquement bien fondé. De plus, la relation entre les Graphes Conceptuels et la logique permet de formuler des requêtes sur des Graphes Conceptuels. Il est donc possible de rechercher des objets, concepts, événements ou actions dans un ensemble d'annotations et, par là, de générer des résumés dont le contenu est décrit par une requête.

Une des originalités du système VISU qui intègre ces modèles est de permettre l'expression de requêtes complexes pour guider la génération du résumé. C'est pourquoi requêtes et annotations sont ici décrites à l'aide de Graphes Conceptuels. Nous utilisons un algorithme efficace d'appariement sur les Graphes Conceptuels pour traiter ces requêtes. Afin de juger de la pertinence d'une annotation vis à vis d'une requête et vis-à-vis des autres annotations, nous utilisons deux valeurs reconnues dans le domaine de la Recherche d'Information pour leur efficacité : la fréquence d'un terme (ici un objet, un concept, un événement ou une action) et la fréquence inverse d'un document (ici, une annotation). La durée des résumés est une contrainte que VISU prend également en compte pour la génération des résumés, notamment en faisant intervenir la structure cinématographique de la vidéo et des caractéristiques bas niveau.

Le premier prototype du système VISU intégrant ces modèles est en cours de développement. Ce travail de modélisation étant à son commencement, les perspectives sont nombreuses. Elles se situent notamment dans la prise en compte d'opérateurs temporels dans les requêtes permettant de lier entre elles à travers des relations temporelles des descriptions d'annotations entre elles. De même, le langage de requêtes peut être étendu de manière à prendre en compte au niveau des requêtes la structure de la vidéo que celle-ci soit cinématographique ou autre, s'il existe un


découpage des segments d'images de la vidéo basée sur une autre sémantique. Egalement, les mesures de pertinence peuvent être étendues en ne considérant plus simplement un concept ou une arche mais des sous-graphes plus complexes. Au niveau de la durée des résumés, le langage de requête peut être étendu par un moyen d'exprimer les critères de choix des segments destinés à compléter le résumé, si les segments réponses à la requête n'ont pas une durée suffisante. Enfin, nous souhaitons permettre à l'utilisateur de construire les requêtes en construisant, en sélectionnant ou en combinant à travers une interface graphique, des éléments d'annotations qu'elle/il souhaite retrouver dans les résumés générés à partir d'une ou de plusieurs vidéos.

7. Bibliographie

Adobe Premiere: http://www.adobe.fr/products/premiere/main.html

Aguierre Smith T.G., Davenport G., The stratification system: A design environment for random access video, In Proc. 3rd International Workshop on Network and Operating System Support for Digital Audio and Video, La Jolla, CA, USA, pp. 250-261, 1992.

Aigrain P., Joly P., The Automatic Real-Time Analysis of Film Editing and Transition Effects and Its Applications, Computer and Graphics. Vol. 18, No. 1, pp. 93-103, 1994.

Amir A., Ponceleon D. B., Blanchard B., Petkovic D., Srinivasan S., Cohen G.. Using audio time scale modification for video browsing, Hawaii International Conference on System Sciences, Maui, USA, 2000.

Assfalg J., Colombo C., Del Bimbo A., Pala P., Embodying Visual Cues in Video Retrieval, IAPR International Workshop on Multimedia Information Analysis and Retrieval, LNCS 1464, Hong-Kong, PRC, pp. 47-59, 1998.

Babaguchi N., Kawai Y., Kitahashi T., Event Based Video Indexing by Intermodal Collaboration, Proceedings of First International Workshop on Multimedia Intelligent Storage and Retrieval Management (MISRM'99), Orlando, FL, USA, pp. 1-9, 1999.

Berretti S., Del Bimbo A., Vicario E., Efficient Matching and Indexing of Graph Models in Content-Based Retrieval, IEEE Trans. on PAMI, 23(10), pp.1089-1105, 2001.

Bolle R. M., Yeo B.-L., Leung M. M., Video Query: Behond the Keywords, IBM Research Report RC 20586 (91224), 1996.

Carlos R. P., Kaji M., Horiuchi N., Uehara K., Video Description Model Based on Prototype-Instance Model, pp 109-116, Proceedings of the Sixth International Conference on Database Systems for Advanced Applications (DASFAA), April 19-21, Hsinchu, Taiwan, 1999.

Chang S.-F., Chen W., Horace H.J., Sundaram H., Zhong D., A Fully Automated Content Based Video Search Engine Supporting Spatio-Temporal Queries, IEEE Trans. CSVT, 8, (5), pp. 602-615, 1998.

Chiu P., Girgensohn A., Polak W., Rieffel E., Wilcox L. A Genetic Algorithm for Video Segmentation and Summarization., IEEE International Conference on Multimedia and Expo (ICME) 2000, pp. 1329-1332, 2000.


Chua T.-S., Chen L., Wang J., Stratification Approach to Modeling Video, Multimedia Tools and Applications, 16, pp. 79-97, 2002.

Croft B., Krovetz R., Turtle H., Interactive Retrieval of Complex Documents, Information Processing and Management, Vol. 26, No. 5, 1990.

DeMenthon D., Kobla V., Doermann D., Video Summarization by Curve Simplification, ACM Multimedia 98, Bristol, Great Britain, pp. 211-218, 1998.

Ebadollahi S., Chang S. F., Wu H, Takoma S., Echocardiogram Video Summarization, SPIE Medical Imaging 2001, pp. 492-501, 2001.

Egyed-Zsigmond E., Prié Y., Mille A., Pinon J.-M., A graph based audio-visual annotationjn and browsing system, Proceedings of RIAO'2000 Volume 2, Paris, France, pp. 1381-1389, 2000.

Final Cut Pro: http://www.apple.com/fr/finalcutpro/software

Flickner, M., Sawhney, H., Niblack, W., Ashley, J., Huang, Q., Dom, B., Gorkani, M., Hafner, J., Lee, D., Petrovic, D., Steele, D., Yanker, P.: Query by Image and Video Content: the QBIC System. IEEE Computer 28(9), pp. 23-30, 1995.

Gong Y., Liu X., Generating Optimal Video Summaries, IEEE International Conference on Multimedia and Expo (III) 2000, pp. 1559-1562, 2000.

Hanjalic A., Lagendijk R.L., Biemond J., Semi-Automatic News Analysis, Classification and Indexing System based on Topics Preselection, SPIE/IS&T Electronic Imaging'99, Storage and Retrieval for Image and Video Databases VII, Vol. 3656, San Jose, CA, USA, pp. 86-97, 1999.

Hjesvold R., Midtstraum R., Modelling and Querying Video Data, VLDB Conference, Chile, pp.686-694, 1994.

Ju S. X., Black M. J., Minneman S., Kimber D., Summarization of video-taped presentations: Automatic analysis of motion and gesture, IEEE Trans. on Circuits and Systems for Video Technology. Vol. 8, No. 5, pp. 686-696, 1998.

Kankahalli M. S, Chua T.-S., Video Modeling Using Strata-Based Annotation, IEEE Multimedia, 7(1), pp. 68-74, Mar 2000.

Kankahalli M., Mulhem P., Digital Albums Handle Information Overload, Innovation Magazine, 2(3), National University of Singapore and World Scientific Publishing, pp. 64-68, 2001.

Li J., Özsu T., Szafron D., Modeling of Moving Objects in a Video Database, IEEE International Conference on Multimedia Computing and Systems (ICMCS), Ottawa, Canada, pp. 336 – 343, 1997.

Li Y., Ming W., Jay Kuo C.-C., Semantic video content abstraction based on multiple cues, IEEE International Conference on Multimedia and Expo (ICME) 2001, Tokyo, Japan, 2001.

Li Y., Zhang T., Tretter D., An Overview of Video Abstraction Techniques, HP Laboratory Technical Report HPL-2001-191, 2001.


Li Y., Jay Kuo C.-C., Extracting movie scenes based on multimodal information, SPIE Proc. on Storage and Retrieval for Media Databases 2002 (EI2002), Vol. 4676, San Jose, USA, pp.383-394, 2002.

Lienhart R., Pfeiffer S., Effelsberg W., Video Abstracting, Communication of the ACM, 40(12), pp.55-62, 1997.

Lienhart R., Dynamic video summarization of home video, SPIE 3972: Storage and Retrieval for Media Databases 2000, pp. 378-389, 2000.

Lozano R., Martin H.: Querying virtual videos using path and temporal expressions. Proceedings of the 1998 ACM symposium on Applied Computing, February 27 - March 1, 1998, Atlanta, GA, USA. ACM, 1998.

Ma W. Y., Manjunath B. S., NETRA: A toolbox for navigating large image databases. In Proc. IEEE ICIP’97, Santa Barbara, pp. 568-571, 1997.

Ma Y-F., Shen J., Chen Y., Zhang H.-J., MSR-Asia at TREC-10 Video Track: Shot Boundary Detection Task, The Tenth Text Retrieval Conference (TREC 2001), NIST Special Publication 500-250, 2001. http://trec.nist.gov/pubs/trec10/papers/MSR_SBD.pdf

Maybury M., Merlino A., Multimedia Summaries of Broadcast News, IEEE Intelligent Information Systems 1997, pp. 422-429, 1997.

Merialdo B., Lee K. T., Luparello D., Roudaire J., Automatic construction of personalized TV news programs, Proceedings of the seventh ACM international conference on Multimedia, Orlando, FL, USA, pp. 323-331, 1999.

MPEG-7 Committee, Overview of the MPRG-7 Standard (version 6.0), Report ISO/IEC JTC1/SC29/WG11 N4509, J. Martinez Editor, 2001.

Mulhem P., Leow W.-K., Lee Y.-K., Fuzzy Conceptual Graphs for Matching of Natural Images, International Conference on Artificial Intelligence 2001 (IJCAI’01), Seattle, USA, pp. 1397-1402, 2001.

Mugnier M.-L., Chein M., Représenter des connaissances et raisonner avec des graphes, Revue d'Intelligence Artificielle, 10 (1), pp 7-56, 1996.

Nagasaka A., Tanaka Y., Automatic Scene-Change Detection Method for Video Works, 2nd Working Conference on Visual Database Systems, pp. 119-133, 1991.

Nam J., Event-Driven Video Abstraction and Visualization, Multimedia Tools and Applications, 16, pp. 55-77, 2002.

Oh J., Hua K. A., An Efficient Technique for Summarizing Videos using Visual Contents, Proc. IEEE International Conference on Multimedia and Expo. July 30 - August 2, 2000. pp. 1167-1170, 2000.

Ounis I., Pasça M., RELIEF: Combining expressiveness and rapidity into a single system, ACM SIGIR 1998, Melbourne, Australia, pp. 266-274, 1998.

Pfeiffer S., Lienart R., Fisher S., Effelsberg W., Abstracting Digital Movies Automatically, Journal of Visual Communication and Image Representation, Vol. 7, No. 4, pp. 345-353, 1996.


Quénot G. and Mulhem P., Two Systems for Temporal Video Segmentation, CBMI’99, Toulouse, France, October, pp.187-193, 1999.

Rabitti F., Retrieval of Multimedia Documents by Imprecise Query Specification, LNCS 416, Advances in Databases Technologies, EDBT'90, Venice, Italy, 1990

Salembier P., Smith J., MPEG-7 Multimedia Description Schemes, IEEE Transactions on Circuits and Systems for Video Technology, Vol. 11, No. 6, pp. 748-759, June 2001.

Salton G., Wong A., Yang C. S., A vector space model for automatic indexing, Communication of the ACM, 18, pp. 613-620, 1975.

Salton G., McGill M. J., Introduction to Modern Information Retrieval, McGraw-Hill, New-York, 1983.

Salton G., Buckley C., Term-weighting approaches in automatic text retrieval, Information Processing and Management, Vol. 24, John Wiley and Sons Publisher, pp. 513-523, 1988.

Smeaton A. F., Over P., Taban R., The TREC-2001 Video Track Report, The Tenth Text Retrieval Conference (TREC 2001), NIST Special Publication 500-250, 2001. http://trec.nist.gov/pubs/trec10/papers/TREC10Video_Proc_Report.pdf .

Smith M., Kanade T., Video Skimming and Characterization through the Combination of Image and Language Understanding Techniques, IEEE Computer Vision and Pattern Recognition (CVPR), Puerto Rico, pp. 775-781, 1997.

Sowa J. F., Conceptual Structures: Information Processing in Mind and Machines. Addison-Wesley, Reading (MA), USA, 1984.

Subrahmanian V. S., Principles of Multimedia Database Systems, Morgan Kaufmann, San Francisco, 1997.

Sun X.D., Kankanhalli M.S., Video Summarization using R-Sequences, Journal of Real-Time Imaging, Vol. 6, No. 6, pp. 449-459, 2000.

Tseng B. L., Lin C.-Y., Smith J. R., Video Summarization and Personnalization for Pervasive Mobile Devices, SPIE Electronic Imaging 2002 - Storage and Retrieval for Media Databases, Vol. 4676, San Jose (CA), pp. 359-370, 2002.

Uchihashi S., Foote J., Girgensohn A., Boreszk J., Video Manga: Generating Semantically Meaningful Video Summaries, ACM Multimedia'99, Orlando(FL), USA, pp. 383-392, 1999.

Uchihashi S., Foote J., Summarising Video using a Shot Importance Measure and a Frame-Packing Algorithm, ICASSP'99, Phoenix (AZ),Vol. 6, pp. 3041-3044, 1999.

Van Rijsbergen C. J., A non-classical logic for information retrieval, Computer Journal, 29, pp. 481-485, 1986.

Weiss R., Duda A., Gifford D., Composition and Search with Video Algebra, IEEE Multimedia, 2(1), pp 12-25, 1995.

Yeo B.-L., Yeung M. M., Retrieving and Visualizing Video, Communication of the ACM, 40(12), pp.43-52, 1997.


Zabih R., Miller J., Mai K., Feature-based algorithms for detecting and classifying scene breaks. Proceedings of the Third ACM Conference on Multimedia, pp 189-200, San Francisco, CA, November 1995, (with).]

Zhang H., Kankanhalli A., Smoliar S. W., Automatic Partitioning of Full-Motion Video, Multimedia Systems Vol. 1, No. 1, pp. 10-28, 1993.

Zhang H.-J., Tan S. Y., Smoliar S. W., Hone G. Y., Automatic Parsing and Indexing of News Video, Multimedia Systems, Vol.2, No. 66, pp. 256-266, 1995.