Chapitre 2
Revue bibliographique

2.1 L’approche de Marr

La vision est un très vaste domaine de recherche. Dans un premier temps, selon les axes de ce projet de doctorat, la recherche bibliographique sera dirigée vers la vision numérique, les mécanismes attentionnels et la perception visuelle.

Dans le domaine de la vision numérique un des ouvrages de référence est celui de Marr [Marr, 1982]. Il pose les fondements que doit avoir toute approche de vision numérique pour être cohérente (tout travail, en réalité, se doit de se situer par rapport à ces fondements). De plus, ce livre propose également une approche dont la plupart des travaux ultérieurs ont découlé. D’un point de vue méthodologique Marr explique qu’il est impossible de considérer la vision selon un seul aspect. On ne peut pas, par exemple, considérer le processus de traitement de l’information (i.e. appréhender ce qui existe à partir d’une image) sans prendre en compte la représentation de cette information dans le cerveau. Marr propose qu’il faille, pour comprendre les systèmes complexes de traitement de l’information, décomposer le problème en trois niveaux. D’abord il existe un niveau abstrait [Marr, 1976](le quoi et le pourquoi), qui est la maîtrise de la théorie et son application au cas. Ensuite vient le niveau de la représentation et de l’algorithme. Enfin, le dernier niveau est le niveau physique dans lequel on réalise physiquement l’algorithme, réalisation contrainte par le matériel.

Depuis longtemps il a été tenté de générer une représentation en trois dimensions à partir d’une image. Il n’est pas prouvé que ce soit l’approche adoptée par l’être humain. Deux approches ont été principalement utilisées pour l’application de techniques en vision numérique [Bruce & Green, 1990] : l’approche “top-down1” et l’approche “bottom-up2”. L’approche top-down est une approche principalement dirigée par les concepts. C’est plutôt la connaissance a priori qui va guider le processus. De l’autre côté l’approche bottom-up est guidée par les données. Marr propose dans sa théorie de la vision un découpage en trois étapes. Bien que cette théorie soit bottom-up en grande partie, elle présente également une composante de type top-down comme nous allons le voir. Les trois étapes envisagées par Marr sont les suivantes :

C’est à partir de cette architecture de base que la plupart des travaux ultérieurs ont été menés. Dans tout traitement visuel on considérera que l’input est l’image.

Évidemment dans cette théorie la question sur laquelle nous allons le plus nous pencher est l’ébauche primitive. Le but de l’ébauche primitive brute est de mettre en exergue les variations d’intensité au sein de l’image et de dégager une organisation générale des caractéristiques de l’image. Cette ébauche primitive peut se scinder en deux parties : l’ébauche primitive brute et l’ébauche primitive complète. L’ébauche primitive brute doit réaliser le repérage des variations d’intensité dans l’image. Ces variations sont sensées représenter des arêtes. Ainsi, de très bons résultats ont été obtenus en utilisant un filtre de forme spéciale qui détectait les “vallées de luminance” sur l’image d’un visage [Pearson & Robinson, 1985]. Dans ce type d’approche l’échelle des changements3 à l’intérieur de l’image est la même ; le cas des visages est un cas particulier. Le problème qui se pose est que les variations d’intensité ne sont pas obligatoirement des arêtes car les échelles de changement à l’intérieur de l’image sont le plus souvent différentes (c’est-à-dire variable d’un endroit à l’autre).

Le but ici n’est pas de rentrer trop dans les détails mais l’on peut citer deux approches qui prennent en compte cet aspect multi-échelle. Ces deux approches utilisent la même technique de base, c’est-à-dire la combinaison des résultats de filtres de différentes tailles. Les résultats de ces filtres fournissent, en fonction de l’échelle, les zones où les variations d’intensité sont les plus importantes.

2.1.1 Approches globales

Dans un premier cas [Marr & Hildreth, 1980] on essaye de faire un appariement du résultat des filtres de tailles différentes. Suivant l’appariement, quatre types de combinaisons sont dégagées : les segments de bordure, les barres, les terminaisons et les tâches. Dans l’autre approche [Watt, 1988], on applique un algorithme (MIRAGE) qui se sert de la sommation des sorties aux différentes échelles en séparant parties positives et négatives. Cet algorithme répond bien au groupement et à la détection mais ne permet pas d’avoir de positions précises. Selon Bruce et Green [Bruce & Green, 1990], la finalité de l’ébauche primitive brute est de faire apparaître la représentation des arêtes.

2.1.2 Aspects perceptifs

Lorsque l’ébauche primitive brute est obtenue, on réalise l’ébauche primitive complète qui permet de dégager des structures plus larges (formes et régions) par regroupement. Ces regroupements sont fonction de l’organisation perceptive. De nombreux travaux sont effectués dans ce domaine. Une des théories les plus importantes est le principe du Gestalt. Les lois gestaltistes de l’organisation qui sont encore considérées à l’heure actuelle sont :

Marr propose de faire un regroupement récursif sur ce qui a été dégagé dans l’ébauche primitive brute. L’organisation obéissant à trois règles proches de la théorie du Gestalt :

De ce point de vue le regroupement obéissant à de grands concepts généraux, l’approche a une composante top-down. Mais sensu stricto on ne se sert pas de connaissances a priori.

2.2 Reconnaissance des formes

2.2.1 Reconnaissances particulières


PIC
FIG. 2.1: Erreur de reconnaissance de caractère. À gauche un A et un R, au milieu le gabarit d’un A. À droite le gabarit du A à plutôt tendance à s’apparier avec le R qu’avec le A.

La reconnaissance des objets intervient ensuite. De nombreuses approches ont été explorées, et elles donnent de bons résultats mais toujours pour des applications précises. D’une façon générale le problème n’est toujours pas résolu. Un des domaines où les mécanismes de reconnaissance de formes fonctionnent convenablement est la reconnaissance de caractères. De nombreux algorithmes ont ainsi pu être testés mais hélas ils n’ont pas fait leurs preuves dans d’autres domaines. D’une manière générale ce sont des approches algorithmiques sans lien proche avec une démarche cognitive. Une première approche est d’apparier l’objet à un gabarit. Mais un gabarit peut s’apparier à plusieurs objets, par exemple un A et un R dans le cas de lettres comme pour la figure 2.1. Une seconde approche est l’analyse par traits. Selon le nombre de traits et leurs caractéristiques (horizontales ou verticales) dans les figures analysées, des démons4 (qui correspondent aux différentes formes possibles) vont réagir de manière plus ou moins forte, selon leur correspondance avec l’objet. Si l’on reste toujours dans le domaine des caractères on voit que la limite de ce système est atteinte lorsque l’on présente des objets qui ne sont pas des caractères et donc pour lesquels il n’existe pas de démon. Une forme quelconque peut alors être prise pour une lettre. Décrire structurellement les objets peut-être un autre mécanisme de reconnaissance. Mais le pré-traitement est très difficile à mettre en œuvre avant de pouvoir faire la reconnaissance à proprement parler.

2.2.2 Approche de Marr et Nishihara

Marr et Nishihara [Marr & Nishihara, 1978] ont proposé de découper les objets à différentes échelles en “cônes généralisés”. Ce découpage se fait grâce aux contours. À partir de ce découpage on consulte ce que l’on a en mémoire. D’autres approches sont des variantes, la différence résidant dans la manière de découper (en “super-quadratiques”, en “géons”). Mais ce type de découpage des objets n’est pas applicable pour de nombreux objets comme les visages, les nuages etc car ils ne peuvent, par définition, se découper en objets prédéterminés, leurs formes n’étant pas divisibles.

2.2.3 Perception des formes

Des recherches récentes apportent de nouvelles pistes quant à la manière dont se fait la reconnaissance. Ainsi Elder et Zucker [Elder & Zucker, 1998] ont montré que la perception des surfaces dépend fortement de la nature des contours qui les bordent. Depuis longtemps il était supposé que les propriétés régionales et les contours agissaient de façon conjointe pour donner le groupement perceptuel des formes. Or Elder et Zucker ont mis en évidence que la fermeture du contour d’un objet permet sa reconnaissance beaucoup plus rapidement. Alors que l’ajout d’une texture orientée n’influe pas sur la détection, sauf lorsque cette texture peut être confondue avec une frontière (un contour). La texture n’apporte jamais autant que la fermeture (des contours de l’objet). Le système de vision humain utilise donc surtout les irrégularités des contours pour le groupement perceptuel, les propriétés régionales n’étant pas exploitées de la même façon. La “quantité” d’attention mobilisée est plus élevée pour les figures ouvertes. Les contours sont par conséquent un bien meilleur discriminant que les textures pour déterminer des formes.

2.3 Mécanismes attentionnels

2.3.1 Généralités

Le fil conducteur que nous suivons sur les mécanismes attentionnels est le suivant. Nous cherchons une approche inspirée de l’être humain, fort du constat que ce dernier est capable de gérer les variations d’échelles par les mécanismes d’attention. Cela doit nous permettre de proposer de nouvelles approches ; par exemple une concentration locale sur une partie de l’image suivie par un déplacement d’un œil virtuel, le tout contrôlé par l’attention.


PIC
FIG. 2.2: Mode d’exploration oculaire une image. Dans le cas de portraits ce sont les yeux et le nez qui sont particulièrement visés, d’après [Yarbus, 1967]

Afin de proposer une approche de la vision basée sur les mécanismes attentionnels il faut essayer d’appréhender l’attention humaine. Le déplacement du regard ne se fait pas de manière aléatoire sur l’image mais suit les traits saillants (figure 2.2), privilégiant certains aspects de la scène ou de la figure [Gregory, 2000]. Ainsi le regard reste en général environ un quart de seconde sur un point, la scrutation à proprement parler ne durant que 5 à 15 ms.

L’attention en psychologie selon Cantoni, semble se réaliser selon deux modes [Cantoni et al., 1997a], [Cantoni et al., 1997b] : le mode pré-attentionnel et le mode attentionnel. Le mode pré-attentionnel est réalisé en parallèle, il ne dépend pas du nombre d’objets dans le champ qui est très large. Le mode attentionnel lui, est réalisé en série, sur une partie beaucoup plus restreinte de l’image. Les théories pré-attentives peuvent se scinder en deux groupes. D’un côté les premiers modèles de vision comme Marr et de l’autre les théories d’interruption qui traitent de la détection des différences de signal. Les théories attentives se répartissent selon les deux types d’attentions : l’attention sélective et l’attention spatiale. L’attention sélective est guidée par le modèle qu’a le sujet, la cible est connue. L’attention spatiale, elle, est guidée par les données (reçues par l’œil5), cela peut-être volontaire ou involontaire.

2.3.2 Modélisation de la vision et de l’attention visuelle

Modéliser la vision à toujours été un défi en informatique et en intelligence artificielle. Il apparaît clairement qu’il faille étudier le cerveau afin de progresser en informatique (graphique en particulier) ; de la même façon qu’il faille l’informatique pour comprendre le fonctionnement du cerveau [Poggio, 1984]. La vision d’une manière générale est très complexe, le système humain est une solution efficace qui permet de donner une orientation à la recherche. La vision est un processus modulaire, c’est-à-dire qu’il existe une suite de modules qui agissent en parallèle. Ces modules produisent des représentations intermédiaires reprises ensuite par d’autres modules. Ces derniers déduisent les formes à partir des ombres portées, de la texture visuelle, du mouvement, des contours, des occlusions et de la vision stéréoscopique. Le cerveau utilise des impulsions d’intensités variées, alors que l’ordinateur fonctionne en terme de “tout ou rien”. En outre le cerveau possède des connexions en trois dimensions et travaille en parallèle ; le monde de l’informatique est en revanche en deux dimensions et travaille en série. Il faut donc raisonner en terme de traitement de l’information car la description des tâches est indépendante du matériel utilisé. Le problème peut se résumer par un découpage à trois niveaux :

Des approches pour modéliser la scrutation naturelle de l’œil dans des contextes particuliers ont déjà été développées, notamment le travail de Madame Fitzback [Fitzback, 1999] à l’Université Laval. Ce type de modélisation propose d’utiliser les lois du Gestalt pour guider le regard. Cette démarche originale qui prolonge les travaux de Alquier [Alquier & Montesinos, 1996Alquier, 1998], permet une approche guidée, non-globale de type ébauche primitive complète. Ce travail a donné des résultats mitigés car les images utilisées (radar) étaient fortement bruitées ; en outre la complexité des calculs rendaient le traitement long.

D’autres modèles pour le mouvement des yeux sont proposés en particulier, une approche statistique [Brockmann & Geisel, 2000]. Dans cette approche Brockmann et Geisel proposent que les mouvements saccadés des yeux soient des réalisations statistiques dans un champ de saillance. Cette proposition repose sur l’hypothèse (a priori réaliste) que l’être humain minimiserait le plus possible le temps qu’il lui faut pour parcourir une image. Cette méthode utilise les “survols de Lévy” ou Lévy flights6 pour générer des chemins de parcours très similaires aux chemins de parcours réels. En effet, les fixations s’accumulent dans les zones visuelles saillantes, les chemins de parcours sont différents pour chaque expérience et les saccades courtes sont plus fréquentes que les longues. Cette modélisation apporte deux informations. D’abord la performance visuelle est déterminée par le comportement de la probabilité de la magnitude des saccades. Ensuite la couverture de l’attention visuelle se fait à travers la vision périphérique du système de saccades et ne possède pas de mémoire.

Horowitz et Wolfe [Horowitz & Wolfe, 1998] ont en effet montré que contrairement à l’idée classiquement reçue auparavant, la recherche visuelle n’a pas de mémoire. Dans leur expérience Horowitz et Wolfe changent de manière aléatoire l’arrangement des distracteurs et de la cible toutes les 111 millisecondes ; pourtant la vitesse de recherche de la cible reste la même. Le modèle proposé par Horowitz et Wolfe est le suivant : le système de recherche visuelle génère en classement de priorité en fonction de la saillance (cf. paragraphe “saillance” page 41) de chaque objet. Par conséquent une recherche amnésique qui ne garde pas de trace des items visités et n’est donc pas affectée par la redisposition aléatoire des stimuli. Les résultats qui sont donnés par Horowitz et Wolfe montrent que le système visuel n’accumule pas d’information sur l’identité des objets pendant le temps que dure la recherche. Le système de recherche, au contraire, semble être dans une sorte de “présent éternel”.

Les modèles pour la vision attentive sont nombreux. Certains donnent des résultats très proches des expérimentations avec des sujets [Cohen et al., 2000]. Dans ces travaux des cartes de caractéristiques sont utilisées ; elles permettent de fabriquer des images compressées. Ces cartes de caractéristiques refléteraient les limitations biologiques des sujets. Les cartes sont extraites par analyse en composantes principales. Ce type de modélisation repose donc sur le fait que les systèmes biologiques de traitement de l’information ont une capacité limitée ; c’est pourquoi des images compressées et des caractéristiques globales sont utilisées. La fin de la modélisation consiste en un traitement plus approfondi pour l’identification des cibles proprement dites.


PIC
FIG. 2.3: Diagramme d’un modèle type pour le contrôle de l’attention bottom-up, d’après [Koch & Ullman, 1985] modifié par [Itti & Koch, 2001]

Un des modèles à partir duquel de nombreux travaux sont issus est le modèle de contrôle de l’attention bottom-up de Koch et Ullman [Koch & Ullman, 1985]. Le modèle de Koch et Ullman (figure 2.3) était basé sur l’idée d’une carte de saillance (ici une carte topographique explicite en deux dimensions) qui encode l’intensité du stimulus ou la saillance pour toute position de la scène visuelle. La carte de saillance reçoit des entrées du processus visuel primaire et permet une stratégie de contrôle efficace dans laquelle le focus de l’attention balaye simplement la carte de saillance dans un ordre décroissant de saillance. La figure 2.3 montre comment l’image est encodée par les neurones, au travers de quelques mécanismes de détection de caractéristiques pre-attentionnelles, en cartes de contrastes pour chacune des caractéristiques. Au sein de chaque carte de caractéristiques les neurones rivalisent spatialement pour la saillance. Les cartes de caractéristiques sont combinées ensuite pour obtenir la carte de saillance. Ce modèle est de type bottom-up, la figure montre qu’il existe une composante top-down également. L’importance de la dépendance de l’attention visuelle vis-à-vis d’indice top-down a été étudiée plus tard, en particulier par Itti et Koch.

D’après Itti et Koch [Itti & Koch, 2001], cinq idées principales émergent des plus récentes publications dans le domaine de l’attention visuelle et de sa modélisation :

  1. La perception de la saillance (cf. paragraphe “saillance” page 41) dépend fortement du contexte qui l’entoure.
  2. Une carte de saillance peut-être une bonne stratégie de contrôle pour une approche bottom-up.
  3. L’inhibition de retour (IOR) est un élément critique (cf. paragraphe “Inhibition de retour” page 42) à ne pas oublier.
  4. L’attention et le mouvement des yeux interagissent, ceci engendre des problèmes informatiques importants.
  5. La compréhension et la reconnaissance contraignent fortement la sélection des zones de vue.

La fonction la plus importante de l’attention visuelle sélective est de diriger notre regard vers les objets d’intérêt au milieu de l’environnement visuel général. Depuis longtemps, comme nous l’avons vu, il est le plus couramment admis que l’attention visuelle soit guidée par des mécanismes de saillance bottom-up (cf. plus haut), mais il ne faut pas négliger, selon Itti et Koch, la dépendance de l’attention visuelle vis-à-vis d’indices top-down dépendant de la tâche. La saillance est indépendante de la tâche, elle est intégrée de manière très rapide, dirigée d’abord par les mécanismes bottom-up ; elle est traitée de manière pré-attentive, à travers l’ensemble du champ de vision.

D’une façon générale Itti et Koch distinguent deux types d’attention : l’attention volontaire et l’attention involontaire. L’attention volontaire demande un effort. Les deux attentions peuvent être menées en parallèle.

L’attention permet de simplifier le problème de la compréhension d’une scène grâce à la décomposition en une série rapide, informatiquement moins lourde, de problèmes localisés d’analyse visuelle. En plus de l’analyse de scène et de l’orientation, l’attention est caractérisée par une modélisation, par rétroaction, de l’activité neuronale pour les attributs visuels, et ceci, dans la zone de la cible désirée ou sélectionnée. Cette rétroaction apparaît essentielle pour rassembler les attributs visuels d’un objet, comme la couleur et la forme par exemple.

Traitement pré-attentionnel des caractéristiques visuelles La première étape de traitement dans tout modèle de type bottom-up pour l’attention est le traitement des premières caractéristiques visuelles7. Les premières caractéristiques visuelles sont calculées (traitées) de manière pré-attentive de façon massivement parallèle à travers tout le champ de vision. D’un autre côté, il a été récemment montré que l’attention peut clairement et vivement moduler, de façon top-down, les premiers traitements de la vision, et ce, d’une manière définie aussi bien spatialement que non spatialement. En raison de la modulation par rétroaction qui influence le traitement des premières caractéristiques bottom-up, les modèles doivent prendre en compte cet aspect non-négligeable. D’une manière générale les mécanismes pré-attentionnels qui extraient les premières caractéristiques de la vision à travers tout le champ de vision ne doivent pas être oubliés dans l’optique d’une modélisation.
Saillance Pour résoudre le problème de la représentation multiple d’une vue au sein des nombreux réseaux neuronaux, beaucoup de modèles bottom-up d’attention proposent que cette représentation multiple soit regroupée en une carte de saillance unique. Informatiquement, une représentation explicite de la saillance dans une carte dédiée renforce l’idée qu’une partie de la sélection spatiale puisse être réalisée au cours de la détection des caractéristiques pré-attentives. Le modèle de Wolfe [Wolfe, 1994] élabore la carte de saillance avec, à la fois une approche bottom-up, mais également avec une pondération top-down ; la carte de saillance est alors une probabilité (croyance) que la cible soit présente à un endroit donné. Ce point de vue a reçu un récent appui du côté expérimental. Ce qui semble important pour le traitement informatique de la saillance est le contraste des caractéristiques tout en respectant l’environnement. De plus en plus, la saillance apparaît être codée dans le cortex et séparément des autres caractéristiques visuelles [Itti & Koch, 2001]. Quelques modèles, qui reproduisent le comportement de sujets ou de singes dans des tâches de recherches visuelles, ont démontré la plausibilité des cartes de saillance ainsi que leur traitement informatique.
Inhibition de retour (IOR) et sélection attentive La carte de saillance guide le regard où la zone attentionnelle est la plus forte, c’est-à-dire le lieu le plus saillant de la scène. Afin de ne pas revenir toujours aux mêmes zones de la scène, on utilise un marqueur inhibant. Un tel marqueur des lieux “visités” a été très largement observé en psychologie humaine, ce phénomène s’appelle l’inhibition de retour (IOR).
Inhibition de retour (IOR) Klein, dans son article sur l’inhibition de retour [Klein, 2000], explique le phénomène de la façon suivante.

L’orientation est une des fonctions premières des êtres vivants. L’efficacité et la rapidité d’un réflexe qui contrôle l’orientation est primordiale pour la prédation et la défense ; le contrôle volontaire, par delà les réflexes d’orientation est indubitablement un développement important. Une scrutation efficace implique également d’utiliser de l’information contenue dans la mémoire qui prenne en compte les comportements d’orientation antécédents. La cause de l’IOR serait l’orientation l’attention vers une zone, et la réalisation du retrait subséquent de l’attention de cette zone. Des preuves convergentes suggèrent que l’IOR retarde à la fois les réponses motrices et le retour de l’attention. Des études sur l’ordre de jugement temporel (TOJ), confirment que l’IOR n’affecte pas la vitesse avec laquelle la sensitivité - perceptivité du processus extrait l’information à partir d’une zone indicée8 déjà visitée.

L’inhibition de retour, d’après Klein et Taylor [Klein & Taylor, 1994,  Dagenbach & Carr, 1994], est plus associée à la réponse du système qu’à l’attention. Quoiqu’il en soit, des preuves convergentes sur le fait que l’IOR entrave le retour de l’attention sur les zones déjà visitées ont été mises en évidence à partir d’études menées sur les effets de l’IOR sur la détection de cible.

D’un point de vue physiologique, l’inhibition de retour paraît durer au moins quelques secondes, et commencer après 225 millisecondes. L’IOR biaise l’orientation en la maintenant, dans l’environnement, loin des zones déjà inspectées, et ceci peut servir à faciliter le comportement d’inspection visuelle ; c’est-à-dire la recherche visuelle à proprement parler. Donc l’IOR fonctionne pour faciliter la recherche visuelle en inhibant l’orientation vers les zones déjà visitées.

L’inhibition de retour est générée dans un système qui est, normalement, responsable de l’orientation de la direction du regard. L’IOR inhibe l’orientation de l’attention “discrète” (covert attention9), la direction du regard, et, plus généralement les réponses spatiales vers des zones ou des objets indicés (visités). En biaisant l’orientation loin des items déjà inspectés, l’IOR permet de rendre l’exploration de l’environnement plus efficace.

L’inhibition de retour est-elle en contradiction avec les travaux d’Horowitz et Wolfe10 [Horowitz & Wolfe, 1998] dont nous avons parlé plus haut (page 36) ? D’après Itti et Koch, la réponse est non. En effet les résultats auquels arrivent Horowitz et Wolfe excluent une parfaite mémorisation de tous les lieux déjà visités (sinon la recherche dans un environnement stable serait meilleure que dans un environnement qui change constamment), mais ils n’excluent pas la possibilité que les positions des derniers items visités soient mémorisées, en accord avec le fait que la période d’action de l’IOR soit courte, cf. figure 2.4.


PIC
FIG. 2.4: Modèle d’attention d’Itti et Koch [Itti & Koch, 2000] prenant en compte l’IOR. La construction de la carte de saillance ressemble à celle de la figure 2.3. Les zones d’attentions sont sélectionnées successivement dans l’ordre décroissant de leur saillance. Une fois une zone visitée son niveau de saillance est mis au plus bas par le mécanisme d’IOR. Progressivement l’effet de l’inhibition va se dissiper.

Bien que simple dans le principe, du point de vue informatique, l’inhibition de retour est une très importante composante de l’attention. Elle permet de déplacer rapidement l’attention sur des régions ayant une saillance décroissante, et non de rester lié toujours à la zone la plus saillante à un moment donné. Le rôle de l’IOR dans la vision active et dans l’attention “manifeste” (overt attention11) est un aspect qu’il faut envisager dans un futur modèle.

Attention et reconnaissance Il apparaît évident qu’un modèle de contrôle de l’attention le plus complet possible doive intégrer une composante top-down. Le défi informatique est alors d’intégrer à la fois l’approche top-down et l’approche bottom-up.

Deco et Zihl [Deco & Zihl, 2001] ont récemment proposé un modèle de ce type. Leur modèle commence par sélectionner des zones pour les objets candidats d’une manière bottom-up grâce à une analyse de l’image à une échelle grossière. Un mécanisme attentionnel parcourt les zones candidates de façon sérielle et réalise la reconnaissance des objets à des échelles de plus en plus fines jusqu’à une reconnaissance suffisante par rapport à ce qui est contenu en mémoire. Autrement dit la scène est d’abord analysée à un niveau de résolution grossière, puis le focus de l’attention rehausse de manière itérative la résolution sur l’emplacement de l’objet jusqu’à ce que ce dernier soit identifié.

2.4 Multirésolution, recherche et interrogation

La multirésolution peut-être un moyen d’augmenter l’efficacité de la recherche visuelle. Soit par une approche plus locale-globale (cf. 4.11 page 122), soit par un découpage de l’image voire une combinaison des deux.

2.4.1 Découpage simple

Une des méthodes que l’on peut utiliser pour découper une image est l’arborescence en “quadtree” [Calway & Wilson, 1994]. Dans ce type de travaux on cherche à extraire rapidement et efficacement une courbe. Le principe est de ne garder que les feuilles de l’arborescence pour lesquelles une portion de courbe est présente (cf. figure 2.5 page 49). Il est possible de dégager deux étapes dans la méthode :

  1. La courbe est découpée autant de fois que nécessaire pour obtenir des segments dans chaque feuille. Naturellement les feuilles peuvent avoir des tailles différentes.
  2. Les segments sont regroupés selon un critère de connexion reposant sur l’orientation relative et la proximité.

Cette approche présente trois avantages. D’abord c’est toujours la même application locale de détection qui est utilisée (quelle soit l’échelle). Ensuite, l’efficacité est grande en terme de traitement informatique. Enfin, ce type de découpage évite une redondance de l’information pour définir la courbe.


PIC
FIG. 2.5: D’après [Calway & Wilson, 1994], représentation d’une courbe par quadtree

2.4.2 Systèmes de recherche d’information visuelle

Afin de retrouver une image dans une banque d’images, de nombreuses méthodes sont développées depuis plus d’une dizaine d’années. Les systèmes de recherche d’information visuelle12 ne sont vraiment utilisables que s’ils peuvent retrouver l’information en temps réel [Daoudi & Matusiak, 2000]. En plus des mots clés assignés par le constructeur de la base de données, les systèmes de recherche d’information visuelle peuvent utiliser le contenu des images comme index, c’est-à-dire les caractéristiques de couleur, de texture et de forme. Depuis quelques temps quelques systèmes utilisent des combinaisons d’attributs hétérogènes pour améliorer les résultats en termes de discrimination et de classification. Ces systèmes utilisent la couleur, la texture et la forme pour les interrogations d’images. Bien que l’analyse de texture ait une histoire très riche en traitement d’image et en vision, son utilisation pour des bases de données d’images est peut-être une des premières applications à grande échelle démontrant la pertinence de l’utilisation de la texture. La forme est un autre attribut de bas niveau qui peut être utilisé pour représenter l’information locale d’une image.

Une des plus récentes approches [Daoudi & Matusiak, 2000] est la recherche par croquis. Cette approche permet de prendre en compte la possibilité d’une déformation due à la perception de l’interrogateur (la subjectivité peut induire une grande variance dans les réponses). Daoudi et Matusiak [Daoudi & Matusiak, 2000] proposent une “métrique” sur la forme des courbes : le curvature scale space (CSS), “espace de courbure multi-échelle”. Ils proposent également d’utiliser les relations spatiales des formes elles-mêmes. Le problème au départ est relativement compliqué : en effet les formes13 ne sont pas aisément “mathématisables” ; la difficulté réside donc dans le fait qu’il faille trouver une expression qui soit fonction de la similarité mais également trouver un moyen d’exprimer l’objet en fonction de cette similarité. Il n’est pas possible dans le contexte qui est présenté par Daoudi et Matusiak d’utiliser les mesures de distances mathématiques classiques en raison de la composante humaine. Une difficulté supplémentaire provient de la différence de nature qu’il y a entre un croquis et une image. Les auteurs préconisent alors une approche multirésolution afin de modéliser le croquis. Le travail dans ce cas ci s’est fait sur des images déjà segmentées, ce qui allège considérablement le traitement. De par l’approche multirésolution chacune des formes (courbes) du croquis est représentée à son échelle propre, la courbe (g) est paramétrée par la longueur de l’arc qui la constitue. La représentation par CSS possède certaines propriétés comme :

  1. La représentation par CSS est invariante à l’intérieur d’une classe de similarité c’est-à-dire pour une translation, une rotation ou un changement d’échelle.
  2. La “complétude” : cette propriété assure que deux contours auront la même forme si et seulement si leurs CSS sont égales.
  3. Cette représentation est stable, ce qui lui donne une bonne robustesse pour des petites distorsions dues au croquis ou à la quantification.
  4. Simplicité et temps réel du traitement, propriété très importante pour les applications avec des banques d’images.

Pour résumer, l’approche préconisée par Daoudi et Matusiak a les qualités suivantes : temps réel, représentation efficace pour la perception humaine, invariance par rapport aux transformations (changements d’échelle, rotations et translations) et robustesse par rapport aux variations des formes.

2.4.3 Approches par ondelettes

S’agissant de multirésolution, la transformation la plus populaire est certainement la transformée en ondelettes. Elle est beaucoup utilisée depuis quelques années dans de nombreuses applications de la physiques des signaux [Gibert, 1996]. L’analyse par ondelette “est faite via des décompositions en séries de fonctions [...]. Ces fonctions, que l’on appelle ondelettes, sont construites à partir d’une ondelette départ à laquelle on applique des dilatations et des translations.” [Gibert, 1996]

Afin de représenter des courbes à différents niveaux de résolution14 il est également possible de travailler avec une approche par transformation en ondelettes. La méthode proposée par Finkelstein et Salesin [Finkelstein & Salesin, 1994] permet de ne pas avoir besoin de stockage en mémoire en supplément malgré la multirésolution. Il est ainsi possible de :

L’avantage le plus important de ces algorithmes développés par Finkelstein et Salesin se situe dans le fait qu’ils sont simples et rapides.

Une des premières approches multirésolution utilisant la transformée en ondelettes pour résoudre le problème de la recherche d’un croquis (ou d’un mauvais scan) dans une base d’images est le travail de Jacobs et al. [Jacobs et al., 1995]. Dans ce travail, les auteurs se servent d’une “métrique” qui utilise les coefficients des ondelettes. Ces métriques possèdent des paramètres qui peuvent être ajustés de manière statistique afin de s’affranchir des problèmes de distorsion qui peuvent être introduits par le dessin. Cette méthode présente de nombreux avantages :

Ce type d’approche [Jacobs et al., 1995] s’apparente à des degrés divers à l’interrogation par contenu [Barber et al., 1993Faloutsos et al., 1994Niblack et al., 1993], l’interrogation par l’exemple [Hirata & Kato, 1992Kato, 1992Kato et al., 1992], la recherche par similarité [Liang & Chang, 1993Wu Tzong & Chen Chang, 1994Gevers & Smuelders, 1993Kitamoto et al., 1993Petraglia et al., 1993] et enfin la recherche par croquis [Kato et al., 1992]. L’algorithme est rapide et efficace. Sachant que le croquis n’est qu’une approximation grossière, le principe est de retenir une vingtaine d’images parmi les milliers de la base plutôt que le proposer la bonne. Un des principaux avantages puisque la méthode repose sur la décomposition par ondelettes est qu’elle est indépendante de la résolution. La métrique qui est utilisée dans [Jacobs et al., 1995] a été conçue en tenant compte :

De manière synthétique cette approche est donc rapide et efficace. Elle ne nécessite, en outre, que peu de données supplémentaires à stocker. En revanche cette méthode fonctionne avec des patrons généraux mais pas avec de petites formes comme des icônes ou des logos.

2.4.4 Interrogation par objet


PIC
FIG. 2.6: Exemple de graphe iconique hiérarchique [Tao & Grosky, 2000].

Nous avons vu qu’il existe plusieurs types de recherche et d’interrogation pour une base d’images (cf. le présent paragraphe) auxquelles s’apparente la méthode de Jacobs. Une des dernières méthodes développées [Tao & Grosky, 2000] est l’interrogation par objet. En effet par nature, une image est constituée par un assemblage d’objets. La recherche dans l’image se fait par rapport à un objet. Cette approche permet à l’utilisateur de pouvoir faire des interrogations sémantiques aussi bien de haut niveau que de bas niveau ; ces niveaux sont traduits dans un graphe “iconique” hiérarchique comme dans l’exemple de la figure 2.6. L’algorithme travaille grâce à la disposition spatiale des points de l’objet lui-même et grâce à la distribution spatiale des objets au sein de l’image.

2.5 Perception et conception

Les travaux de Tao et Grosky que nous venons de voir utilisent différents niveaux sémantiques pour l’interrogation. Cette approche rejoint les résultats en psychologie sur la perception et la conception que l’individu aurait de son environnement ; en particulier les travaux de Tversky et Lee [Tversky & Lee, 1998].

Dans leurs travaux Tversky et Lee montrent que la perception et la conception (‘ception) schématisent l’information spatiale. Cette schématisation serait du même ordre que celle qui est faite par le langage. Le langage et la ‘ception retiennent certains aspects pour en négliger d’autres. En outre la ‘ception est fortement influencée par le contexte intellectuel ce qui influe sur la priorité que le sujet donne aux choses. Tversky et Lee montrent également que le langage et la ‘ception possèdent des niveaux d’abstraction qui permettent de couvrir de nombreuses échelles. Suivant le contexte plus global ou plus précis, il est possible d’adapter le niveau d’abstraction. Ainsi par exemple, on pourra reconnaître un vêtement dans un certain contexte, mais dans un autre contexte on reconnaîtra un pull. En outre, il est montré que les objets sont appréhendés comme un arrangement de formes qui sont le plus souvent droites et symétriques. La classification par le langage et la ‘ception est alors aisée. D’un autre côté, on remarque que la ‘ception des relations spatiales est biaisée par la référence à d’autres objets. Ainsi le raisonnement spatial sera “attiré” par les lignes horizontales et verticales, les diagonales étant rejetées.