visuel meito

Analyse d'images : du contrôle industriel vers la reconnaissance de photos personnelles

Les années 80, avec l'essor de la robotique industrielle, ont vu naître la vision par ordinateur, permettant de doter les lignes de production de systèmes d'asservissement visuel et de contrôle qualité (pilotage d'outils, mesures, détection de défauts, transport robotisé...). L'imagerie médicale a profité de ces avancées algorithmiques en reconnaissance des formes, pour l'analyse, la mesure et la reconstruction tridimensionnelle.

Avec la convergence des télécommunications, de la vidéo et de l'informatique, nous venons d'entrer dans l'ère digitale. Notre société produit des quantités d'images numériques et de vidéos qui ne cessent de croître, avec l'augmentation du nombre d'appareils photo numériques, l'évolution de la pratique de l'Internet (peer-to-peer, weblogs, albums de photos personnels hébergés, etc.) et la baisse du prix du support de stockage. L'utilisation de bases de données traditionnelles nécessitant la saisie manuelle de mots-clés s'avère impossible pour décrire et surtout maintenir la description d'un tel volume de données. L'un des enjeux majeurs s'impose donc comme étant l'indexation et la recherche des images par analyse automatique de leur contenu.

C'est le temps des systèmes d'information intelligents et de l'interaction homme-machine "naturelle".

Ces toutes dernières années ont vu le rapprochement de domaines de recherche historiquement éloignés, comme le traitement du signal et l'apprentissage automatique, ce qui a permis depuis peu le développement d'algorithmes visant à catégoriser automatiquement des images en classes sémantiques variées (villes, mer, montagne, contenus odieux…) mais aussi et surtout à modéliser automatiquement et dans leur globalité des objets 3D complexes et déformables (visages, personnes, voitures, bâtiments…), dans des conditions de prises de vue non contraintes et dans des contextes variés. Ces systèmes, statistiques ou neuronaux, apprennent par l'exemple, et l'effort de recherche porte plus, à présent, sur la constitution de corpora suffisamment représentatifs que sur les algorithmes de reconnaissance (réseaux de convolutions, Adaboost, AAMs…), qui deviennent génériques et ne reposent plus sur des règles heuristiques et peu robustes.

Ces progrès permettent d'envisager de nombreuses applications qui nécessitent la détection d'indices de haut niveau, plus proches de la notion d'objets visuels, pour caractériser fortement le contenu et en faciliter grandement l'indexation automatique, tout en assurant une recherche intuitive et efficace. Nous pouvons citer la reconnaissance de textes de scènes, la reconnaissance de monuments ou la détection et la reconnaissance de visages, sujet qui s'impose comme incontournable dans les interfaces ou les systèmes de recherche d'information actuels.

Les challenges des années à venir vont porter sur la caractérisation du contenu pour la navigation dans de très grandes bases de données, la prise en compte de la multimodalité image-son-texte, et l'introduction de la vision artificielle dans les terminaux légers mobiles et, en milieu résidentiel, pour l'accès à l'information mais aussi pour une interaction naturelle entre l'homme et les objets communicants (contrôle d'accès, aide au handicap, réalité augmentée, recherche d'informations sur internet à partir d'une photo prise sur site, etc…).


Continuons donc à faire parler les pixels … pour apprendre par l'exemple!

 

Christophe GARCIA

Docteur en Intelligence Artificielle et Analyse d'Images - FT R&D

Tél : 02 99 12 48 84

christophe.garcia@orange-ftgroup.com