crop_FaciMaronet_imageAtelierDigit_Hum2025ENSCluster__bloghnlabHumaNum13décembre2025
  • Séminaire

Adam Faci et Léa Maronet au séminaire VHS

Le mardi 2 juin 2026, de 17h à 19h, le séminaire VHS "Analyse historique de la circulation des savoirs scientifiques par le biais de l’image" accueille Adam Faci et Léa Maronet (Huma-Num Lab). Leur exposé a pour titre: “Segmentation automatique d’images en histoire de l’art : nouvelles méthodes et réflexion épistémologique”.

 

Illustration extraite de Faci & Maronet, blog hnlab HumaNum, article du 13 décembre 2025

  • Le 02 juin. 2026

  • 17:00 - 19:00

  • Séminaire
  • Sorbonne Université (4 place Jussieu.
    75005 Paris / métro Jussieu), Atrium,
    salle 128

Résumé

Les méthodes de vision par ordinateur constituent aujourd’hui des outils puissants pour l'exploration et l'analyse de grandes collections iconographiques. Classification automatique, reconnaissance d'objets et segmentation sémantique permettent d'identifier motifs et éléments visuels récurrents à travers de conséquents corpus d'images. Si elles ouvrent des perspectives inédites pour l'étude des tendances stylistiques, des pratiques de figuration et de circulations des images, elles se heurtent à une limite persistante, celle de produire des descriptions souvent trop pauvres pour les exigences des sciences humaines et sociales, tandis que les approches plus précises restent coûteuses, difficiles à paramétrer et peu reproductibles hors des contextes spécialisés. 

Nous proposons une approche combinant deux axes reproductibles mobilisant des modèles parmi les plus récents, en zero-shot c’est-à-dire sans réentraînement. La segmentation des éléments visuels est assurée via SAM (Segment Anything Model), adapté à l'image patrimoniale par une interface interactive qui permet de produire des annotations en quelques clics. Cette approche interactive réduit drastiquement le côté laborieux de la tâche tout en maintenant un haut niveau de précision, rendant la segmentation accessible à des chercheurs non spécialistes du traitement d'image. Les segments identifiés sont ensuite décrits à l'aide du modèle de langage et de vision (VLM) SigLIP2, instruit pour produire des catégorisations ancrées dans une taxonomie plutôt que les étiquettes génériques proposées par les modèles eux-mêmes. Cet enrichissement sémantique permet de produire des descriptions plus fines, contextualisées et directement exploitables dans une perspective d'analyse historienne et iconographique.

Ce qui fait l'intérêt de cette approche tient moins à chaque outil pris isolément qu'à leur articulation au service de questions disciplinaires précises. En s'appuyant sur des modèles de fondation disponibles et des stratégies zero-shot, l’approche est accessible et transposable à d'autres corpus ou problématiques.

 

Campus Pierre et Marie Curie

Sorbonne Université (4 place Jussieu.
75005 Paris / métro Jussieu), Atrium,
salle 128

A lire aussi