ChatGPT a trouvé une nouvelle utilité : déterminer l’emplacement à partir de photos. Les derniers modèles d’IA d’OpenAI, o3 et o4-mini, peuvent analyser les images au-delà de la simple reconnaissance d’objets. Ils peuvent zoomer, recadrer et détecter des indices visuels dans les photos pour identifier des lieux, des points de repère et même des entreprises spécifiques. Cette fonctionnalité est fascinante, mais elle soulève également des questions de confidentialité.
TechCrunch rapporte que des utilisateurs téléchargent des photos de menus de restaurant ou des selfies puis demandent à ChatGPT de deviner où elles ont été prises. Pour ce faire, l’IA examine tous les éléments de l’image : le type de bâtiments, les caractéristiques du paysage et même des indices subtils comme l’architecture ou la configuration d’une ville. Elle puise ensuite dans sa base de données de connaissances et parfois sur Internet pour deviner l’emplacement. Les résultats peuvent être étonnamment précis.
Certains utilisateurs ont même testé l’IA avec des photos floues ou des images avec des objets partiels, et le modèle a quand même réussi à deviner.
J’ai téléchargé quelques photos pour voir comment ChatGPT relevait le défi. Cependant, comme pour toute IA, le résultat n’était pas toujours parfait.
Interprétation des indices visuels
La première photo était celle de ma maison. ChatGPT a immédiatement deviné l’emplacement, sans toutefois se baser sur les métadonnées. Il a plutôt fait une estimation en analysant les types d’arbres visibles sur la photo et le bardage en bois des maisons environnantes. Il a indiqué que cette combinaison de caractéristiques naturelles et de styles architecturaux était typique de la région d’où je viens et que j’avais mentionnée précédemment. C’était exact, mais s’appuyait néanmoins sur un contexte antérieur, ce qui m’a amené à me demander dans quelle mesure cela était dû à notre conversation précédente.
Pour la deuxième photo, j’ai téléchargé l’image d’un bâtiment avec une partie d’une enseigne de bureau visible. ChatGPT a rapidement zoomé sur l’enseigne et utilisé ces informations partielles pour affiner la localisation. Il n’a pas fallu longtemps pour déduire la ville et même le quartier où se trouvait le bâtiment. J’ai été impressionné par la façon dont le modèle a utilisé un si petit indice visuel pour faire une estimation assez précise.
Pour mon troisième test, je lui ai soumis une photo plus complexe : une vue panoramique sans repères évidents. ChatGPT m’a expliqué que, même s’il pouvait analyser l’image à la recherche d’indices visuels, il avait besoin de repères distinctifs ou de balises de localisation pour une estimation fiable. Il a également précisé que, sans données GPS ni balises EXIF, il ne pouvait lire que la scène elle-même (arbres, bâtiments, terrain) et que son estimation serait moins fiable.
Après cela, j’ai remarqué que l’IA ne parvenait pas à identifier les emplacements sur mes photos. Elle me disait qu’elle allait essayer de restreindre les options, mais qu’elle avait besoin de plus de données pour me donner une réponse précise.
ChatGPT analyse bien plus que les caractéristiques évidentes d’une photo. Même sans métadonnées comme les données EXIF autres extractions directes de données, l’IA interprète les indices visuels.
Les risques pour la confidentialité
Cette expérience m’a fait prendre conscience de la puissance, et parfois de l’étrangeté, de ces modèles d’IA pour la « recherche inversée de localisation » à partir de photos, même s’ils ne sont pas encore très performants. Elle m’a également fait réfléchir aux problèmes de confidentialité.
Si les outils d’IA peuvent parfois être amusants et utiles, il est important d’être conscient des risques liés au partage d’images en ligne et de la manière dont l’IA peut être utilisée pour analyser les données de ces images, qu’elles soient intégrées ou simplement visuelles, afin de déterminer où elles ont été prises.