PIGEON, une IA dveloppe par trois tudiants diplms de Stanford, capable de golocaliser avec prcision des photos, Ce qui inquite les spcialistes de la protection de la vie prive

Les textes gnrs par l'IA pourraient accrotre l'exposition aux menaces L'identification des contenus malveillants ou abusifs deviendra plus difficile pour les fournisseurs de plateformes



Trois tudiants diplms de Stanford ont dvelopp un projet appel Predicting Image Geolocations (PIGEON), une intelligence artificielle (IA) capable de golocaliser avec prcision des photos, mme celles qui n’ont jamais t vues par le programme auparavant. Initialement conu pour identifier des lieux sur Google Street View, PIGEON peut maintenant deviner l’emplacement d’une image Google Street View n’importe o sur terre avec une prcision leve.

La golocalisation d’images l’chelle de la plante reste un problme difficile en raison de la diversit des images provenant de n’importe o dans le monde. Bien que les approches bases sur les transformateurs de vision aient fait des progrs significatifs dans la prcision de la golocalisation, le succs de la littrature antrieure est limit des distributions troites d’images de points de repre, et la performance n’a pas t gnralise des lieux non vus.

Bien que la technologie PIGEON puisse avoir des applications bnfiques, comme aider identifier des endroits sur des photos anciennes ou faciliter les enqutes biologiques sur la biodiversit, elle suscite galement des proccupations en matire de vie prive. Des experts craignent que cette capacit puisse tre utilise des fins de surveillance gouvernementale, de suivi des entreprises ou de harclement. Malgr ses avantages potentiels, l’efficacit de PIGEON soulve des questions sur la protection de la vie prive et son utilisation future.

Pipeline de prdiction et principales contributions de PIGEON

Les chercheurs de l’Universit de Stanford ont introduit un nouveau systme de golocalisation qui intgre la cration de gocellules smantiques, le pr-entranement contrastif multitche et une fonction de perte innovante. Leur travail constitue la premire tentative d’exploration de groupes de lieux pour affiner les estimations. Le premier modle, baptis PIGEON, a t form sur les donnes du jeu Geoguessr, dmontrant une capacit placer plus de 40 % de ses estimations moins de 25 kilomtres de la cible l’chelle mondiale. Les chercheurs ont galement mis au point un bot et ont soumis PIGEON une exprience en aveugle contre des joueurs humains, se classant parmi les 0,01 % des meilleurs joueurs.

Dans une srie de six matchs diffuss devant des millions de tlspectateurs, ils ont dfi l’un des plus grands joueurs professionnels de Geoguessr et ont remport tous les matchs. Leur deuxime modle, PIGEOTTO, se distingue par son entranement sur un ensemble de donnes d’images provenant de Flickr et de Wikipedia. Il a surpass l’ancien modle SOTA de 7,7 points de pourcentage en termes de prcision des villes et de 38,8 points de pourcentage au niveau des pays, dmontrant des performances exceptionnelles sur divers critres de rfrence en matire de golocalisation d’images. Les rsultats suggrent que PIGEOTTO est le premier modle de golocalisation d’images capable de gnraliser efficacement des lieux non vus, ouvrant ainsi la voie des systmes de golocalisation d’images trs prcis l’chelle mondiale.

Spcifications des Geocells autour de Paris, France

Les donnes administratives et les informations sur les formations sont structures de manire hirarchique, regroupes et subdivises en cellules gographiques smantiques l’aide de la mthode de Vorono. Les tiquettes des cellules gographiques sont ensuite utilises pour crer des tiquettes continues sans lissage des transitions. Les modles interprtatifs CLIP et de regroupement OPTICS sont exploits pour gnrer des reprsentations des regroupements d’emplacements.

Pendant la phase d’infrence, la densit de l’image anime est calcule et initialement transmise une couche linaire pour produire des prdictions de cellules gomtriques, identifiant ainsi les candidats aux cellules gomtriques suprieures. Cette densit est ensuite intgre dans notre processus d’affinage pour amliorer les prdictions au sein et entre les cellules gomtriques, en minimisant la distance L2 entre la densit de l’image d’infrence et les reprsentations des amas de localisation par rapport aux cellules gomtriques suprieures. Enfin, les prdictions sont raffines au sein du regroupement suprieur identifi afin de gnrer des coordonnes gographiques en sortie.

Dfinition du problme de golocalisation d’images

La localisation d’images pose le dfi de mettre en correspondance des images animes avec des coordonnes permettant d’identifier leur lieu de capture. La complexit du problme rside non seulement dans sa formulation globale, mais aussi dans la difficult raliser une localisation prcise en raison des variations de jour, de temps, de saison, d’heure, d’clairage, de climat, de circulation, d’angle de vue, et d’autres facteurs.

La premire tentative moderne de localisation d’images l’chelle mondiale remonte IM2GPS (2008) (Hays & Efros, 2008), une approche base sur la recherche de caractristiques cres manuellement. Toutefois, la dpendance envers les mthodes de recherche du plus proche voisin (Zamir & Shah, 2014) utilisant des caractristiques visuelles cres manuellement (Crandall et al., 2009) implique la ncessit d’une vaste base de donnes d’images de rfrence, rendant la localisation gographique prcise l’chelle mondiale pratiquement impossible. Par consquent, les travaux ultrieurs ont opt pour une approche plus restreinte en se concentrant sur des villes spcifiques telles qu’Orlando et Pittsburgh (Zamir & Shah, 2010) ou San Francisco (Berton et al., 2022).

Certains ont choisi de cibler des pays spcifiques pour des considrations de scurit et de confidentialit, comme les tats-Unis, ou mme des caractristiques gographiques plus spcifiques telles que des chanes de montagnes, des dserts et des plages.

Golocalisation hirarchique d’images avec des tiquettes bases sur le lissage de distance : En abordant la discrtisation du problme de golocalisation d’images, nous crons un compromis entre la granularit des gocellules et la prcision des prdictions. Bien que des gocellules plus fines permettent des prdictions plus prcises, elles rendent la classification plus complexe en raison d’une cardinalit plus leve. La littrature antrieure a trait ce dfi en produisant des prdictions de golocalisation distinctes plusieurs niveaux de granularit gographique, affinant les estimations chaque niveau subsquent ; prsentent galement des architectures qui partagent certains paramtres de modle entre diffrents niveaux hirarchiques, amliorant ainsi les performances de golocalisation.

Cependant, toutes ces approches antrieures partagent une limitation commune : les modles fonctionnent de manire isole, ignorant quelles gocellules sont adjacentes les unes aux autres. L’approche surmonte cette limitation significative en partageant tous les paramtres entre plusieurs niveaux implicites de hirarchies gographiques. Cela est ralis grce une fonction de perte qui connecte les gocellules adjacentes en ajustant l’tiquetage en fonction de la distance haversine. Cette dernire mesure la distance entre deux points la surface de la Terre. Pour deux points donns, p1=(λ1,ϕ1) et p2=(λ2,ϕ2), de longitude λ et de latitude ϕ, la distance haversine Hav(p1,p2) est calcule en kilomtres comme suit :

Nous lissons ensuite l’tiquette de classification gocellulaire originale un coup l’aide de cette mtrique de distance selon l’quation suivante pour un chantillon n et un gocelli donns :

o gi sont les coordonnes du centrode du polygone de la cellule i, gn sont les coordonnes du centrode de la vraie cellule, xn sont les vraies coordonnes de l’exemple pour lequel l’tiquette est calcule, et τ est un paramtre de temprature qui est fix 75 pour PIGEON et 65 pour PIGEOTTO dans nos expriences. Il est important de noter que notre « haversinesmoothing » est diffrent du « labelsmoothing » classique car les tiquettes ne sont pas dcomposes en utilisant un facteur constant mais en se basant la fois sur la distance par rapport la gocellule correcte et la localisation relle.

tant donn que pour chaque exemple d’apprentissage, plusieurs gocellules auront une cible yn, i significativement plus grande que zro, notre modle apprend simultanment prdire la bonne gocellule ainsi qu’un niveau de granularit gographique encore plus grossier. Nous concevons la fonction de perte suivante base sur le lissage haversine pour un chantillon d’apprentissage particulier :

o pn, i reprsente la probabilit que notre modle assigne la gocellule i pour l’chantillon n. Un avantage supplmentaire de l’utilisation de la perte dfinie par l’quation prcdente rside dans son impact positif sur la gnralisation, car les dfinitions de la hirarchie varient travers chaque chantillon d’apprentissage. De plus, en cas o un chantillon se situe proximit de la frontire entre deux gocellules, cette ralit se refltera par des tiquettes cibles approximativement gales pour l’ensemble des gocellules.

Ceci s’avre particulirement utile pour les grandes gocellules, comprenant jusqu’ dix cellules rurales. Par ailleurs, tant donn que chaque tiquette cible yn, i est dsormais continue et que la complexit du problme de classification peut tre librement ajuste l’aide de τ, un nombre arbitraire de gocellules peut tre utilis, condition que ces gocellules restent significatives du point de vue contextuel et contiennent un nombre minimum d’chantillons.

Enfin, il est noter que notre perte de classification repose dsormais directement sur la distance par rapport la localisation relle xn d’un chantillon donn, en contournant ainsi les difficults lies la rgression rencontres dans la littrature antrieure.

Impact de l’application d’un lissage haversine sur des gocellules voisines pour un site Accra, au Ghana

Les trois tudiants diplms de Stanford ont introduit une nouvelle approche multi-tches pour la localisation d’images l’chelle mondiale, garantissant des performances de pointe tout en dmontrant une robustesse face aux variations de distribution. Afin de valider l’efficacit de lapproche, ils forment et valuent deux modles distincts de localisation d’images. Initialement, nous collectons des donnes mondiales provenant de StreetView pour entraner PIGEON, un modle multi-tches qui se classe parmi les 0,01 % des joueurs humains dans le jeu Geoguessr.

Sur un ensemble de donnes comprenant 5 000 emplacements de StreetView, PIGEON utilise efficacement 40,4 % de l’espace de jeu pour la localisation d’images. Par la suite, nous assemblons un ensemble de donnes mondial de plus de 4 millions d’images tires de Flickr et de Wikipedia pour former le modle gnral PIGEOTTO, amliorant ainsi la qualit des rsultats sur une gamme plus tendue d’ensembles de donnes de golocalisation de manire significative.

Concernant l’avenir, la question demeure de savoir si les technologies de golocalisation d’images adopteront une vritable porte mondiale ou se concentreront sur des distributions spcifiques de la population. Quoi qu’il en soit, les conclusions sur l’importance de la cration smantique de cellules gomtriques, de la formation multimodale l’interprtation contrastive, et du raffinement prcis des cellules gomtriques, entre autres, mettent en lumire des lments fondamentaux cruciaux pour de tels systmes.

Nanmoins, le dploiement ultrieur de la technologie de localisation d’images devra quilibrer les avantages potentiels avec les risques ventuels, assurant ainsi un dveloppement judicieux des futurs systmes de surveillance informatique.

La conclusion des travaux des chercheurs prsente un panorama positif des travaux des tudiants diplms de Stanford sur la golocalisation d’images l’chelle mondiale. Cependant, quelques points mritent une rflexion critique.

Analyse critique de l’approche des tudiants de Stanford en golocalisation d’images

Tout d’abord, la dclaration selon laquelle leur approche garantit des performances de pointe et une robustesse face aux variations de distribution peut ncessiter des dtails supplmentaires et des preuves concrtes pour tayer cette affirmation. Des comparaisons avec d’autres approches existantes ou des explications sur la manire dont leur modle surmonte spcifiquement les dfis lis la distribution seraient bnfiques.

En ce qui concerne les rsultats spcifiques des modles PIGEON et PIGEOTTO, bien que le pourcentage de l’espace de jeu utilis pour la localisation d’images soit mentionn, une valuation plus approfondie des performances, des mtriques de prcision et de rappel, ainsi que des comparaisons avec d’autres modles existants, pourrait renforcer la crdibilit de leurs rsultats.

Par ailleurs, la question souleve quant savoir si les technologies de golocalisation d’images seront mondiales ou axes sur des distributions spcifiques est pertinente, mais elle mriterait une exploration plus approfondie. Des rflexions sur les implications thiques, sociales et politiques de telles technologies seraient galement un ajout valable la discussion.

Bien que la conclusion souligne des lments fondamentaux cruciaux pour les systmes de golocalisation d’images, une approche plus nuance, des donnes comparatives plus dtailles et une exploration approfondie des implications futures de cette technologie pourraient renforcer la qualit et la robustesse du travail des tudiants de Stanford.

Source : Stanford University graduate students

Et vous :

Les concluions des travaux de la Stanford University sont-elles pertinentes ?

Quel est votre avis sur le sujet ?

Voir aussi :

94% des membres de la gnration Z sont favorables la golocalisation, 72 % des femmes dclarant que le partage de localisation leur procure un meilleur sentiment de bien-tre physique

Google lance officiellement le cble sous-marin, Equiano, au Cap en Afrique du Sud, il devrait crer 1,8 million d’emplois d’ici 2025

Google dploie Passkey, une nouvelle option d’authentification marquant un pas vers un avenir sans mot de passe. Mais l’entreprise se garde bien d’en prciser les limites



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.