Dans les coulisses : Anand Muralidhar détecte les clics robotiques sur la publicité

Anand

La confiance des clients est une priorité pour Amazon, il n’y a donc pas de place pour les clics frauduleux sur la publicité dans ses plateformes. Alors que les acteurs malveillants sont devenus plus sophistiqués dans la programmation de robots pour imiter les humains qui cliquent sur les publicités, Amazon Ads a renforcé sa sécurité. Le modèle qui en résulte est décrit dans cet article et dans un article scientifique qui a été présenté à la Conférence 2023 sur les applications innovantes de l’intelligence artificielle, dans le cadre de la réunion annuelle de l’Association for the Advancement of Artificial Intelligence.

L’auteur principal et scientifique principal d’Amazon Ads, Anand Muralidhar, titulaire d’un doctorat en génie électrique et informatique de l’Université de l’Illinois à Urbana-Champaign, parle ici de l’article et de ses recherches actuelles.

Pourquoi avez-vous rejoint Amazon Ads?

Pour être honnête, au tout début, je ne connaissais pas vraiment le genre de travail qu’Amazon Ads effectue. En 2016, je terminais mon travail dans une startup et je cherchais un poste qui me permettrait de travailler sur des modèles d’apprentissage automatique, et ce rôle s’est présenté. Je m’y suis lancé sans avoir une idée de l’ampleur ou de la complexité, alors ce fut une agréable surprise une fois que j’ai rejoint l’équipe.

Sur quels domaines de recherche vous concentrez-vous maintenant?

Mon domaine de recherche a évolué. J’ai passé peut-être les trois quarts de ma carrière chez Amazon à détecter le trafic robotique. Au cours des dernières années à peu de choses près, j’ai commencé à m’intéresser à la publicité contextuelle. C’est un domaine d’intérêt important pour Amazon Ads, car nous essayons de comprendre le contenu d’une page web ou d’une application que l’utilisateur consulte pour ensuite afficher des publicités qui correspondent à celui-ci. Donc, si vous êtes sur une page qui parle d’une recette de, disons, gâteau au chocolat, je veux vous montrer des publicités liées au gâteau au chocolat — peut-être un moule à gâteau, du beurre, des pépites de chocolat, et ainsi de suite.

Qu’est-ce que le trafic robotique, et pourquoi cela se produit-il?

Chaque jour sur Amazon.com, nous affichons des milliards de publicités qui reçoivent des millions de clics, et nous facturons les annonceurs chaque fois que quelqu’un clique sur une publicité. Il y a des éléments sans scrupules sur le Web qui veulent exploiter cela, et ils créent des robots pour cliquer sur ces publicités.

Il pourrait y avoir plusieurs raisons de construire un robot pour cliquer sur des publicités. Disons que vous voulez épuiser le budget publicitaire d’un vendeur de montres-bracelets. Lorsque quelqu’un recherche des montres sur Amazon et que les montres du vendeur apparaissent comme publicités, si un robot clique sur chacune de ces publicités, le budget publicitaire du vendeur s’épuisera très rapidement sans qu’aucun humain n’ait jamais vu de publicité. Un autre exemple de trafic robotique est lorsqu’un robot fait augmenter le classement publicitaire d’un produit par des clics, même si d’autres publicités sont plus pertinentes pour une requête de recherche. Cela pourrait confondre les systèmes d’apprentissage automatique et augmenter involontairement les classements.

Les gens qui créent ces robots sont devenus très sophistiqués, et ils continuent d’améliorer et de faire évoluer leurs algorithmes.

Comment votre article, Détection en temps réel du trafic robotique dans la publicité en ligne, aborde-t-il ce problème?

Cet article en particulier traite d’un modèle d’apprentissage automatique pour identifier ce type de trafic robotique : la détection des robots au niveau des segments (SLIDR). SLIDR fonctionne en temps réel et examine chaque clic effectué sur Amazon.com par une personne qui voit une publicité. Il détermine si le clic provient d’un humain ou d’un robot — et s’il provient d’un robot, nous ne facturons pas l’annonceur.

SLIDR a été déployé en 2021 et traite des dizaines de millions de clics et quelques milliards d’impressions chaque jour. Aujourd’hui, déployer un modèle d’apprentissage profond peut ne pas sembler si extraordinaire puisque tout le monde le fait. Mais quand nous avons commencé cela en 2020, c’était probablement le premier modèle de ce genre à fonctionner à une telle échelle sur Amazon.com, et c’était tout un défi pour nous.

Le modèle SLIDR examine des segments de trafic provenant de différents appareils, comme un ordinateur de bureau, une application mobile ou un site web mobile. Tout cela doit être géré différemment pour obtenir une performance maximale du système, et nous avons développé certaines techniques pour y parvenir. De plus, nous avons réalisé avec le temps qu’il nous fallait des garde-fous pour nous assurer que lorsque nous déployons ces systèmes en production, rien ne tourne mal et que nous avons toujours un mode de sécurité intégré. L’article contient également quelques autres détails techniques sur la façon dont nous avons configuré le problème : l’architecture du modèle, le type de statistiques que nous utilisons pour évaluer la performance, comment le modèle fonctionne sur différents segments de trafic, et ainsi de suite.

Qu’est-ce qui est passionnant dans ces recherches et de leurs impacts?

SLIDR finit par économiser des revenus publicitaires qui autrement auraient été gaspillés.

L’échelle est un autre élément important : Il y a très peu de systèmes qui égalent Amazon Ads à cet égard. Même quand les gens parlent de créer des modèles pour les mégadonnées, ils ne font pas vraiment fonctionner ces modèles à cette échelle.

C’est l’une des choses merveilleuses de travailler chez Amazon Ads : vous travaillez avec des données à une échelle tout à fait inimaginable. Nous traitons des milliards d’enregistrements par jour, ce qui représente une énorme quantité de données sur un mois. Donc, les types de modèles que nous construisons doivent être robustes, très efficaces et étroitement surveillés. En même temps, nous utilisons l’apprentissage automatique, donc nous devons aussi garantir la performance selon les statistiques que nous avons choisies.

Tout cela en fait un domaine de travail assez stimulant et passionnant. On finit par voir beaucoup de particularités bizarres dans les données, ce qu’on ne verrait pas si l’on faisait uniquement de la recherche théorique ou si l’on travaillait sur une preuve de concept. Ce n’est que lorsque vous commencez à faire fonctionner les choses à cette échelle, où même un petit changement dans la performance de votre modèle peut avoir un impact énorme sur les revenus d’Amazon ou le budget d’un client, que la complexité devient évidente.

Un autre impact de ces recherches, c’était qu’elles nous ont donné beaucoup de confiance sur la façon de déployer des modèles d’apprentissage profond dans un cadre de production. Avant cela, nous n’avions aucune expérience dans ce domaine, et nous n’étions pas certains de pouvoir y arriver. Maintenant, nous sommes très à l’aise pour exécuter des modèles d’apprentissage profond à grande échelle, et c’était un assez grand pas en avant pour nous.

Pourquoi votre équipe a-t-elle décidé de poursuivre le modèle SLIDR?

Certaines des solutions initiales développées par mon équipe pour identifier le trafic robotique étaient basées sur des règles relativement simples qui sont devenues très complexes avec le temps. Nous suivions divers paramètres tels que la fréquence à laquelle une adresse IP ou un utilisateur spécifique effectuait des clics et combien de clics avaient été faits dans les dernières heures, les dernières minutes, les dernières secondes, et ainsi de suite.

À mesure qu’Amazon Ads prenait de l’ampleur, l’échelle du trafic robotique et la complexité des algorithmes utilisés par les auteurs de robots augmentaient également. Nous avons réalisé que les règles en place ne s’adaptaient pas à l’ampleur du défi, et que leur calibration manuelle chaque année ou même chaque trimestre était un exercice assez chronophage.

Cela nous a amenés à nous demander si nous devrions passer des règles créées manuellement à un modèle d’apprentissage automatique. C’était un problème à résoudre au début, non seulement en raison de l’échelle, mais aussi de la nature en temps réel. Nous n’avons que quelques millisecondes pour évaluer les clics au moment où ils se produisent. Nous avons construit des modèles appelés arbres à gradient boosté, qui ont fonctionné avec succès pendant quelques années. Mais ensuite, nous avons connu la vague de l’apprentissage profond, qui nous a donné l’occasion d’amener nos modèles au niveau supérieur. Ces modèles continuent d’évoluer, et nous développons des techniques plus complexes qui peuvent mieux distinguer les clics humains des clics robotiques.

Vous avez mentionné avoir été agréablement surpris par l’échelle et la complexité d’Amazon Ads lors de votre arrivée. Qu’avez-vous remarqué d’autre?

Vous pourriez penser que les scientifiques sont assis dans leur coin à développer des modèles d’apprentissage automatique pour ensuite simplement rédiger des spécifications de déploiement et les transmettre à des ingénieurs qui se trouvent ailleurs. Mais ce n’est pas le cas. Ici, nous sommes tous installés au même étage, les uns à côté des autres, ce qui crée un environnement très intéressant où nous pouvons développer des idées en tandem avec les ingénieurs.

Notre équipe a développé des cadres de travail qui permettent aux scientifiques de déployer un modèle dans le système de production avec un minimum d’effort. Le cycle, depuis la conception d’un modèle jusqu’à son déploiement en production, s’étendait auparavant sur de nombreux mois, mais nous l’avons maintenant réduit à quelques semaines. Quelqu’un peut proposer une nouvelle idée fantastique ou un nouveau modèle d’apprentissage automatique, le tester rapidement, le mettre en production, et le faire fonctionner en direct. C’est fantastique parce que ça permet à quelqu’un de voir l’impact de ce qu’il a fait dans une très courte période. Je ne pense pas que ce genre d’opportunité soit disponible ailleurs, où l’on peut vraiment faire bouger les choses dans une entreprise qui se mesure en milliards de dollars.

Comment réinventez-vous la publicité dans votre rôle?

Alors que les navigateurs Internet continuent de s’éloigner des témoins tiers, mes recherches se sont tournées vers les publicités contextuelles. Ces publicités identifient le sujet principal, le contenu et les mots-clés principaux d’une page Web et affichent la publicité la plus appropriée en fonction de ces informations. C’est notre responsabilité chez Amazon — de nous assurer que les annonceurs qui nous font confiance continuent d’obtenir les mêmes performances qu’auparavant.

Je suis ravi(e) que nous soyons en train de stimuler l’innovation dans le domaine des publicités contextuelles en utilisant des techniques d’IA de pointe pour offrir la meilleure expérience possible tant pour les annonceurs que pour les utilisateurs.