Google Révèle RETVec : Une Nouvelle Solution Contre les Spams et Messages Malveillants

Google a dévoilé un nouveau vecteur de texte multilingue appelé RETVec (abréviation de Resilient and Efficient Text Vectorizer) pour aider à détecter les contenus potentiellement nuisibles tels que les spams et les courriels malveillants dans Gmail.

« RETVec est entraîné à résister aux manipulations au niveau des caractères, notamment l’insertion, la suppression, les fautes de frappe, les homoglyphes, la substitution LEET et bien d’autres choses encore », selon la description du projet sur GitHub.

 

« Le modèle RETVec est formé à partir d’un nouveau codeur de caractères capable d’encoder efficacement tous les caractères et mots UTF-8.
Alors que de grandes plateformes comme Gmail et YouTube s’appuient sur des modèles de classification de texte pour repérer les attaques de phishing, les commentaires inappropriés et les escroqueries, les acteurs de la menace sont connus pour concevoir des contre-stratégies afin de contourner ces mesures de défense. Ils ont été observés en train de recourir à des manipulations de texte adverses, qui vont de l’utilisation d’homoglyphes au bourrage de mots clés en passant par les caractères invisibles.
RETVec, qui fonctionne dans plus de 100 langues, vise à aider à construire des classificateurs de texte plus résistants et plus efficaces côté serveur et sur l’appareil, tout en étant plus robustes et plus efficaces.
La vectorisation est une méthodologie de traitement du langage naturel (NLP) qui permet de mettre en correspondance des mots ou des phrases d’un vocabulaire avec une représentation numérique correspondante afin d’effectuer des analyses plus poussées, telles que l’analyse des sentiments, la classification de textes et la reconnaissance d’entités nommées.
« Grâce à son architecture novatrice, RETVec fonctionne dès le départ dans toutes les langues et avec tous les caractères UTF-8 sans nécessiter de prétraitement du texte, ce qui en fait le candidat idéal pour les déploiements de classification de texte à grande échelle et sur le web », ont déclaré Elie Bursztein et Marina Zhang, de Google.
Le géant de la technologie a déclaré que l’intégration du vectoriseur dans Gmail a amélioré le taux de détection des spams de 38 % par rapport à la base et a réduit le taux de faux positifs de 19,4 %. Elle a également permis de réduire de 83 % l’utilisation de la Tensor Processing Unit (TPU) du modèle.
« Les modèles formés avec RETVec présentent une vitesse d’inférence plus rapide en raison de leur représentation compacte. Le fait d’avoir des modèles plus petits réduit les coûts de calcul et diminue la latence, ce qui est essentiel pour les applications à grande échelle et les modèles sur appareil », a ajouté Bursztein Zhang.

Partager:

Les dernières actualités :