Comment un simple piratage permet d’accéder aux données cachées de ChatGPT

Des chercheurs ont récemment découvert une méthode pour extraire des données d’entraînement à partir de modèles de langage comme ChatGPT.

Cette technique repose sur la répétition incessante de certains mots, tels que « poème ». Cette stratégie a permis de faire dévier ChatGPT de sa formation habituelle et de le faire agir comme un modèle de langage de base, révélant ainsi des données mémorisées.

Pour étayer leurs découvertes, les chercheurs ont comparé les sorties de ChatGPT avec un ensemble de données auxiliaires de 9 téraoctets, provenant de sources telles que The Pile, RefinedWeb, RedPajama et Dolma. Ils ont constaté de nombreuses correspondances entre les sorties du modèle et cet ensemble de données. En outre, une recherche manuelle sur Google a révélé encore plus de correspondances, suggérant une sous-estimation de la mémorisation des données dans ChatGPT par rapport à l’ensemble de données auxiliaires.

Cette découverte suggère que les modèles de langage avancés peuvent involontairement révéler des données d’entraînement via des techniques simples. Toutefois, cette vulnérabilité semble spécifique à ChatGPT et ne s’applique pas à d’autres modèles de langage de grande échelle (LLM). Les chercheurs avertissent que les praticiens devraient prendre des mesures de protection extrêmes lors de la formation et du déploiement de LLM dans des applications sensibles à la vie privée.

Partager:

Les dernières actualités :