Une nouvelle attaque par apprentissage profond déchiffre les frappes de clavier d’ordinateur portable avec une précision de 95%.
- par Kenan
- , le 7 août 2023
- 18 h 11 min
Un groupe d’universitaires a mis au point une « attaque acoustique par canal latéral basée sur l’apprentissage profond » qui peut être utilisée pour classer avec une précision de 95 % les frappes sur un ordinateur portable enregistrées à l’aide d’un téléphone situé à proximité.
« Lorsqu’ils ont été formés sur des frappes enregistrées à l’aide du logiciel de vidéoconférence Zoom, une précision de 93 % a été atteinte, un nouveau record pour ce média », ont déclaré les chercheurs Joshua Harrison, Ehsan Toreini et Maryam Mehrnezhad dans une nouvelle étude publiée la semaine dernière.
Les attaques par canal latéral font référence à une classe d’exploits de sécurité qui visent à obtenir des informations sur un système en surveillant et en mesurant ses effets physiques pendant le traitement de données sensibles. Parmi les effets observables les plus courants, on peut citer le comportement en cours d’exécution, la consommation d’énergie, les rayonnements électromagnétiques, l’acoustique et les accès au cache.
Bien qu’il n’existe pas de mise en œuvre totalement exempte de canaux latéraux, les attaques pratiques de ce type peuvent avoir des conséquences dommageables pour la vie privée et la sécurité des utilisateurs, car elles pourraient être utilisées par un acteur malveillant pour obtenir des mots de passe et d’autres données confidentielles.
« L’omniprésence des émanations acoustiques du clavier en fait non seulement un vecteur d’attaque facilement accessible, mais incite également les victimes à sous-estimer (et donc à ne pas essayer de cacher) leur production », ont déclaré les chercheurs. « Par exemple, lorsqu’ils tapent un mot de passe, les gens cachent régulièrement leur écran, mais ne font pas grand-chose pour masquer le son de leur clavier.
Pour mener à bien cette attaque, les chercheurs ont d’abord réalisé des expériences au cours desquelles ils ont utilisé 36 des touches du MacBook Pro d’Apple (0-9, a-z), en appuyant sur chaque touche 25 fois de suite, en variant la pression et le doigt. Ces informations ont été enregistrées à la fois par un téléphone situé à proximité de l’ordinateur portable et par Zoom.
La phase suivante a consisté à isoler les frappes individuelles et à les convertir en un spectrogramme mélodique, sur lequel un modèle d’apprentissage profond appelé CoAtNet (prononcé « coat » nets et abrégé pour convolution and self-attention networks) a été exécuté pour classer les images de frappes.
Comme contre-mesures, les chercheurs recommandent de modifier le style de frappe, d’utiliser des mots de passe aléatoires plutôt que des mots de passe contenant des mots entiers, et d’ajouter de fausses frappes générées de manière aléatoire pour les attaques basées sur des appels vocaux.