Auteur :
Rob Weston
1. LES COMMUNICATIONS LES PLUS EXIGEANTES
La surveillance des appels téléphoniques des opérateurs est l'activité de surveillance la plus exigeante sur le plan technique, et ce pour une myriade de raisons : les appels sont complexes, la qualité des enregistrements est médiocre et, ce qui est le plus frustrant, la technologie utilisée fonctionne rarement.
Le résultat net est que les industries réglementées ont, pendant longtemps, évité de déployer des solutions de surveillance vocale, malgré le fait que les communications vocales fournissent un excellent aperçu des comportements répréhensibles. Les appels téléphoniques sont plus fluides et, par conséquent, plus incriminants que les courriels1.
Du point de vue des risques, il n'est pas logique de surveiller les courriels mais pas les appels téléphoniques ; du point de vue du budget, cela n'avait pas de sens auparavant en raison des coûts liés à la surveillance audio. Cependant, la technologie évolue et les coûts baissent, ce qui résout un problème et en crée un autre !
2. POURQUOI LA TECHNOLOGIE VOCALE EST-ELLE SI MAUVAISE ? ALEXA FONCTIONNE !
De nombreuses personnes sont, à juste titre, frustrées que la technologie utilisée pour convertir la voix en texte dans les services financiers soit si médiocre. L'Alexa d'Amazon peut être achetée pour 40 livres sterling ou moins et est considérée comme plus précise qu'une application d'un million de livres sterling - ce qui semble injuste, dans le meilleur des cas.
Les raisons en sont essentiellement historiques.
Une grande partie de la technologie déployée dans les banques pour surveiller les traders a été réutilisée à partir d'une technologie conçue pour le secteur de la vente au détail. Les appels surveillés dans la banque de détail sont généralement des conversations scénarisées et prévisibles, enregistrées sur des casques de haute qualité dans un centre d'appel silencieux.
Les appels de traders sont tout le contraire : les appels sont non scénarisés, imprévisibles et enregistrés sur des microphones de faible qualité avec un "débit binaire" très bas. La plupart des systèmes enregistrent à environ 8 bits. C'est quatre fois moins qu'un podcast et seize fois moins que les normes de diffusion de la BBC.
La mauvaise qualité de l'enregistrement, combinée à des microphones de mauvaise qualité et à un arrière-plan bruyant, signifie qu'il est difficile pour la technologie de discerner les différents sons et mots, créant ainsi une transcription de mauvaise qualité. En outre, bon nombre des technologies déployées font appel à des solutions "sur site" plutôt qu'à des plateformes basées dans le nuage. Alexa d'Amazon tire parti non seulement de l'énorme puissance de calcul d'AWS, mais aussi de toutes les données auxquelles elle peut accéder. Alexa met constamment à jour et améliore la plateforme, soutenue par des millions d'utilisateurs dans le monde entier qui contribuent à faire fonctionner sa technologie d'apprentissage en profondeur. Cette puissance de calcul et de données, associée au fait que les appareils Alexa sont équipés de sept microphones pour assurer un enregistrement et une séparation de haute qualité des conversations, signifie que les capacités d'Alexa dépassent de loin celles d'une solution standard, statique et sur site.
3. LA SITUATION S'AMÉLIORE-T-ELLE ?
Les niveaux de précision de la technologie de conversion de la parole en texte ont augmenté de façon spectaculaire, après être restés pratiquement statiques pendant près d'une décennie. De 2000 à 2010, la plupart des technologies avaient une précision d'environ 70% au mieux (voir le graphique ci-dessous) ; de 2013 à 2016, cette précision s'est radicalement améliorée et a atteint la marque de 94,1%. Il s'agit d'une étape clé, car elle correspond à la référence de la précision humaine.
Depuis 2016, cette technologie de pointe commence à se généraliser, avec un accès stable et facilement accessible au public.
En bref, la technologie réelle s'est considérablement améliorée et peut être déployée par les banques et les compagnies d'assurance.
Taux d'erreur sur les mots de la reconnaissance vocale pour une sélection de points de référence
4. TOUT EST DONC RÉGLÉ ?
La précision de la technologie de conversion de la voix en texte est désormais égale, voire supérieure, à celle de l'homme. Cela ne signifie pas pour autant que le problème est résolu. Loin de là, il y a deux raisons à cela : la qualité et le volume.
Les tests et les critères de référence sont basés sur un ensemble de données standard de type "standard téléphonique", pas les appels des traders. Les données de test sont donc de bien meilleure qualité que les appels réels des traders. Cette différence de qualité d'appel signifie que le simple fait de connecter les données aux nouvelles plateformes vocales ne résoudra pas le problème. Il faudra mettre en place un processus pour sélectionner la plateforme la plus efficace et l'adapter à l'ensemble de données spécifique.
Le deuxième problème est le volume de données. Même si la transcription de la parole en texte était d'une précision de 100%, il y aurait les mêmes problèmes de faux positifs que ceux qui existent dans les communications électroniques ; tout ce que le processus de transcription de la parole en texte fera, c'est de fournir de grandes quantités de texte pour l'analyse. Ce problème peut être résolu par d'autres méthodes telles que l'informatique cognitive pour favoriser la compréhension du sujet et l'apprentissage automatique pour réduire les faux positifs et trouver des risques plus pertinents. Ces domaines dépassent le cadre de cet article et sont traités dans d'autres publications d'Accuracy.
5. CONCLUSION
L'analyse de la voix a toujours été très médiocre, avec des taux de transcription de faible qualité et un nombre élevé de faux positifs. La capacité de transcription de la voix en texte s'est rapidement améliorée ces dernières années grâce à une technologie de plus en plus performante, mais cela ne résoudra pas le problème de la surveillance vocale.
La surveillance vocale nécessite de comprendre ce qui est dit et pourquoi. Il ne s'agit pas seulement d'une transcription ou d'une recherche de mots-clés : il s'agit de comprendre le comportement.
