«

»

août
03

Le crowdsourcing appliqué : « scribe » pour sous-titrer en temps réel

Le sous-titrage en temps réel est une fonction de grande importance pour les malentendants. Mais elle est techniquement très difficile à réaliser. Aujourd’hui la solution la plus répandue est de faire appel à des sténographes professionnels. Cela présente un certain nombre d’inconvénients : en particulier les coûts importants, et le manque de souplesse (nécessité de recruter à l’avance des spécialistes).

La transcription automatique (speech to text), est une alternative, mais elle n’est encore aujourd’hui pas assez fiable et source d’erreurs trop importantes.

La solution géniale du crowdsourcing

Un groupe de recherche américain a mis au point une nouvelle solution pour la transcription en temps réel, reposant sur le crowdsourcing, baptisée Scribe. Il s’agit de faire intervenir des volontaires non-spécialistes, faciles à trouver. Par exemple dans le Mechanical Turk d’Amazon, ou toute autre place de marché spécialisée dans les micro-taches.

Le discours à transcrire est diffusé à chaque volontaire, qui saisit en temps réel ce qu’il entend. Scribe encourage chaque volontaire à transcrire des portions différentes du discours (se recouvrant éventuellement), en augmentant ou diminuant le volume de certaines parties.

Une dernière étape permet ensuite de combiner les différentes portions transcrites, pour reconstituer le flux complet. Cela demande des traitements évolués, pour aligner les différents tronçons, gérer les doublons ou arbitrer s’il y a des différences.

Quels résultats ?

Le concept a été expérimenté en grandeur réelle sur un flux audio de 20 minutes, en recrutant 18 transcripteurs sur le Mechanical Turk d’Amazon, pour un coût de 13,84 $ (36,10$ par heure). Les résultats en termes de qualité et de rapidité furent excellents : meilleurs qu’avec des sténographes professionnels d’après les auteurs du procédé.

Bref une technologie qui a de l’avenir …

 

 

Laisser un commentaire