Recherche audio Google sera-t-elle possible?

Google fournit des détails sur les premiers tests effectués pour potentiellement rendre possible la recherche audio à l’avenir. Sera-t-il un jour possible pour Google de créer un index de contenu audio que les utilisateurs peuvent parcourir comme des pages Web?

Les résultats des premiers tests, publiés par Google dans un article de blog, indiquent que la recherche audio est plus difficile à réaliser qu’il n’y paraît.

Les détails de ces tests sont partagés dans un article rédigé par Tim Olson, SVP des partenariats stratégiques numériques chez KQED.

Google s’associe à KQED dans un effort conjoint pour rendre la recherche audio plus facile.

Avec l’aide de KUNGFU.AI, un fournisseur de services d’intelligence artificielle, Google et KQED ont effectué des tests pour déterminer comment transcrire l’audio de manière rapide et sans erreur.

Voici ce qu’ils ont découvert.

recherche audio


Les difficultés de la recherche audio

Le plus grand obstacle à la possibilité de faire de la recherche audio est le fait que l’audio doit être converti en texte avant de pouvoir être recherché et trié.

Il n’existe actuellement aucun moyen de transcrire avec précision l’audio d’une manière qui permette de le retrouver rapidement.

La seule façon dont la recherche audio à l’échelle mondiale serait possible est la transcription automatisée. Les transcriptions manuelles exigeraient beaucoup de temps et d’efforts de la part des éditeurs.

Olson de KQED note à quel point la barre de précision doit être élevée pour les transcriptions audio, en particulier lorsqu’il s’agit d’indexer des informations audio. Les progrès réalisés jusqu’à présent dans le domaine de la synthèse vocale ne répondent pas actuellement à ces normes.

Limitations de la technologie Speech-to-Text actuelle

gg assistant


Google a mené des tests avec KQED et KUNGFU.AI en appliquant les derniers outils de synthèse vocale à une collection d’actualités audio. Des limites ont été découvertes dans la capacité de l’IA à identifier les noms propres (également appelés entités nommées).

Les entités nommées ont parfois besoin d’un contexte pour être comprises pour être identifiées avec précision, ce que l’IA n’a pas toujours.

Olson donne un exemple d’actualités audio de KQED qui contient des paroles pleines d’entités nommées contextuelles à la région de la baie:

«L’audio des actualités locales de KQED est riche en références d’entités nommées liées à des sujets, des personnes, des lieux et des organisations contextuels à la région de la baie. Les orateurs utilisent des acronymes comme «CHP» pour California Highway Patrol et «the Peninsula» pour la zone s’étendant de San Francisco à San Jose. Celles-ci sont plus difficiles à identifier pour l’intelligence artificielle. »

Lorsque les entités nommées ne sont pas comprises, l’IA fait sa meilleure estimation de ce qui a été dit. Cependant, il s’agit d’une solution inacceptable pour la recherche sur le Web, car une transcription incorrecte peut changer tout le sens de ce qui a été dit.

Et après?

Les travaux se poursuivront sur la recherche audio Google avec des plans pour rendre la technologie largement accessible lorsqu’elle sera développée.

David Stoller, partenaire responsable des actualités et de la publication chez Google, a déclaré que la technologie sera partagée ouvertement lorsque le travail sur ce projet sera terminé.

« L’un des piliers de la nouvelle initiative Google est l’incubation de nouvelles approches face à des problèmes difficiles. Une fois terminée, cette technologie et les meilleures pratiques associées seront partagées ouvertement, ce qui augmentera considérablement l’impact escompté. »

Les modèles d’apprentissage automatique d’aujourd’hui n’apprennent pas de leurs erreurs, dit Olson de KQED, et c’est là que les humains peuvent avoir besoin d’intervenir.

L’étape suivante consiste à tester une boucle de rétroaction dans laquelle les salles de rédaction aident à améliorer les modèles d’apprentissage automatique en identifiant les erreurs de transcription courantes.

« Nous sommes convaincus que, dans un proche avenir, les améliorations apportées à ces modèles de synthèse vocale permettront de convertir plus rapidement l’audio en texte, ce qui aidera les internautes à trouver plus efficacement les actualités audio. »

(2)