Download_on_the_App_Store_Badge_FR_RGB_blk_100517

Amazon révèle une voix moins robotique pour lire des informations à la place des présentateurs

  • Recevoir tous les articles sur ce sujet.

    Vous suivez désormais les articles en lien avec ce sujet.

    Ce thème a bien été retiré de votre compte

Amazon révèle une voix moins robotique pour lire des informations à la place des présentateurs
© IMDB/Paramount Pictures

Amazon vient de dévoiler une nouvelle voix moins robotique de son service Polly afin de permettre à des médias de diffuser des informations audio de façon automatique, sans intervention humaine. Cette nouvelle voix se veut la plus réaliste possible dans la narration au point que l'auditeur n'entendrait pas la différence. Dans un note de blog, Amazon Web Services indique que les groupes de médias Gannett — éditeur de USA Today, journal américain le plus lu aux Etats-Unis — The Globe and Mail (Canada), BlueToad et TIM Media, ainsi que des organisations des secteurs de l'éducation, de la santé et du jeu, utiliseraient déjà ce service.

Polly est un service de synthèse vocale qui exploite des technologies avancées de deep learning pour synthétiser la parole de façon naturelle. Concrètement, il transforme les textes en parole, avec 59 voix dans 29 langues différentes. Il est intégrable à des applications via une API pour réaliser de la création de contenu, de la traduction ou même des modules de formation. "Pendant longtemps, ce n'est que dans la science-fiction que les machines ont verbalisé les émotions. À partir d'aujourd'hui, Amazon Polly fait un pas de plus pour changer cela", écrivent Robin Dautricourt, principal product manager d'Amazon Text to Speech, et Julien Simon, global artificial intelligence et machine learning evangelist.

Voici la voix de Polly qui est capable de lire des informations. Pour l'instant, le service Newscaster — présentateur de radio — est disponible en anglais américain, avec une voix féminine et masculine :

https://www.businessinsider.fr/content/uploads/2019/07/polly-newscaster-1.mp3

L'objectif d'Amazon, mais aussi de Google ou Microsoft, est d'arriver à une voix la plus naturelle possible, en remplaçant la lecture saccadée qui assemble des échantillons de parole pour créer des mots. Avec la technologie dit "neural text-to-speech", Amazon a déjà intégré ce système dans divers objets connectés, telles les enceintes connectées Echo. Pour parvenir à se rapprocher de l'intonation de la voix d'un présentateur, Amazon a notamment enregistré des extraits de chaînes d'information qu'il a intégré à un système d'apprentissage automatique.

A lire — Des humains se cachent toujours derrière Duplex, l'IA de Google qui effectue des réservations pour vous

La voix, une bataille entre géants de la tech

"Synthétiser le style journalistique est novateur et sans précédent. Et cela suscite beaucoup d'enthousiasme dans le monde des médias et au-delà", note Amazon. Et c'est normal. Pour les médias, c'est l'opportunité de proposer des contenus audio journalistiques, comme un flash info en radio, de façon automatique... sans employer de journaliste. "Les services comme Amazon Polly et des fonctionnalités comme Newscaster nous aident à diffuser des nouvelles de dernière heure et des reportages originaux avec une rapidité et une fidélité accrues dignes de nos marques", déclare Scott Stein, vice-président de Content Ventures chez Gannett, cité dans un communiqué.

L'usage de la voix est une bataille entre géants de la tech. Notamment via leurs assistants intelligents et qui se veulent les plus proches des demandes utilisateurs. Selon le cabinet eMerketer, il y aura 100 millions d'utilisateurs d'assistants vocaux sur smartphones dès 2020.

Google indiquait en début d'année que Google Assistant — qui peut notamment répondre à vos questions ou lancer votre chanson préférée dans votre voiture — serait déjà intégré dans 1 milliard d'objets connectés. Pour l'instant, les usages sont assez basiques. Mais Manuel Bronstein, le vice-président de Google Assistant, indiquait en début d'année au site The Verge qu'il restait encore d'immenses opportunités dans les marchés émergents dans lesquels l'usage de la voix se développe rapidement. Régler le chauffage de votre maison depuis sa voiture, réservations au restaurant, prise de rendez-vous chez le médecin, achats... le champ des possibles est énorme.

Découvrir plus d'articles sur :