Dans un monde où les outils de synthèse vocale gagnent en popularité, deux étudiants, sans expérience préalable approfondie en IA, ont développé un modèle ouvertement accessible capable de générer des clips audio de style podcast, semblables à ceux de Google’s NotebookLM. Leur création, nommée Dia, promet de révolutionner le domaine avec ses fonctionnalités uniques.
Une Innovation Issu de l’Inspiration
Inspirés par NotebookLM, Toby Kim et son co-fondateur, basés en Corée, ont plongé dans l’univers de l’IA vocale il y a seulement trois mois. Leur objectif? Offrir plus de contrôle sur les voix générées et une liberté accrue dans les scripts.
Le Fonctionnement de Dia
Grâce au programme Google’s TPU Research Cloud, ils ont pu entraîner Dia, un modèle pesant 1.6 milliard de paramètres. Ce dernier permet non seulement de générer des dialogues à partir d’un script mais aussi de personnaliser les tons des intervenants et d’ajouter des éléments non verbaux comme des rires ou des toux.
Accessibilité et Performances
Disponible sur Hugging Face et GitHub, Dia peut fonctionner sur la plupart des PC modernes équipés d’au moins 10GB de VRAM. Bien qu’il génère une voix aléatoire par défaut, il peut aussi cloner une voix spécifique sur demande.
Des Préoccupations Éthiques
Comme beaucoup de générateurs vocaux, Dia présente peu de garde-fous contre les abus, tels que la création de désinformation ou d’enregistrements frauduleux. Nari Labs, bien qu’il déconseille ces pratiques, se dit non responsable des utilisations abusives.
L’Avenir de Dia
Nari envisage de développer une plateforme vocale synthétique avec un aspect social autour de Dia et de futurs modèles plus grands. L’équipe prévoit également d’élargir le support linguistique de Dia au-delà de l’anglais et de publier un rapport technique détaillé.