Digital
"Zu riskant" – Facebook hält eigene KI unter Verschluss
Mit kurzen Audio-Proben kann die neue Facebook-KI Stimmen perfekt nachahmen. Aus ethischen Gründen wird sie noch unter Verschluss gehalten.
Sprechen wir Podcasts, Audionachrichten und Fremdsprachen bald nicht mehr selbst? Ein neues KI-Modell vom Facebook-Konzern Meta imitiert und generiert Stimmen in nahezu perfekter menschlicher Manier, inklusive Sprechpausen und Stilen. Voicebox wurde von KI-Forschenden bei Meta entwickelt und ist das erste große Modell, das sich auf die Spracherzeugung fokussiert.
Mehr lesen: Meta entwickelt "Menschen-ähnliches" KI-Modell
So funktioniert es
Ähnlich wie KI, die Texte oder Bilder generiert, sei das ChatGPT oder Midjourney, kann Voicebox ebenfalls mehrere Outputs erzeugen, basierend auf Text oder Audio. So kann das Modell in sechs Sprachen Stimmen synthetisieren. Gesprochene Inhalte können verändert, Rauschen oder Unterbrüche entfernt werden. Es ist sogar möglich, mit der eigenen Stimme perfekt gesprochene Sätze in anderen Sprachen zu generieren. Die KI wurde mit über 50.000 Stunden an gesprochenen Audio-Dateien trainiert.
Es sind nur zwei Sekunden an Sprach-Samples nötig, damit Voicebox die Stimme perfekt nachahmen kann. Meta will die App für verschiedene Anwendungsbereiche etablieren, dazu gehören:
– Spracherzeugung für Menschen, die durch Operationen, Krankheiten oder andere Ursachen ihre Stimme verloren haben.
– Sprachübersetzungen barrierefrei machen und den Menschen ermöglichen, mit der eigenen Stimme Fremdsprachen zu sprechen.
– Als Produktivitätswerkzeug kann Voicebox gesprochene Inhalte bearbeiten, Rauschen entfernen und Content für Firmen, Marketing, TV und mehr erstellen.
Das sind die Bedenken
Die Entwickler und Entwicklerinnen betonen in der Mitteilung, dass sie sich den ethischen Folgen bewusst sind und die App für den Moment noch nicht veröffentlichen. "Voicebox kann zwar viele positive soziale Auswirkungen haben, birgt aber auch das Potenzial für Missbrauch und unbeabsichtigten Schaden", so die Autoren des Forschungsberichtes. Dazu gehören Deepfakes oder gefälschte Audioaufnahmen von fremden Personen.
Um dieses Problem anzugehen, haben die KI-Entwickler bei Meta das Modell so trainiert, dass es genau zwischen echter und synthetischer Sprache unterscheiden kann. Dabei wollen sie digitale, künstliche "Fingerabdrücke" in die Audio-Samples einbinden, die leicht erkannt werden können, ohne die Sprachqualität zu beeinträchtigen.
Sobald die Sicherheit gewährleistet ist, will Meta mit Voicebox die ganze Sprache und Kommunikation in Zukunft revolutionieren und einen ähnlichen Impact erreichen wie bisher ChatGPT.