Multimedia

Brisant – neue KI "zu riskant für die Öffentlichkeit"

Mit nur zwei Sekunden Audio-Proben kann Voicebox, die neue KI von Meta, die Stimme einer Person perfekt nachahmen. Sie wird unter Verschluss gehalten.

Meta (Facebook) kündigte eine neue App zur Stimmgenerierung an.
Meta (Facebook) kündigte eine neue App zur Stimmgenerierung an.
Getty Images/iStockphoto

Sprechen wir Podcasts, Audionachrichten und Fremdsprachen bald nicht mehr selbst? Ein neues KI-Modell vom Facebook-Konzern Meta imitiert und generiert Stimmen in nahezu perfekter menschlicher Manier, inklusive Sprechpausen und Stilen. Voicebox wurde von KI-Forschenden bei Meta entwickelt und ist das erste große Modell, das sich auf die Spracherzeugung fokussiert.

So funktioniert es

Ähnlich wie KI, die Texte oder Bilder generiert, sei das ChatGPT oder Midjourney, kann Voicebox ebenfalls mehrere Outputs erzeugen, basierend auf Text oder Audio. So kann das Modell in sechs Sprachen Stimmen synthetisieren. Gesprochene Inhalte können verändert, Rauschen oder Unterbrüche entfernt werden. Es ist sogar möglich, mit der eigenen Stimme perfekt gesprochene Sätze in anderen Sprachen zu generieren. Die KI wurde mit über 50.000 Stunden an gesprochenen Audio-Dateien trainiert.

Das sind zwei Beispiele, wie bei Voicebox Stimmen durch Text generiert werden. Auch für bestehende Stimm-Samples kann definiert werden, was gesprochen wird:

Es sind nur zwei Sekunden an Sprach-Samples nötig, damit Voicebox die Stimme perfekt nachahmen kann. Meta will die App für verschiedene Anwendungsbereiche etablieren, dazu gehören:

- Spracherzeugung für Menschen, die durch Operationen, Krankheiten oder andere Ursachen ihre Stimme verloren haben. 
- Sprachübersetzungen barrierefrei machen und den Menschen ermöglichen, mit der eigenen Stimme Fremdsprachen zu sprechen.
- Als Produktivitätswerkzeug kann Voicebox gesprochene Inhalte bearbeiten, Rauschen entfernen und Content für Firmen, Marketing, TV und mehr erstellen.

Das sind die Bedenken

Lassen wir unsere WhatsApp-Sprachnachrichten bald per Voicebox erstellen?
Lassen wir unsere WhatsApp-Sprachnachrichten bald per Voicebox erstellen?
Getty Images/iStockphoto

Die Entwickler und Entwicklerinnen betonen in der Mitteilung, dass sie sich den ethischen Folgen bewusst sind und die App für den Moment noch nicht veröffentlichen. "Voicebox kann zwar viele positive soziale Auswirkungen haben, birgt aber auch das Potenzial für Missbrauch und unbeabsichtigten Schaden", so die Autoren des Forschungsberichtes. Dazu gehören Deepfakes oder gefälschte Audioaufnahmen von fremden Personen.

Um dieses Problem anzugehen, haben die KI-Entwickler bei Meta das Modell so trainiert, dass es genau zwischen echter und synthetischer Sprache unterscheiden kann. Dabei wollen sie digitale, künstliche "Fingerabdrücke" in die Audio-Samples einbinden, die leicht erkannt werden können, ohne die Sprachqualität zu beeinträchtigen.

Sobald die Sicherheit gewährleistet ist, will Meta mit Voicebox die ganze Sprache und Kommunikation in Zukunft revolutionieren und einen ähnlichen Impact erreichen wie bisher ChatGPT.

1/5
Gehe zur Galerie
    Künstliche Intelligenz, dein  Freund und Helfer? Für einige Berufe auf jeden Fall. Die KI spart Zeit, Ressourcen und Aufwand.
    Künstliche Intelligenz, dein Freund und Helfer? Für einige Berufe auf jeden Fall. Die KI spart Zeit, Ressourcen und Aufwand.
    Getty Images
    An der Unterhaltung teilnehmen