Spätestens seit dem ersten Bühnenauftritt von ChatGPT Anfang 2023 ist Künstliche Intelligenz als vielversprechende Technologie der Zukunft nicht mehr wegzudenken. „Schreib mir eine Hausarbeit zum Thema XY“, „Schreib mir einen romantischen Liebesbrief“ oder „Keine Lust meine Bewerbung zu schreiben. Kannst du das machen?. Unzählige Aufgaben hat uns das Programm bis jetzt erspart oder zumindest einfacher gemacht.  Umso erfreuter war ich, als ich davon gehört habe, dass Künstliche Intelligenz auch im Podcastsegment Anwendung findet. Bereits länger schon nutzt Spotify die Technologie, um den Hörerinnen und Hörern eine maßgeschneiderte Übersicht von persönlichen Podcastempfehlungen anzubieten. Und das, wie ich finde, mit großem Erfolg. Beim Öffnen der App bin ich immer wieder fasziniert, wie persönlich zutreffend die Inhalte sind, die mir hier angeboten werden. Du willst eine Mischung aus True Crime, Fußball und Unterhaltung. Du bekommst den dribbelnden Mörder, der dir einen Witz erzählt. Außerdem bietet der schwedische Weltkonzern seinen Kunden an, Original Formate Wort für Wort transkribieren zu lassen. Aus der Sicht eines Redakteurs, der mit Großkonzernen und dessen Clearing Mannschaften zusammenarbeitet, kann diese Möglichkeit natürlich nicht hilfreicher sein. An dieser Stelle wäre ich schon wunschlos glücklich gewesen. Doch der Einsatzbereich wird von Zeit zu Zeit noch vielfältiger. Vor einigen Wochen startete Spotify ein weiteres KI-Pilotprojekt in einigen namhaften Podcastformaten. In diesem Fall im Bereich der Sprachübersetzung.

Mit dem sogenannten OpenAI Whisper Modell öffnet Spotify neue Türen in der Podcastwelt. Dahinter steckt eine Entwicklung, die es ermöglicht, Podcastformate zu internationalisieren. Bei englischsprachigen Podcasts, unter anderem bei Dax Shepard oder Lex Friedman, haben Hörerinnen und Hörer nun die Möglichkeit, die Folge nicht nur in ihrer ursprünglichen Sprache Englisch zu hören, sondern z.B. auch in deutsch oder spanisch. Der Clue: Es wird kein herkömmliches Overvoice eingesetzt, was lediglich das Gesprochene übersetzt und grundsätzlich Dynamik und Spannung entzieht. Das OpenAI Whisper Modell ist in der Lage, die Stimmfarbe und Betonung der Sprecherin oder des Sprechers so vom Englischen ins Spanische zu übersetzen, dass ein Unterschied kaum festzustellen ist. Zu schön um wahr zu sein? Das habe ich auch gedacht und habe direkt mal reingehört. Meine Erkenntnis: Entweder hat uns Lex Friedman vorenthalten, dass er 10 Jahre in Barcelona gelebt hat oder wir stehen hier wirklich vor einer wirklich überzeugenden Möglichkeit. Eine weitere Besonderheit: In seinem Podcast, den sich die Hörerinnen und Hörer auch in Videoform anschauen können, schafft es das entwickelte Modell, die Mimik und Lippenbewegung so zu synchronisieren, dass es für Zuschauerinnen und Zuschauer den Anschein erweckt, als hätte der Moderator seinen Podcast schon seit Beginn des Formats in spanischer Sprache aufgezeichnet. Viel zu schön, um wahr zu sein? Nein. Schau das Video im Großbildmodus, nimm dir eine Lupe oder geh 3cm nah an den Bildschirm heran. Du wirst keine Aussetzer, Lücken oder Synchronisationsfehler finden. Erstaunlich, wenn man bedenkt, dass es vor 5 Jahren noch das Höchste der Gefühle war, als wir zu Weihnachten unsere Köpfe auf tanzende Elfen setzen konnten.

Gamechanger für Corporate Podcasts?

Im Unterhaltungssegment haben Podcasterinnen und Podcaster damit die Möglichkeit, ihr Publikum international zu erweitern. Vielleicht hören wir Felix Lobrecht und Tommi Schmitt bald schon auf griechisch zu. Oder hätten jedenfalls die Möglichkeit. Doch wie sieht es im Corporate Podcast Segment aus? Gerade hier kann dieses „Tool in der Testphase“ ein interessantes und wertschöpfendes Upgrade bedeuten. Groß- und mittelständische Unternehmen, die nicht nur deutschland-, sondern weltweit agieren, bietet sich mit dem OpenAI Whisper Modell die Chance, ihr Podcastformat für Mitarbeiter, Kunden und Firmeninteressierte auf der ganzen Welt hörbar zu machen und Sprachbarrieren zu überwinden. Hand aufs Herz. Mein Englisch ist okay. Mein Wirtschaftsenglisch wiederum not so the yellow from the egg. Hier und da hat jeder seine Schwächen im Vokabular. Und das OpenAI Whisper Modell greift uns hier gekonnt unter die Arme, alles zu verstehen. Klartext: Im Idealfall bedeutet das zukünftig, dass Unternehmenspodcasts in ihrer ursprünglichen Sprache aufgezeichnet werden, aber auf deutsch, chinesisch, griechisch oder portugiesisch abgespielt werden können.

Der Ausblick

Aktuell befindet sich die KI-generierte Übersetzung noch in einer Testphase. Englischsprachige Podcastfolgen werden in andere Sprachen übersetzt oder anderssprachige ins Englische. Das heißt, Englisch bleibt aktuell der Dreh- und Angelpunkt dieses Modells. Als jemand, der mit Handys aufgewachsen ist, auf denen die Nutzung der Internetfunktion eine Privatinsolvenz zur Folge hatte und 20 Jahre später ohne zu zögern googlet, wie man Regisseur schreibt, schaue ich optimistisch in die Zukunft. Die rasante Entwicklung von Künstlicher Intelligenz in allen möglichen Einsatzgebieten zeigt einfach, wie zielstrebig und effizient diese vorangetrieben wird. Ich gehe als davon aus, dass es nur eine Frage der Zeit ist, bis dieses Modell in seinem Umfang und seinen Sprachmöglichkeiten neue Dimensionen erreicht.