SynthV – Die singende Software

(An dieser Stelle schreibe ich ab und zu Frontberichte von der vorderen Kampflinie der digitalen Revolution. Sowohl zu eigenen Erfahrungen als auch zu interessanten Beobachtungen oder Analysen)

Eine weitere Bastion der bisher nur Menschen vorbehaltenen Fähigkeiten fällt gerade: Die Computer lernen langsam, vernünftig zu singen. Ein japanisches Startup hat vor wenigen Tagen die Software „Synthesizer V“ vorgestellt (www.synthesizerv.com). Tatsächlich klingt das, was das Programm erzeugt, ganz überzeugend. Hier eine kleine Demo als improvisiertes Musikvideo bei Youtube:

Das Gleiche in etwas besserer Tonqualität auch bei Soundcloud.

Zum Thema angewandte Digitalisierung:

In wenigen Jahren werden von Software erzeugte Gesangsstimmen nicht mehr von menschlichen zu unterscheiden sein. Die besseren Sprachsysteme schaffen das mit normalem, gesprochenem Text heute schon. Gesang ist zwar komplexer, aber das ist im Prinzip nur eine Frage der Modellierung über entsprechend komplexere Algorithmen.

Ein kleiner Vorgeschmack liefert die komplett synthetische Sängerin Miku Hatsune, die bereits seit einigen Jahren reale Konzerte in Japan gibt – hier ein Youtube-Video von 2011. Die japanische Sprache ist, wie auch die chinesische und koreanische, wesentlich einfacher als Gesang zu synthetisieren, doch wie SnythV zeigt, schließt sich diese Lücke.

Neben dem technischen Aspekt sind die kultur- und gesellschaftspolitischen Implikationen interessant: Anscheinend haben viele Menschen nichts gegen virtuelle Stars einzuwenden und jubeln diesen genauso enthusiastisch zu wie Künstlern aus Fleisch und Blut. Ich bin gespannt, wann Dieter Bohlen zum ersten Mal auf eine Software trifft…

Meine persönliche Perspektive zu diesem Projekt:

Ich liebe Musik und mache auch gerne welche. Doch leider kann ich kein einziges Instrument spielen, außer früher mal ein wenig Schlagzeug. Noten lesen geht mit Müh und Not, am Quintenzirkel bin ich immer gescheitert. Keine idealen Voraussetzungen also.

Die gute Nachricht: Seit ein paar Jahren kann man immer mehr dieser handwerklichen Tätigkeiten der Software überlassen. Letztes Jahr war ich soweit, die gesamte musikalische Produktionskette digital auf einem handelsüblichen Notebook abzubilden. Nur die Vocals klappten nicht. Erste Versuche mit Alter/Ego und der Stimme von Nata verliefen noch unbefriedigend, hier ein Experiment vom Dezember 2017 auf Soundcloud.

SynthV geht hier ein deutliches Stück weiter, wobei bisher nur eine einzige westliche „Stimme“ als Voicebank vorliegt, genannt Eleanore Forte (man erkennt unschwer die Manga-inspirierte Kunst hinter der gesamten Szene). Die Qualität der Stimme entspricht etwa dem einer menschlichen Anfängerin als Sängerin, schätze ich (womit sie mir schon haushoch überlegen ist). Vermutlich kann man aus der Software noch mehr herauskitzeln, insgesamt habe ich höchstens zwei oder drei Stunden an den Vocals gearbeitet, am Song insgesamt vielleicht zwei Tage.

Folgende Software habe ich dabei verwendet:

Einige davon ist Freeware, und die anderen Programme kosten auch nicht die Welt. Insgesamt ein eher günstiges Hobby, geeignet auch für unterbezahlte Beamte.

Für das Video habe ich noch schnell eine Sängerin gebastelt, da mir diese extreme Manga-Style für Eleonor Forte vom Hersteller nicht gefällt. Mal sehen, ob ich das auch richtig animiert bekomme. Hoffentlich finde ich in den nächsten Wochen außerdem etwas Zeit, um noch ein paar weitere Songs zu produzieren. Dann werde ich ein Spotify-Konto anlegen und das hochladen.

Werde in einem späteren Post darüber berichten…


Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.