+comunity+ [ml] sound mit tensorflow-wavenet

Martin Rumori iro at mur.at
Do Aug 30 02:47:18 CEST 2018


Liebe mls,

nach dem Projektgruppentreffen vor ein paar Wochen, bei dem ich
seltenerweise dabei war, ist mir eine Idee nicht aus dem Kopf gegangen,
nämlich Feldaufnahmen und/oder Atmo-Rauschen zu erzeugen.

Dazu habe ich tensorflow-wavenet [1],[2],[3] mehr oder weniger blind
verwendet und ein paar Tage mit Fieldrecordings trainiert.

Zuerst bin ich bei den Default-Parametern geblieben, die eine
Samplingrate von 16k beinhalten (= dumpf).  Dann habe ich es noch mit
höherer Samplingrate probiert (44k), allerdings einem wesentlich
kleineren Trainingscorpus.  Allen Einschränkungen und Artefakten zum
Trotz finde ich die Ergebnisse erhellend, zumindest was die Qualität des
"Hintergrundrauschens" angeht -- das scheint mir tatsächlich etwas
"Atmo" zu tragen. [4]

Als nächste Schritte bräuchte es wohl ein ausgiebigeres Training und
vielleicht ein Versuch mit weiterentwickeltem Paradigma, obwohl
z.B. WaveGAN [5],[6] im Moment noch zu limitiert ist (Länge der
synthetisierten Samples).

@Reni et al.: In welche Richtungen geht es in der Gruppe derzeit mit
Sound?

Herzliche Grüße, ein schönes Treffen heute

Martin


[1] https://github.com/ibab/tensorflow-wavenet
[2] https://deepmind.com/blog/wavenet-generative-model-raw-audio/
[3] https://arxiv.org/pdf/1609.03499.pdf
[4] https://users.iem.at/rumori/wavenet/
[5] https://github.com/chrisdonahue/wavegan
[6] https://arxiv.org/pdf/1802.04208.pdf

-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : signature.asc
Dateityp    : application/pgp-signature
Dateigröße  : 195 bytes
Beschreibung: nicht verfügbar
URL         : <https://lists.mur.at/pipermail/comunity/attachments/20180830/3be472d9/attachment.sig>


Mehr Informationen über die Mailingliste comunity