+comunity+ Straßenbilder generieren

Di Aug 28 01:26:42 CEST 2018

On 2018-08-27 22:01, Dorian Santner wrote:
> Weil es heute in den Medien war und sich passgenau auf unsere letzte 
> Session bezieht:
> 
> https://www.heise.de/newsticker/meldung/Nvidia-KI-generiert-fotorealistische-Videos-4146569.html 

super dorian, dass du von dieser sache genauso angetan bist wie ich. :)

mir ist das zeug schon vor ein paar tagen untergekommen, weil man sich 
bei der praktisch umsetzung dieses modells u.a. auch sehr stark auf 
"FlowNet2" stützt, für das ich ja erste letzte woche den nötigen code 
geschrieben habe, um es auch als normalsterblicher in gängigen 
professionellen videobearbeitungslösungen -- bspw. Nuke non-commercial 
(https://www.foundry.com/products/nuke/non-commercial) -- ganz praktisch 
nutzen zu können.

siehe: 
https://gitlab.com/mash-graz/flownet2-docker/blob/master/generate_exr.py

"vid2vid" ist vor allen dingen deshalb so spannend, weil es tatsächlich 
eine der ersten lösungen darstellt, videos bzw. filmsequenzen so zu 
behandeln, wie es dieses medium verlangt. es reicht nämlich nicht, 
einfach nur die einzelnen bilder in einer sequenz jeweils isoliert zu 
behandeln und mit entsprechenden techniken aufzubereiten, sondern es 
gilt auch den kontinuierlichen fluss der visuellen erscheiunng zu 
beachten, damit das ganze ganze nicht nur fürchterlich vor sich hin 
flimmert und mit den sinnlich verführeischen qualitäten derartiger 
darstellungsmittel kaum mehr etwas zu tun hat. dafür hat es bisher nur 
sehr wenige brauchbare ansetze gegeben. deshalb leitet hier vid2vid 
tatsächlich eine völlig neue ära ein.

allerdings ist es nicht das erste mal, dass nvida mit derart 
beeindruckenden bzw. auch die sinne überzeugenden lösungen in 
erscheinung tritt. erst letztes jahr haben sie ein photorealistische GAN 
lösung vorgestellt, die doch ein klein wenig eindrucksvollere bilder zu 
generieren vermochte als wir es letzte woche vom jogi im rahmen unserer 
möglichkeiten präsentiert bekommen haben:

https://research.nvidia.com/publication/2017-10_Progressive-Growing-of
https://www.youtube.com/watch?v=G06dEcZ-QTg

das problem war aber auch schon damals, dass der dafür benötige 
rechenaufwand derart gewaltig ist, dass das ganze fast nur mehr als 
demonstration entsprechenden hochleistungs-serverprodukte und 
GPU-cloud-angebote des betreffenden herstellers betrachtet werden kann. 
obwohl der code frei zugänglich ist, kann man damit auf gebräuchlicher 
infrastruktur bzw. im rahmen eigener anwendungen, wie unsere 
orchideen-studien, nur sehr wenig anfangen.

trotzdem -- ich finde es einfach ausgesprochen wichtig, dass bei 
derartigen dingen auch wirklich etwas herauskommt, dass die sinne (und 
auch den intellekt!) tatsächlich erfreut/überzeugt und nicht einfach nur 
irgendwelcher technikbegeisterung huldigt.

in dem zusammenhang würde ich euch auch unbedingt empfehlen, einmal 
einen blick auf die webseite "distill" (https://distill.pub) zu werfen!

dort gibt's gleich ein paar artikel, die ich für absolut beindruckend 
halte, wenn es um die illustration derartiger techniken bzw. vermittlung 
entsprechenden fachwissens geht. darüber hinaus wird dort aber immer 
auch in vorbildlichster weise versucht, den inhaltlichen schwerpunkt 
zwar nie aus den augen zu verlieren bzw. auf die spezifischen 
charakteristiken von ML lösungen zu lenken, das aber trotzdem regelmäßig 
an hand von ganz ungwöhnlich kreativen beispielanwendungen 
(handschrifterkennung, typografie...) praktisch zu verdeutlichen.

speziell die dortigen beiträge, die sich mit fragen der 'feature 
visualization' beschäftigen, und sich oft der software "lucid" 
(https://github.com/tensorflow/lucid) bedienen, halte ich in dem 
zusammenhang für besonders spannend.

dieser ansatz -- also quasi, in die interne konfiguriertheit von NN 
modellen und ihren erlernten zuständen hineinzuschauen bzw. ihren 
abstraktionsleistungen nachzuspüren -- scheint mir wesentlich 
faszinierender zu sein, als bloß irgendwelche realistisch wirkenden 
resultate zu generieren. im übrigen finde ich auch die visuelle qualität 
der damit verbundenen bilder oft deutlich befriedigender als 
fälschungen. (=> "Es gibt kein richtiges Leben im falschen.")

neben intensiveren recherchen zu diesen fragen habe ich mich in den 
letzten tagen auch auch bereits ganz praktisch daran gemacht, jogis 
wunsch nach möglichst umfangreichem grazer straßenansichten material 
gerecht zu werden.

dazu braucht man ja heutzutage das haus ohnehin nicht mehr zu verlassen. 
od. den trägen schlummer vor dem bildschirm zu unterbrechen. es gibt 
dazu ja ohnehin bereits mehr als genug material im netz. speziell 
folgende beiden quellen halte ich für besonders brauchbar, weil das 
betreffende bildmaterial unter sehr liberalen lizenzen genutzt werden darf:

https://www.mapillary.com
http://openstreetview.org

mapillary bietet auch eine eine ganz brauchbare API, um auf das material 
verhältnismäßig einfach zuzugreifen:

https://www.mapillary.com/developer/api-documentation/

und obwohl es im grunde geradezu trivial ist, mit ein paar einfachen 
kommandozeilenbefehlen bilder auf diese weise herunterzuladen, hab ich 
es wieder einmal geschafft, diese aufgabenstellung als vorwand zu 
benutzen, um mich wieder einmal ausufernd masochistischen gelüsten der 
"rust"-programmierung (https://www.rust-lang.org) und möglichst 
komplizierter techniken der websoftware-entwicklung hinzugeben --- kurz: 
mich vor lauter neugierde [wie üblich] fürchterlich zu verzetteln...

aber bis donnerstag hab ich bestimmt etwas fertig!

allerdings habe ich so meine zweifel, ob uns dieses material dem 
angestrebten ziel tatsächlich näher bringt?

mapillary betreibt ja bekanntlich auch sehr viel ML-forschung, nur 
schauen dort die ergebnisse ungefähr so phantasielos und öd aus, wie es 
das ausgangsmaterial bereits nahe legt. wenn man also nicht unbedingt 
vor hat, sich noch blinder und geistloser durch die straßen zu treiben 
zu lassen bzw. möglichst selbstvergessen vom A nach B geleitet zu werden 
als man das ohnehin bereits jetzt im alltag macht, wird man hier kaum 
auf sonderlich anregende zugänge stoßen.

deutlich spannender, um den bogen zum anfang wieder zu schließen, finde 
ich in diesem zusammenhang dagegen ein mittlerweile schon wieder fast in 
vergessenheit geratendes projekt, dass sich mit einem anderen ganz 
großen und grundsätzlichen probleme befasst hat: "learning to predict 
new views"

https://youtu.be/cizgVZ8rjKA
https://youtu.be/2hmogpbXDMY

alles liebe!
martin