+comunity+ Straßenbilder generieren
Martin Schitter
ms at mur.at
Di Aug 28 01:26:42 CEST 2018
On 2018-08-27 22:01, Dorian Santner wrote:
> Weil es heute in den Medien war und sich passgenau auf unsere letzte
> Session bezieht:
>
> https://www.heise.de/newsticker/meldung/Nvidia-KI-generiert-fotorealistische-Videos-4146569.html
super dorian, dass du von dieser sache genauso angetan bist wie ich. :)
mir ist das zeug schon vor ein paar tagen untergekommen, weil man sich
bei der praktisch umsetzung dieses modells u.a. auch sehr stark auf
"FlowNet2" stützt, für das ich ja erste letzte woche den nötigen code
geschrieben habe, um es auch als normalsterblicher in gängigen
professionellen videobearbeitungslösungen -- bspw. Nuke non-commercial
(https://www.foundry.com/products/nuke/non-commercial) -- ganz praktisch
nutzen zu können.
siehe:
https://gitlab.com/mash-graz/flownet2-docker/blob/master/generate_exr.py
"vid2vid" ist vor allen dingen deshalb so spannend, weil es tatsächlich
eine der ersten lösungen darstellt, videos bzw. filmsequenzen so zu
behandeln, wie es dieses medium verlangt. es reicht nämlich nicht,
einfach nur die einzelnen bilder in einer sequenz jeweils isoliert zu
behandeln und mit entsprechenden techniken aufzubereiten, sondern es
gilt auch den kontinuierlichen fluss der visuellen erscheiunng zu
beachten, damit das ganze ganze nicht nur fürchterlich vor sich hin
flimmert und mit den sinnlich verführeischen qualitäten derartiger
darstellungsmittel kaum mehr etwas zu tun hat. dafür hat es bisher nur
sehr wenige brauchbare ansetze gegeben. deshalb leitet hier vid2vid
tatsächlich eine völlig neue ära ein.
allerdings ist es nicht das erste mal, dass nvida mit derart
beeindruckenden bzw. auch die sinne überzeugenden lösungen in
erscheinung tritt. erst letztes jahr haben sie ein photorealistische GAN
lösung vorgestellt, die doch ein klein wenig eindrucksvollere bilder zu
generieren vermochte als wir es letzte woche vom jogi im rahmen unserer
möglichkeiten präsentiert bekommen haben:
https://research.nvidia.com/publication/2017-10_Progressive-Growing-of
https://www.youtube.com/watch?v=G06dEcZ-QTg
das problem war aber auch schon damals, dass der dafür benötige
rechenaufwand derart gewaltig ist, dass das ganze fast nur mehr als
demonstration entsprechenden hochleistungs-serverprodukte und
GPU-cloud-angebote des betreffenden herstellers betrachtet werden kann.
obwohl der code frei zugänglich ist, kann man damit auf gebräuchlicher
infrastruktur bzw. im rahmen eigener anwendungen, wie unsere
orchideen-studien, nur sehr wenig anfangen.
trotzdem -- ich finde es einfach ausgesprochen wichtig, dass bei
derartigen dingen auch wirklich etwas herauskommt, dass die sinne (und
auch den intellekt!) tatsächlich erfreut/überzeugt und nicht einfach nur
irgendwelcher technikbegeisterung huldigt.
in dem zusammenhang würde ich euch auch unbedingt empfehlen, einmal
einen blick auf die webseite "distill" (https://distill.pub) zu werfen!
dort gibt's gleich ein paar artikel, die ich für absolut beindruckend
halte, wenn es um die illustration derartiger techniken bzw. vermittlung
entsprechenden fachwissens geht. darüber hinaus wird dort aber immer
auch in vorbildlichster weise versucht, den inhaltlichen schwerpunkt
zwar nie aus den augen zu verlieren bzw. auf die spezifischen
charakteristiken von ML lösungen zu lenken, das aber trotzdem regelmäßig
an hand von ganz ungwöhnlich kreativen beispielanwendungen
(handschrifterkennung, typografie...) praktisch zu verdeutlichen.
speziell die dortigen beiträge, die sich mit fragen der 'feature
visualization' beschäftigen, und sich oft der software "lucid"
(https://github.com/tensorflow/lucid) bedienen, halte ich in dem
zusammenhang für besonders spannend.
dieser ansatz -- also quasi, in die interne konfiguriertheit von NN
modellen und ihren erlernten zuständen hineinzuschauen bzw. ihren
abstraktionsleistungen nachzuspüren -- scheint mir wesentlich
faszinierender zu sein, als bloß irgendwelche realistisch wirkenden
resultate zu generieren. im übrigen finde ich auch die visuelle qualität
der damit verbundenen bilder oft deutlich befriedigender als
fälschungen. (=> "Es gibt kein richtiges Leben im falschen.")
neben intensiveren recherchen zu diesen fragen habe ich mich in den
letzten tagen auch auch bereits ganz praktisch daran gemacht, jogis
wunsch nach möglichst umfangreichem grazer straßenansichten material
gerecht zu werden.
dazu braucht man ja heutzutage das haus ohnehin nicht mehr zu verlassen.
od. den trägen schlummer vor dem bildschirm zu unterbrechen. es gibt
dazu ja ohnehin bereits mehr als genug material im netz. speziell
folgende beiden quellen halte ich für besonders brauchbar, weil das
betreffende bildmaterial unter sehr liberalen lizenzen genutzt werden darf:
https://www.mapillary.com
http://openstreetview.org
mapillary bietet auch eine eine ganz brauchbare API, um auf das material
verhältnismäßig einfach zuzugreifen:
https://www.mapillary.com/developer/api-documentation/
und obwohl es im grunde geradezu trivial ist, mit ein paar einfachen
kommandozeilenbefehlen bilder auf diese weise herunterzuladen, hab ich
es wieder einmal geschafft, diese aufgabenstellung als vorwand zu
benutzen, um mich wieder einmal ausufernd masochistischen gelüsten der
"rust"-programmierung (https://www.rust-lang.org) und möglichst
komplizierter techniken der websoftware-entwicklung hinzugeben --- kurz:
mich vor lauter neugierde [wie üblich] fürchterlich zu verzetteln...
aber bis donnerstag hab ich bestimmt etwas fertig!
allerdings habe ich so meine zweifel, ob uns dieses material dem
angestrebten ziel tatsächlich näher bringt?
mapillary betreibt ja bekanntlich auch sehr viel ML-forschung, nur
schauen dort die ergebnisse ungefähr so phantasielos und öd aus, wie es
das ausgangsmaterial bereits nahe legt. wenn man also nicht unbedingt
vor hat, sich noch blinder und geistloser durch die straßen zu treiben
zu lassen bzw. möglichst selbstvergessen vom A nach B geleitet zu werden
als man das ohnehin bereits jetzt im alltag macht, wird man hier kaum
auf sonderlich anregende zugänge stoßen.
deutlich spannender, um den bogen zum anfang wieder zu schließen, finde
ich in diesem zusammenhang dagegen ein mittlerweile schon wieder fast in
vergessenheit geratendes projekt, dass sich mit einem anderen ganz
großen und grundsätzlichen probleme befasst hat: "learning to predict
new views"
https://youtu.be/cizgVZ8rjKA
https://youtu.be/2hmogpbXDMY
alles liebe!
martin
Mehr Informationen über die Mailingliste comunity