+comunity+ Bericht vom neunten und zehnten Projektgruppentreffen

Jogi Hofmüller - mur.at jogi at mur.at
Di Apr 10 10:54:25 CEST 2018


Liebe Leute,

sorry für die Verspätung;  der Bericht liegt seit mehr als einer Woche
in meinem Drafts-Folder!  Und dabei hab ich schon am Freitag nach dem
vorletzten Treffen angefangen daran zu schreiben.  Nagut, dafür ist das
jetzt ein Doppelbericht geworden.

# Neuntes Projektgruppentreffen

Am 29.3.2018 fand das neunte Projektgruppentreffen statt.  Martin hat
uns durch seine ersten Experimente mit fastai und pytorch geführt, und
dazwischen schweifte die Diskussion so weit ab, dass ich es für
unmöglich erachte, das hier wiederzugeben.  Klassischer Fall von 'you
had to be there' :)

Das Projekt von Martin ist auf Gitlab zu finden:

  https://gitlab.com/mur-at-public/orchideen-ml

Wer das ausprobieren möchte, soll sich eine Docker-Umgebung
installieren.  Auf einer Debian-Maschine:

  apt install docker-ce

Dann das Projekt clonen (am besten in ein neues, leeres
Unterverzeichnis):

  git clone git at gitlab.com:mur-at-public/orchideen-ml
  git clone git at gitlab.com:mur-at-public/orchideen

Das erste geht schnell, das zweite weniger ;)

Wie's weitergeht erzähle ich Euch, wenn ich soweit bin ;)  Im Jupyter-
Notebook (siehe Link oben) gibt's übrigens auch eine Anleitung zur
Installation.

# Zehntes Projektgruppentreffen

Am 5. April 2018 war Dorian an der Reihe, uns einige spannende Dinge
vorzuführen.  Dorians Interesse gilt u.a. natürlichen Sprachen bzw. die
Aufgabe, einer Maschine eine Idee einer natürlich Sprache zu geben; 
und das ist gar nicht so leicht, denn (wie Dorian anmerkt):  in
Wirklichkeit hat die Maschine wie immer keine Ahnung von gar nix!

Den Großteil der Zeit haben wir damit verbracht uns anzuschauen, was
spaCy [1] alles kann, bzw. mit welchen Techniken natürliche Sprache in
diesem Werkzeug beschrieben wird.

Damit Sprache mit Maschinen irgendwie sinnvoll verarbeitet werden kann,
muss eins der Maschine das Konzept einer Sprache verständlich machen. 
Dazu werden Textkörper verwendet, die von Linguistinnen erstellt
wurden.  Ein für die Deutsche Sprache wichtiger/bekannter Corpus ist
der Tiger Corpus [2].  Und dann gibt's noch das Stuttgarter-Tübinger
Tagset [3], mit dem Wörter Klassifiziert werden können.

Auch Micro$oft hat mittlerweile Daten gesammelt (von allen
englischsprachigen Seiten, die ihre Suchmaschine abgegrast hat), und
daraus das Micro$oft Dataset [4] erstellt.  In diesem Konvolut werden
Wörter miteinander in Beziehung gesetzt.  Mit anderen Worten handelt es
sich dabei um einen weiteren Versuch, die Welt in Tripple einzuteilen.

Nicht unerwähnt bleiben muss auch das WordNet, zu dem es einen kurzen
Eintrag auf Wikipedia [5] gibt.  Martin hat da noch weitere Links.

## Orgakram

Kurz haben wir auch noch über organisatorisches für die Workshopwoche
im Mai besprochen.  Die Woche verkürzen wir auf drei Tage, und zwar
Donnerstag, Freitag und Samstag (24.-26. Mai 2018).

Das nächste Projektgruppentreffen (Nummer elf) ist dann übermorgen
(Donnerstag), 12.4.2018 wie üblich um 18:00 Uhr im Projektraum,
Leitnergasse 7.

[1]  natural language processing mit https://spacy.io/
[2]  http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/tiger
.html
[3]  http://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/TagSet
s/stts-table.html
[4]  Hier sollte eigentlich ein URL stehen, aber ich bin zu blöd oder
biased, um einen sinnvollen Link zu Micro$oft Dataset zu finden :(
[5]  https://de.wikipedia.org/wiki/WordNet

Alles Liebe,
-- 
\\ j.hofmüller                DI-FR 10 bis 16 Uhr ||  TU-FR 10am to 4pm
 \\                                        phone: +43 (0)316 821 451 55
  \\ http://mur.at/     mur.at - Verein zur Förderung von Netzwerkkunst
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : signature.asc
Dateityp    : application/pgp-signature
Dateigröße  : 228 bytes
Beschreibung: This is a digitally signed message part
URL         : <https://lists.mur.at/pipermail/comunity/attachments/20180410/d946e589/attachment.sig>


Mehr Informationen über die Mailingliste comunity