Institutsseminar/2020-10-23

Termin (Alle Termine)
	Datum	Freitag, 23. Oktober 2020
	Uhrzeit	14:00 – 15:15 Uhr (Dauer: 75 min)
	Ort
	Prüfer/in
	Webkonferenz	https://sdqweb.ipd.kit.edu/wiki/Institutsseminar/Microsoft Teams
	Vorheriger Termin	Fr 9. Oktober 2020
	Nächster Termin	Fr 6. November 2020

Termin in Kalender importieren: iCal (Download)

Vorträge

Efficient Pruning of N-gram Corpora for Culturomics using Language Models
Vortragende(r)	Caspar Friedrich Maximilian Nagy
Vortragstyp	Bachelorarbeit
Betreuer(in)	Jens Willkomm
Vortragssprache
Vortragsmodus
Kurzfassung	Big data technology pushes the frontiers of science. A particularly interesting application of it is culturomics. It uses big data techniques to accurately quantify and observe language and culture over time. A milestone to enable this kind of analysis in a traditionally humanistic field was the effort around the Google Books project. The scanned books were then transformed into a so called N-gram corpus, that contains the frequency of words and their combinations over time. Unfortunately this corpus is enormous in size of over 2 terabytes of storage. This makes handling, storing and querying the corpus difficult. In this bachelor thesis, we introduce a novel technique to reduce the storage requirements of N-gram corpora. It uses Natural Language Processing to estimate the counts of N-grams. Our approach is able to prune around 30% more effective than state-of-the-art methods.

Linking Software Architecture Documentation and Models
Vortragende(r)	Sophie Schulz
Vortragstyp	Masterarbeit
Betreuer(in)	Jan Keim
Vortragssprache
Vortragsmodus
Kurzfassung	In der Softwareentwicklung ist die Konsistenz zwischen Artefakten ein wichtiges Thema. Diese Arbeit schlägt eine Struktur zur Erkennung von korrespondierenden und fehlenden Elementen zwischen einer Dokumentation und einem formalen Modell vor. Zunächst identifiziert und extrahiert der Ansatz die im Text beschriebenen Modell-instanzen und -beziehungen. Dann verbindet der Ansatz diese Textelemente mit ihren entsprechenden Gegenstücken im Modell. Diese Verknüpfungen sind mit Trace-Links vergleichbar. Der Ansatz erlaubt jedoch die Abstufung dieser Links. Darüber hinaus werden Empfehlungen für Elemente generiert, die nicht im Modell enthalten sind. Der Ansatz identifiziert Modellnamen und -typen mit einem F1-Wert von über 54%. 60% der empfohlenen Instanzen stimmen mit den in der Benutzerstudie gefundenen Instanzen überein. Bei der Identifizierung von Beziehungen und dem Erstellen von Verknüpfungen erzielte der Ansatz vielversprechende Ergebnisse. Die Ergebnisse können durch zukünftige Arbeiten verbessert werden. Dies ist realisierbar da der Entwurf eine einfache Erweiterung des Ansatzes erlaubt.