Institutsseminar/2020-10-23
Datum | Freitag, 23. Oktober 2020 | |
---|---|---|
Uhrzeit | 14:00 – 15:15 Uhr (Dauer: 75 min) | |
Ort | https://sdqweb.ipd.kit.edu/wiki/Institutsseminar/Microsoft_Teams | |
Webkonferenz | ||
Vorheriger Termin | Fr 9. Oktober 2020 | |
Nächster Termin | Fr 23. Oktober 2020 |
Termin in Kalender importieren: iCal (Download)
Vorträge
Vortragende(r) | Caspar Friedrich Maximilian Nagy |
---|---|
Titel | Efficient Pruning of N-gram Corpora for Culturomics using Language Models |
Vortragstyp | Bachelorarbeit |
Betreuer(in) | Jens Willkomm |
Vortragssprache | |
Vortragsmodus | |
Kurzfassung | Big data technology pushes the frontiers of science. A particularly interesting application of it is culturomics. It uses big data techniques to accurately quantify and observe language and culture over time. A milestone to enable this kind of analysis in a traditionally humanistic field was the effort around the Google Books project. The scanned books were then transformed into a so called N-gram corpus, that contains the frequency of words and their combinations over time. Unfortunately this corpus is enormous in size of over 2 terabytes of storage. This makes handling, storing and querying the corpus difficult. In this bachelor thesis, we introduce a novel technique to reduce the storage requirements of N-gram corpora. It uses Natural Language Processing to estimate the counts of N-grams. Our approach is able to prune around 30% more effective than state-of-the-art methods. |
Vortragende(r) | Sophie Schulz |
---|---|
Titel | Linking Software Architecture Documentation and Models |
Vortragstyp | Masterarbeit |
Betreuer(in) | Jan Keim |
Vortragssprache | |
Vortragsmodus | |
Kurzfassung | In der Softwareentwicklung ist die Konsistenz zwischen Artefakten ein wichtiges Thema.
Diese Arbeit schlägt eine Struktur zur Erkennung von korrespondierenden und fehlenden Elementen zwischen einer Dokumentation und einem formalen Modell vor. Zunächst identifiziert und extrahiert der Ansatz die im Text beschriebenen Modell-instanzen und -beziehungen. Dann verbindet der Ansatz diese Textelemente mit ihren entsprechenden Gegenstücken im Modell. Diese Verknüpfungen sind mit Trace-Links vergleichbar. Der Ansatz erlaubt jedoch die Abstufung dieser Links. Darüber hinaus werden Empfehlungen für Elemente generiert, die nicht im Modell enthalten sind. Der Ansatz identifiziert Modellnamen und -typen mit einem F1-Wert von über 54%. 60% der empfohlenen Instanzen stimmen mit den in der Benutzerstudie gefundenen Instanzen überein. Bei der Identifizierung von Beziehungen und dem Erstellen von Verknüpfungen erzielte der Ansatz vielversprechende Ergebnisse. Die Ergebnisse können durch zukünftige Arbeiten verbessert werden. Dies ist realisierbar da der Entwurf eine einfache Erweiterung des Ansatzes erlaubt. |
- Neuen Vortrag erstellen