SDQ-Institutsseminar

Das Institutsseminar des Instituts für Programmstrukturen und Datenorganisation (IPD) ist eine ständige Lehrveranstaltung, die den Zweck hat, über aktuelle Forschungsarbeiten am Institut zu informieren. Insbesondere soll Studierenden am Institut die Gelegenheit gegeben werden, über ihre Bachelor- und Masterarbeiten vor einem größeren Auditorium zu berichten. Schwerpunkte liegen dabei auf der Problemstellung, den Lösungsansätzen und den erzielten Ergebnissen. Das Seminar steht aber allen Studierenden und Mitarbeiter/-innen des KIT sowie sonstigen Interessierten offen.

Ort	Gebäude 50.34, Seminarraum 348
Zeit	jeweils freitags, 11:30–13:00 Uhr

Die Vorträge müssen den folgenden zeitlichen Rahmen einhalten:

Diplomarbeit/Masterarbeit: 30 Minuten Redezeit + 15 Minuten Diskussion
Studienarbeit/Bachelorarbeit: 20 Minuten Redezeit + 10 Minuten Diskussion
Proposal: 12 Minuten Redezeit + 8 Minuten Diskussion

Weitere Informationen: https://sdqweb.ipd.kit.edu/wiki/Institutsseminar

Nächste Vorträge

Freitag, 10. Mai 2024, 11:30 Uhr

iCal (Download)
Ort: Raum 010 (Gebäude 50.34)
Webkonferenz: {{{Webkonferenzraum}}}

Vortragende(r)	Lukas Greiner
Titel	Supporting a Knowledge Management System for Software Engineering Research with Large Language Models
Vortragstyp	Masterarbeit
Betreuer(in)	Angelika Kaplan
Vortragsmodus	in Präsenz
Kurzfassung	Im Forschungsbereich Softwaretechnik werden viele Publikationen in Form von wissenschaftlichen Aufsätzen veröffentlicht. Für Wissenschaftler ist es wichtig, das gewonnene Wissen zu organisieren und zugänglich zu machen. Zur Erfassung und Strukturierung von Publikationen ist der Open Research Knowledge Graph (ORKG) ein System, das Publikationen aus verschiedenen Forschungsbereichen verwalten, visualisieren und vergleichen kann. Aktuell wird das Hinzufügen von Publikationen manuell durch die Nutzer durchgeführt. Um diesen Prozess zu verbessern und zu erleichtern, kann eine automatische Klassifizierung eingesetzt werden. In dieser Masterarbeit stellen wir einen Ansatz zur Unterstützung des Import-Prozesses für den ORKG vor, indem wir Publikationen aus dem Bereich der Softwarearchitektur mit Sprachmodellen klassifizieren. Für den Ansatz beurteilen wir, wie gut die Sprachmodelle abschneiden und welchen Umwelteinfluss die Klassifizierung hat. Für die Klassifizierung greifen wir auf den Datensatz zurück, welcher eine Taxonomie und einen Datensatz mit Softwarearchitektur-Veröffentlichungen beinhaltet. Auf dem Datensatz wenden wir verschiedene Techniken wie Splitting und Oversampling an, bevor wir ihn an die Sprachmodelle übergeben. Für die Klassifizierung verwenden wir zwei verschieden Ansätze. Zum einen trainieren wir Sprachmodelle und führen eine Hyperparameter Suchen durch. Zum anderen verwenden wir einen Zero-Shot Ansatz um Vorhersagen für die Softwarearchitektur Publikationen zu erhalten. Wir konnten zeigen, dass die trainierten Sprachmodelle gut funktionieren, wenn genügend Vertreter für die Label vorhanden sind. Mit der Oversampling-Strategie konnten wir unsere Ergebnisse verbessern. Für Kategorien mit weniger Labels konnten wir zeigen, dass der Zero-Shot Ansatz besser abschneidet. Für den Umwelteinfluss konnten wir zeigen, dass das kleinere Sprachmodell DistilBERT für die trainierten Sprachmodelle und Mistral bzw. Llama2:7b für den Zero-Shot Ansatz im Vergleich zu größeren Sprachmodellen wie DeBERTa und Llama2:70b weniger CO2-Emissionen verursachen, um gute Ergebnisse zu erzielen. Unsere erstellte Implementierung kann für zukünftige Vorhersagen in Wissensmanagementsystemen integriert werden und unterstützt die Vorhersage für neue Taxonomien und Datensätze.