Evaluierung von Embedding Modellen auf Modelldaten
| Vortragende(r) | David Inca | |
|---|---|---|
| Vortragstyp | Bachelorarbeit | |
| Betreuer(in) | Julian Roßkothen | |
| Termin | Fr 20. März 2026, 14:00 (Raum 010 (Gebäude 50.34)) | |
| Vortragssprache | Deutsch | |
| Vortragsmodus | in Präsenz | |
| Kurzfassung | Das zuverlässige Retrieval von Artefakten der modellgetriebenen Softwareentwicklung (MDSE) mittels semantischer Ähnlichkeit ist eine Kernvoraussetzung für leistungsfähige RAG-Systeme in diesem Bereich. Da gängige Embedding-Modelle primär für unstrukturierten Text optimiert sind, untersucht diese Arbeit deren Effektivität für strukturierte, referenzielle Modellartefakte. In einem kontrollierten Benchmark-Setting wird der Einfluss von Datenaufbereitung, Serialisierung und Embedding-Modellwahl systematisch evaluiert.
Die Ergebnisse verdeutlichen, dass die Wahl des Embedding-Modells den signifikantesten Einfluss auf die Retrievalqualität ausübt. Als besonders effektiv erweist sich die Dereferenzierung interner Verknüpfungen, während die Wahl des Serialisierungsansatzes nur eine marginale Rolle spielt. Die Untersuchung belegt die prinzipielle Eignung embedding-basierter Verfahren für MDSE-Daten und liefert konkrete Handlungsempfehlungen für die Konfiguration effizienter Retrieval-Architekturen. | |