HubLink: Leveraging Language Models for Enhanced Scholarly Information Retrieval on Research Knowledge Graphs

Vortragende(r)	Marco Schneider
Vortragstyp	Masterarbeit
Betreuer(in)	Angelika Kaplan
Termin	Fr 23. Mai 2025, 14:00 (Raum 010 (Gebäude 50.34))
Vortragssprache	Deutsch
Vortragsmodus	in Präsenz
Kurzfassung	In der aktuellen Praxis ist der manuelle Aufwand, den Forschende zur Durchführung einer Literatursuche betreiben müssen, hoch. Research Knowledge Graphs (RKGs), die wissenschaftliche Beiträge speichern und miteinander verknüpfen, sowie Large Language Models (LLMs), die herausragende Leistungen im Sprachverständnis zeigen, bieten hier das Potenzial, den Suchprozess effizienter zu gestalten. Forschende können ihre Fragen in natürlicher Sprache formulieren, und ein LLM-basiertes Question-Answering (QA)-System sucht die relevanten Kontexte aus dem Graphen heraus und generiert eine passende Antwort. Aktuelle Ansätze sind jedoch in der Praxis schwer anzuwenden, da sie nicht mit den großen und dynamischen Schemata eines RKGs zurechtkommen und zudem Trainingsdaten benötigen. Diese Arbeit präsentiert "HubLink", einen neuartigen Ansatz, der die Leistungsfähigkeit eines vortrainierten LLMs nutzt, um ohne zusätzliches Training und ohne Abhängigkeit vom Graphschema effizient Antworten im Rahmen einer Literatursuche zu liefern. Darüber hinaus haben wir eine Taxonomie und ein QA-Datenset erstellt, die eine systematische Evaluierung der Kapazitäten eines solchen Systems ermöglichen. Unsere Evaluierung des HubLink-Ansatzes zeigt, das dieser deutlich besser im Auffinden von Daten im Graphen ist, mit einer Verbesserung von über 114 % im Vergleich zu ähnlichen Methoden. Mit dieser Arbeit schaffen wir die Grundlage für weiterführende Forschung zur Literatursuche mithilfe schema-agnostischer und trainingsfreier Methoden sowie zur effizienten Vereinigung von RKGs und LLMs.