Evaluierung, Testdaten und Ressourcen

Das LogAnswer-System wird kontinuierlich auf verschiedenen Sammlungen von Testfragen evaluiert.

Auf den 200 Fragen des QA@CLEF 2008 Systemvergleichs für Frage-Antwortsysteme (mit Deutsch als Ausgangs- und Zielsprache) erreicht LogAnswer derzeit folgendes Ergebnis (Stand: 30.5.2009):

  • 61 richtige Antworten mit korrekter Belegstelle,
  • 9 inexakte Antworten,
  • 2 korrekte Antworten mit falscher oder unvollständiger Belegstelle.
Zum Vergleich: Das beste System für das Deutsche, das im Mai 2008 an der Evaluierung teilnahm, fand 74 richtige Antworten, das zweitbeste System 46 richtige Antworten, siehe Überblick zu den QA@CLEF-2008 Ergebnissen. Ein früher Prototyp von LogAnswer fand zu diesem Zeitpunkt 29 richtige Antworten.

LogAnswer hat auch an der CLEF 2009 ResPubliQA-Evaluierung für Frage-Antwort-Systeme teilgenommen. Bei dieser Aufgabe geht es darum, Fragen, die sich auf das JRC-Acquis-Korpus mit Texten der EU-Verwaltung beziehen, durch Angabe eines Absatzes, der die gesuchte Information enthält, zu beantworten. Zur Vorbereitung wurden zunächst die 100 ResPubliQA-Entwicklungsfragen aus dem Englischen ins Deutsche übersetzt, siehe Liste der übersetzten Fragen. LogAnswer fand zu 57% der Entwicklungsfragen den gesuchten Absatz in der JRC-Kollektion.
Bei der eigentlichen ResPubliQA-Evaluierung gab es einen starken Schwerpunkt auf Fragen nach Zielen, Gründen und Verfahrensweisen. Nur bei einem Drittel der 500 Fragen im ResPubliQA-Testset handelte es sich noch um klassische Fragen nach Definitionen und nach konkreten Fakten (Zahl- und Datumsangaben, Fragen nach Namen von Orten, Personen usw.) Dennoch erreichte LogAnswer eine Beantwortungsrate von 40% (c@1-Score 44%), siehe genauere Auswertung.
LogAnswer war das einzige Frage-Antwort-System für die deutsche Sprache, das an ResPubliQA teilnahm, so dass kein Vergleich mit anderen Systemen für das Deutsche möglich ist. In der offiziellen Auswertung der ResPubliQA-Ergebnisse werden die Systeme jedoch auch über die Sprachen hinweg nach dem Kriterium verglichen, welche Verbesserung sie gegenüber einer Retrieval-Baseline für die jeweilige Sprache erreichen. Bezüglich dieser Metrik war LogAnswer das drittbeste von elf teilnehmenden Systemen.

Eines der Ziele des LogAnswer-Projektes ist es, Testsammlungen von Beweisproblemen aus der logischen Fragebeantwortung anzulegen. Eine Sammlung mit insgesamt 1805 Testproblemen, die wir zur Optimierung des EKRH-Beweisers und zum Vergleich mit anderen Theorembeweisern nutzen, ist zum Download verfügbar. Die Problemsammlung liegt im TPTP-Format vor, einem Standardformat zur Beschreibung von Problemen für Theorembeweiser. Ein Teil dieser Probleme wird derzeit in die offizielle TPTP-Library (Thousands of Problems for Theorem Proving) integriert.

Ein Ziel des LogAnswer-Projekts ist auch der Aufbau und die Bereitstellung von maschinell nutzbarem Wissen. Zu diesem Zweck haben wir über 11.000 Konzepte des Deutschen in die OpenCyc-Ontologie (in der OWL-Version opencyc-2010-08-15-readable.owl.gz vom 15.8.2010) eingeordnet. Dieses Mapping ist zum Download verfügbar. Als Ergebnis dieser Arbeit ist ein konsistentes System aus mehr als 8.000 redundanzfreien Subkonzept-Beziehungen, mehr als 2.000 Synonymen und mehr als 3,2 Millionen Disjunktheits-Beziehungen zwischen Konzepten des Deutschen entstanden.

Als Ergänzung zum logikbasierten Ansatz wurden im LogAnswer-Projekt Forschungen zur Integration von "flachen" und logikbasierten Informationen durch maschinelle Lernverfahren durchgeführt. Diese zielen darauf, trotz der stark unbalancierten Daten die korrekten Antworten in der Ausgangsmenge aller Antwortkandidaten zu bestimmen. Erst durch die Neuentwicklung eines Lernverfahrens, das Vorwissen über den qualitativen Effekt von Attributen einbeziehen kann und direkt die anwendungsrelevante Ranking-Metrik optimiert, konnten zufriedenstellende Ergebnisse erzielt werden. Der so entstandene Learning-to-Rank-Ansatz auf Basis eines rangoptimierenden Entscheidungsbaum-Lernverfahrens ist im Rahmen der GNU General Public License (GPL) öffentlich verfügbar