LLM BGB Benchmark

Wie gut verstehen KI-Modelle deutsches Recht? Ein Benchmark von 20 LLMs anhand von 50 BGB-Normen.

Score-Übersicht (Frontier-Modelle)

Forced Mode
Forced ModeScoreØ 48%
5 Modelle
Top 3
95% KI (Bootstrap über Normen)

Was wird gemessen?

Aufgabe

Für jede BGB-Norm generieren die Modelle eine Antwort, die mit einer Musterlösung (goldText) verglichen wird.

Modi

Forced: Modell muss immer antworten.
Abstention: Modell darf bei Unsicherheit ablehnen.

Score

Die Textähnlichkeit zwischen Modellantwort und Musterlösung, berechnet über die normalisierte Levenshtein-Distanz (0-100%).

Dataset

50 handverlesene Normen aus allen Büchern des BGB mit je mehreren Testfällen pro Norm.