LLM BGB Benchmark

Wie gut verstehen KI-Modelle deutsches Recht? Ein Benchmark von 20 LLMs anhand von 50 BGB-Normen.

Score-Übersicht (Frontier-Modelle)

Forced Mode

Forced ModeScoreØ 48%

5 Modelle

Top 3

95% KI (Bootstrap über Normen)

Für jede BGB-Norm generieren die Modelle eine Antwort, die mit einer Musterlösung (goldText) verglichen wird.

Forced: Modell muss immer antworten.
Abstention: Modell darf bei Unsicherheit ablehnen.

Die Textähnlichkeit zwischen Modellantwort und Musterlösung, berechnet über die normalisierte Levenshtein-Distanz (0-100%).

50 handverlesene Normen aus allen Büchern des BGB mit je mehreren Testfällen pro Norm.