Wie man ein KI-Modell auswählt
Bei der wachsenden Zahl an KI-Modellen ist es nicht leicht, das richtige für den eigenen Anwendungsfall zu finden. Zwei Webseiten helfen dabei besonders gut: Artificial Analysis und die LM Arena Leaderboard.
Artificial Analysis
Artificial Analysis bietet unabhängige Benchmarks zu Intelligenz, Geschwindigkeit und Kosten verschiedener Modelle. Die Seite berechnet einen eigenen Intelligence Index, der neun Evaluationen kombiniert – von agentic Coding (Terminal-Bench) über wissenschaftliches Reasoning (GPQA Diamond) bis hin zu Wissenstests (AA-Omniscience).
Der große Vorteil: Man kann Modelle nicht nur nach Qualität, sondern auch nach Kosten pro Aufgabe vergleichen. Das ist besonders relevant, wenn man ein Modell in Produktion einsetzen will. Ein Modell, das 95 % der Leistung des Spitzenreiters bringt, aber nur ein Zehntel kostet, ist oft die bessere Wahl.
Außerdem gibt es einen eigenen Coding Agent Index, der End-to-End Software-Engineering-Aufgaben bewertet.
LM Arena Leaderboard
Die LM Arena verfolgt einen anderen Ansatz: Hier bewerten echte Nutzer in Blindtests, welche Antwort sie bevorzugen. Daraus ergibt sich ein Elo-Ranking – ähnlich wie im Schach.
Die Leaderboard ist nach Kategorien aufgeschlüsselt: Coding, Mathe, Creative Writing, Instruction Following und mehr. So sieht man auf einen Blick, welches Modell in der eigenen Ziel-Domäne vorne liegt.
Welches Modell soll ich wählen?
Am besten kombiniert man beide Quellen:
- Anwendungsfall definieren: Brauche ich ein Modell für Code, für kreative Texte, oder für allgemeines Reasoning?
- LM Arena prüfen: Welche Modelle schneiden in der relevanten Kategorie gut ab?
- Artificial Analysis konsultieren: Wie sieht es bei diesen Modellen mit Geschwindigkeit und Kosten aus?
- Budget berücksichtigen: Open-Weight-Modelle (z.B. GLM-5.2, DeepSeek, Qwen) kann man selbst hosten. Proprietäre Modelle (Claude, GPT, Gemini) bieten oft die höchste Qualität, kosten aber pro API-Aufruf.
Eine kurze Faustregel: Für die beste Qualität schaut man auf die Top-10 der LM Arena. Für das beste Preis-Leistungs-Verhältnis filtert man auf Artificial Analysis nach Kosten pro Aufgabe.