GLM-5.2 als Coding Agent mit OpenCode und LiteLLM

20.06.2026

Mit der Veröffentlichung von GLM-5.2 hat Zhipu AI ein beeindruckendes Open-Source-Modell vorgestellt, das speziell für langfristige Aufgaben entwickelt wurde. Wer nicht lange lesen will, kann den Zhipu AI Chat direkt verwenden.

GLM-5.2 eignet sich besonders für den Einsatz als Coding Agent in OpenCode. Die wichtigsten Punkte:

1M-Token-Kontext
Ein Kontext von einer Million Token ist für große Modelle wie Claude Opus 4.8 oder GPT-5.5 mittlerweile Standard, aber viele Open-Source-Modelle arbeiten noch mit kleineren Kontext-Größen (z.B. 200k Token). GLM-5.2 kann damit auch mit größeren Code-Basen umgehen, längere Implementierungen durchführen und trotz vielen Tool-Calls nicht den Überblick verlieren.
Ausgelgt auf Coding
Im Terminal-Bench 2.1 erreicht GLM-5.2 einen Score von 81.0. Damit ist es das stärkste Open-Source-Modell ist und nur wenige Punkte hinter Claude Opus 4.8 (85.0) liegt. Auf SWE-bench Pro erzielt es 62.1 und übertrifft damit sogar proprietäre Modelle wie GPT-5.5 (58.6).
Reasoning entsprechend Effort-Level
Durch einstellbare Effort-Level (High oder Max) lässt sich das Modell je nach Aufgabe zwischen Geschwindigkeit und Genauigkeit abstimmen. Für einfache Aufgaben reicht ein niedriger Effort (z.B. für Orchestrator), während man für schwierige Debugging-Sessions den maximalen Effort nutzen kann.
MIT-Lizenz
GLM-5.2 steht unter einer MIT-Lizenz ohne regionale Einschränkungen. Das ist ein wesentlicher Vorteil gegenüber vielen anderen leistungsstarken Modellen.

Einsatz mit OpenCode

OpenCode ist ein interaktives CLI-Tool für Software-Engineering-Aufgaben und unterstützt verschiedene LLM-Backends. GLM-5.2 lässt sich nahtlos als Backend-Modell einbinden, da es über die Z.ai API (oder bei entsprechender Hardware) auch lokal bereitgestellt werden kann.

Was OpenCode für mich aber erst wirklich produktiv macht, sind drei Konzepte, die gut mit den Stärken von GLM-5.2 zusammenspielen:

Skills
Skills sind spezialisierte Instruktionen und Workflows, die OpenCode bei Bedarf nachlädt. Statt das Modell mit einem riesigen System-Prompt zu überfrachten, wird eine Skill (z.B. für API-Design oder einen Security-Review) erst dann in den Kontext geladen, wenn die Aufgabe dazu passt. Das hält den Kontext schlank und nutzt den 1M-Token-Spielraum von GLM-5.2 gezielt für die eigentliche Arbeit.
Agents und Subagents
Agents sind eigenständige Instanzen mit klar umrissenem Auftrag und eigenem Werkzeugkasten. Ein Agent startet jeweils mit frischem Kontext, erledigt seine Teilaufgabe autonom und liefert am Ende eine kompakte Zusammenfassung zurück. So lassen sich z.B. Codebase-Analyse, Recherche oder das Schreiben von Tests sauber kapseln, ohne den Hauptkontext mit Zwischenergebnissen zu belasten.
Orchestrators mit Subagents
Der eigentliche Hebel liegt im Orchestrator-Muster: Ein übergeordneter Agent zerlegt eine komplexe Aufgabe und delegiert die Teilstücke an mehrere Subagents – idealerweise parallel. Jeder Subagent arbeitet in seinem eigenen, isolierten Kontextfenster und gibt nur ein verdichtetes Ergebnis zurück. Der Orchestrator führt diese Ergebnisse zusammen und entscheidet über die nächsten Schritte.
Hier zahlt sich die abstufbare Reasoning-Tiefe von GLM-5.2 besonders aus: Der Orchestrator kann mit einem niedrigen Effort-Level laufen, da er vor allem koordiniert, während rechenintensive Subagents bei Bedarf den maximalen Effort nutzen. In Kombination mit dem großen Kontext behält der Orchestrator dabei auch über viele Tool-Calls und mehrere Subagent-Durchläufe hinweg den Überblick.

Kostentransparenz durch selbst gehostetes LiteLLM

Ein weiterer Aspekt, der für mich entscheidend ist: Ich betreibe ein selbst gehostetes LiteLLM als Proxy. LiteLLM fungiert als einheitliche Schnittstelle zu verschiedenen LLM-Anbietern und bietet dabei vollständige Kostentransparenz. Jeder API-Aufruf wird protokolliert, die Token-Nutzung wird aufgeschlüsselt und die Kosten werden pro Modell, pro Key und pro Anfrage nachvollziehbar dargestellt.

Das ist besonders bei einem Modell wie GLM-5.2 relevant, das durch seine langen Kontexte und Coding-Agent-Szenarien signifikante Token-Mengen verbrauchen kann. Durch LiteLLM habe ich jederzeit den Überblick, welches Modell wie viele Tokens verbraucht und was das kostet. Außerdem ermöglicht es mir, flexibel zwischen verschiedenen Modellen zu wechseln und die Kosten direkt zu vergleichen.

Fazit

GLM-5.2 ist ein ernstzunehmender Schritt für Open-Source-Modelle im Bereich Coding Agents. Die Kombination aus dem 1M-Token-Kontext, starker Coding-Performance und MIT-Lizenz macht es zu einer attraktiven Wahl für Entwickler, die Wert auf Unabhängigkeit und Transparenz legen. Zusammen mit OpenCode als CLI-Agent und einem selbst gehosteten LiteLLM ergibt sich ein Setup, bei dem man die volle Kontrolle über seine Infrastruktur und Kosten behält, ohne auf Leistung verzichten zu müssen.

Weitere Informationen zu GLM-5.2 finden sich im offiziellen Blogpost, die Modellgewichte sind auf HuggingFace verfügbar.