Wenn Token knapp werden

Dr. Isabella Buck26. Juni 2026

Seit dem 1. Juni 2026 läuft GitHub Copilot in einem Credit-Modell, bei dem Chat, Agent Mode, CLI und Code Review GitHub AI Credits verbrauchen. Auch Anthropic dokumentiert für Claude Code inzwischen sehr explizit Tokenkosten, Spend Limits und Nutzungsmonitoring bis auf Skills, Plugins und Subagents herunter. Für mich ist das ein deutliches Signal, das mich beschäftigt, und bei dem ich mich frage, wohin die Reise gehen wird und was das konkret für Wissensarbeitende bedeutet.

Auf der einen Seite finde ich, dass die tokenbasierte Abrechnung gut ist, da sie einem m. E. sehr ‚gefährlichen‘ Trend hoffentlich wieder entgegenwirkt: In den vergangenen Monaten wurde hoher Tokenverbrauch stellenweise wie eine Produktivitätsmetrik behandelt. Axios schrieb im April über „tokenmaxxing“, also die Vorstellung, dass mehr Tokens automatisch mehr Wert bedeuten. Dass diese Logik schief ist, leuchtet sicherlich jeder Person, die sich nur oberflächlich mit Produktivität auseinandergesetzt hat, ein: Nur weil ich von 8 bis 17 Uhr brav an meinem Schreibtisch sitze, heißt das nicht, dass ich auch wirklich produktiv bin und für meine Organisation einen Mehrwert leiste. Nur weil ich 100.000 Token mehr verbrauche als meine Kollegin, heißt das nicht, dass meine Arbeitsergebnisse auch besser sind.

Eine aktuelle arXiv-Studie zu agentischem Coding kommt so auch wenig überraschend zu dem Ergebnis, dass dieselbe Aufgabe bis zu 30-mal mehr Tokens verbrauchen kann, ohne bessere Resultate zu liefern. Business Insider berichtete diese Woche über den Fall Slash, wo ein Mitarbeiter mehr als 80.000 Dollar an KI-Tokens in die Programmierung eines Spiels versenkt hat, nachdem die Programmierenden dazu aufgefordert wurden, mehr mit KI zu programmieren. Spätestens da bricht die Gleichung von Tokenverbrauch und Produktivität zusammen.

Auf der anderen Seite fürchte ich aber auch den Zeitpunkt, an dem meine Organisation meinen wöchentlichen oder monatlichen Token-Verbrauch limitiert und ich keine ‚Flatrate‘ mehr habe. Ich kann dann nicht mehr unbegrenzt im ‚lockeren Plauderton‘ Ideen mit Codex entwickeln, meine gesamte Obsidian-Bibliothek einbeziehen lassen und Konzepte in ganz verschiedene Richtungen entwickeln (lassen). Wenn KI-Nutzung nun kontingentiert wird und unsere Organisationen unsere Nutzungslimits von Claude Cowork, OpenAI Codex & Co. limitieren, verändert das unsere Arbeit. Solange generative KI sich wie ein grenzenloser Denkraum anfühlt, kann man sich relativ folgenlos treiben lassen. Man probiert noch einen Run, noch einen Agenten, noch eine Schleife. Und das ist ja, Stichwort Iterativität, auch erst einmal gut. Mit Budgets und Limits wird aus generativer KI dann erstmals eine Ressource, über deren Nutzung ich genau nachdenken muss.

Warum aber auch das seine positiven Seiten hat, zeigt ein Blick auf die Kompetenzdebatte: Für mich landet man damit nämlich wieder bei der Kompetenz Metakognition, die ich ohnehin als unabdingbar für kompetente KI-Nutzung halte. Ich muss meine Ziele im Voraus klären. Ich muss wissen, welcher Teil einer Aufgabe wirklich KI braucht und welcher Teil darauf verzichten kann. Ich muss Zwischenergebnisse prüfen, Läufe abbrechen, Kontext sauber vorbereiten und Qualität erkennen können. Wer das nicht kann, verbrennt künftig eben nicht mehr nur Zeit, sondern auch Budget, das ihm dann für andere Aufgaben nicht mehr zur Verfügung steht.

Genau deshalb halte ich diese Entwicklung auch nicht nur für eine Einschränkung. Sie könnte uns auch etwas zurückgeben, das in der Phase der scheinbar unbegrenzten KI-Nutzung schnell verloren geht: Agency. Es gäbe dann vielleicht wieder weniger Delegationsreflex, mehr bewusste Steuerung und mehr Klarheit darüber, was ich eigentlich mit dem KI-Einsatz erreichen will. Momentan scheint generative KI eine unendliche Ressource zu sein, die ich einfach recht gedankenlos nutzen und verbrauchen kann. Wird sie limitiert, steigt ihr Wert. Das präzise Planen, Monitoren und Begrenzen des eigenen KI-Einsatzes hilft dann vielleicht auch dabei, sich wieder mehr mit der eigenen Arbeit zu verbinden und ein besseres Gespür für die eigenen Stärken und Schwächen zu bekommen. In einem positiven Zukunftsszenario könnten die Kontingentierung von Token damit am Ende dazu beitragen, dass wir unsere Arbeit wieder genauer verstehen müssen, bevor wir sie an KI auslagern. Und das würde uns dann hoffentlich den Wert unseres menschlichen Denkens wieder mehr vor Augen führen.