Anthropic zeigt, wie KI ihre eigene Entwicklung beschleunigt

Anthropic beschreibt in einem neuen Beitrag seines Anthropic Institute, wie stark KI inzwischen an der Entwicklung neuer KI-Systeme mitarbeitet. Der wichtigste Satz für Geschäftsführer steckt nicht in der Science-Fiction-Vokabel “recursive self-improvement”, sondern in einer nüchternen Zahl: Anthropic-Ingenieure mergen laut Unternehmen heute im Schnitt achtmal so viel Code pro Quartal wie in den Jahren 2021 bis 2025 (Quelle: anthropic.com). Für mittelständische Unternehmen ist das kein ferner Laborbericht. Es zeigt, wie schnell sich Wissensarbeit verändert, wenn KI nicht nur Texte formuliert, sondern Aufgaben plant, Code schreibt, Tests ausführt und andere Agenten koordiniert.

Was Anthropic unter rekursiver Selbstverbesserung versteht

Mit rekursiver Selbstverbesserung meint Anthropic ein Szenario, in dem ein KI-System irgendwann in der Lage wäre, seinen eigenen Nachfolger weitgehend autonom zu entwerfen und zu entwickeln. Das Unternehmen betont ausdrücklich, dass dieser Punkt noch nicht erreicht ist und auch nicht zwangsläufig eintreten muss. Der Weg dorthin sei aber sichtbar: Früher schrieb der Mensch Code, dann half der Chatbot bei einzelnen Schnipseln, heute arbeiten Coding-Agenten an ganzen Dateien, führen Code aus und können Aufgaben an weitere Agenten delegieren. Anthropic beschreibt damit keine einzelne Produktfunktion, sondern eine Verschiebung im Arbeitsmodell: Der Mensch gibt immer häufiger Ziel und Rahmen vor, während die KI den Lösungsweg erarbeitet.

Der Spiegel spitzt diese These stärker politisch zu: Anthropic plädiere für eine weltweite Verlangsamung oder Pause bei der Entwicklung immer leistungsstärkerer KI-Systeme, weil sonst das Risiko wachse, dass Menschen die Kontrolle über solche Systeme verlieren (Quelle: spiegel.de). Entscheidend ist dabei der kollektive Charakter der Forderung. Eine einzelne Firma kann kaum sinnvoll bremsen, wenn Wettbewerber einfach weiterziehen. Anthropic spricht deshalb von überprüfbaren Regeln, an denen mehrere führende KI-Anbieter und Staaten gleichzeitig teilnehmen müssten. Für Unternehmen macht das die Lage ambivalent: Die Technik wird produktiver, aber die Unsicherheit über Tempo, Kontrolle und Regulierung nimmt ebenfalls zu.

Die Zahlen sind beeindruckend, aber nicht einfach Produktivität

Anthropic nennt mehrere interne Messwerte. Mehr als 80 Prozent des Codes, der im Mai 2026 in die eigene Codebasis gemergt wurde, sei von Claude verfasst worden. Im zweiten Quartal 2026 habe der typische Ingenieur achtmal so viele Codezeilen pro Tag gemergt wie 2024. Eine interne Umfrage unter 130 Mitarbeitenden aus Forschungsteams ergab außerdem, dass die Befragten ihre Leistung mit Claude Mythos Preview im Median etwa viermal höher einschätzten als ohne KI-Modelle (Quelle: anthropic.com). Anthropic relativiert diese Zahlen selbst: Codezeilen messen Menge, nicht Qualität, und Selbsteinschätzungen können übertreiben. Genau diese Einschränkung ist wichtig. Wer KI nur daran misst, wie viel Output entsteht, übersieht die eigentliche Managementfrage: Wer prüft, ob der Output nützlich, sicher und wartbar ist?

Externe Benchmarks zeigen denselben Trend

Anthropic stützt seine Einordnung nicht nur auf interne Daten. METR misst sogenannte Time Horizons, also die Aufgabendauer, bei der ein KI-Agent mit einer bestimmten Zuverlässigkeit erfolgreich ist. Laut METR geht es dabei nicht darum, wie lange die KI selbst läuft, sondern wie schwierig eine Aufgabe im Vergleich zu menschlicher Bearbeitungszeit ist (Quelle: metr.org). SWE-bench testet Modelle an echten Softwarefehlern in Open-Source-Projekten, während CORE-Bench prüft, ob Agenten wissenschaftliche Ergebnisse anhand von Code und Daten reproduzieren können (Quellen: swebench.com, arxiv.org). Für Unternehmen ist daran weniger der Benchmark-Name relevant als das Muster: KI wird besser bei Aufgaben, die klare Ziele, Daten, Code und prüfbare Ergebnisse haben.

Wo der Mensch noch gebraucht wird

Anthropic zeichnet trotz aller Fortschritte eine klare Grenze. Claude kann laut Unternehmen offene technische Probleme bearbeiten, Experimente ausführen und bei gut definierten Zielen sehr stark optimieren. Schwächer bleibt KI dort, wo es um Richtung, Urteil und Prioritäten geht. Also um Fragen wie: Welches Problem ist überhaupt wichtig? Welchem Ergebnis vertraue ich? Wann ist eine scheinbar gute Lösung in der Praxis zu riskant? Diese Grenze taucht auch in mittelständischen Betrieben auf. KI kann einen Dienstplan-Export bauen, eine Rechnungsvorprüfung automatisieren oder Kundennachrichten vorsortieren. Aber sie weiß nicht automatisch, welche Ausnahmen im Betrieb teuer werden, welche Daten sensibel sind und welche Entscheidung am Ende ein Mensch verantworten muss.

Was das für Unternehmen bedeutet

Der praktische Schluss ist nicht, dass jedes Unternehmen jetzt eigene Forschungsagenten braucht. Der Schluss ist kleiner und nützlicher: Prozesse, die ein klares Ziel, wiederkehrende Daten und überprüfbare Ergebnisse haben, werden schneller automatisierbar. Dazu gehören etwa Angebotsvorbereitung, Dokumentenprüfung, interne Wissenssuche, Terminlogik, Rechnungsabgleich oder Kundenservice-Vorbereitung. Der Start sollte nicht mit einem großen KI-Projekt beginnen, sondern mit einem schmalen Ablauf, bei dem man Erfolg und Fehler eindeutig messen kann.

Wichtig ist die Reihenfolge. Erst den Prozess verstehen, dann Testfälle sammeln, dann KI einsetzen. Eine saubere KI-Automation entsteht nicht dadurch, dass man einem Modell möglichst viel Arbeit übergibt, sondern dadurch, dass Mensch und System feste Rollen bekommen. Die KI darf schneller ausführen. Der Mensch muss Ziele setzen, Sonderfälle kennen, Ergebnisse prüfen und entscheiden, wann ein automatisierter Vorschlag nicht reicht. Anthropic zeigt vor allem eines: Der Engpass verschiebt sich. In vielen Betrieben wird nicht mehr die Frage sein, ob KI etwas erzeugen kann. Die Frage wird sein, ob das Unternehmen schnell genug lernt, diese Ergebnisse verantwortungsvoll zu prüfen.

Anthropic zeigt, wie KI ihre eigene Entwicklung beschleunigt

Was Anthropic unter rekursiver Selbstverbesserung versteht

Die Zahlen sind beeindruckend, aber nicht einfach Produktivität

Externe Benchmarks zeigen denselben Trend

Wo der Mensch noch gebraucht wird

Was das für Unternehmen bedeutet

Quellen

KI-Potenziale im eigenen Unternehmen erkennen?

KI-Briefing für den Mittelstand

Neueste News

Google haftet für falsche AI Overviews über Unternehmen

Botsitting: Wenn KI fast so viel Zeit kostet wie sie spart

Über Nacht abgeschaltet: Wenn ein KI-Modell plötzlich weg ist