Claude Opus 4.8: Anthropic legt nach — gleicher Preis, bessere Agenten
28. Mai 2026
Bildquelle: Anthropic
Anthropic hat am 28. Mai 2026 Claude Opus 4.8 vorgestellt, eine Punkt-Aktualisierung des Top-Modells. Sie kommt ohne Preisaufschlag und punktet vor allem bei den Themen, die in Unternehmens-Projekten gerade die meisten Sorgen machen: Code-Qualität, agentisches Verhalten und der zuverlässige Umgang mit Tools (Quelle: anthropic.com).
Was neu ist
Anthropic hebt vier Kernverbesserungen hervor, und alle vier zielen direkter auf den Produktivbetrieb als auf Benchmark-Trophäen:
Ehrlichkeit beim Code: Opus 4.8 lässt rund vier Mal seltener Fehler im selbst geschriebenen Code unkommentiert durch als die Vorgängerversion 4.7. Für Pair-Programming und automatisierte Pull-Request-Reviews ist das der vermutlich greifbarste Sprung.
Agentisches Urteilsvermögen: Frühe Tester berichten, dass das Modell „die richtigen Fragen stellt, eigene Fehler bemerkt und einem ungesunden Plan widerspricht”. Verhalten, das bei autonomen Agenten den Unterschied zwischen Demo und Produktion ausmacht.
Tool-Effizienz: Gleiche Qualität, deutlich weniger Tool-Calls. Wer pro Vorgang abrechnet oder Rate-Limits hat, spart spürbar.
Pro-soziales Verhalten: Höhere Werte bei der Achtung von Nutzer-Autonomie, relevant für alles, was nicht „der Agent darf alles” sein soll.
Die Verschiebung im Verhalten lässt sich an Anthropics eigenem Alignment-Profil ablesen, das mit der Veröffentlichung mitkommt:
Sicherheits- und Alignment-Profil: Opus 4.8 verbessert sich gegenüber 4.7 vor allem bei Ehrlichkeit und der Achtung von Nutzer-Autonomie. Bildquelle: Anthropic
Bemerkenswert ist weniger die einzelne Kennzahl als die Richtung: Während frühere Opus-Versionen primär an Code- und Reasoning-Skalen wuchsen, addiert 4.8 spürbar bei den weichen Faktoren, die in Audits und Datenschutz-Fragen das Risiko-Bild dominieren.
Die Zahlen im Überblick
Anthropic legt eine Vergleichstabelle mit den wichtigsten Benchmarks bei. Sie deckt Coding (SWE-Bench, CursorBench), Agenten (OSWorld, Online-Mind2Web) und juristisches Reasoning (Legal Agent Benchmark) ab und stellt Opus 4.8 nicht nur gegen 4.7, sondern auch gegen die aktuelle Konkurrenz:
Benchmark-Vergleich: Opus 4.8 hebt insbesondere bei Online-Mind2Web (Browser-Agenten) und Legal Agent Benchmark deutlich an. Bildquelle: Anthropic
Online-Mind2Web (Browser-Agent): 84 Prozent, nach Anthropics Angaben das aktuell stärkste getestete Modell für Computer-Bedienung.
OSWorld-Verified: aktualisierte 4.7-Baseline bei 82,3 Prozent, Opus 4.8 setzt darauf auf.
Legal Agent Benchmark: erstes Modell, das die 10-Prozent-Hürde im All-Pass-Standard knackt.
Genie (Databricks): 61 Prozent günstigere Token-Kosten als Opus 4.7 für die gleiche multimodale Analyse, durch effizientere Tool-Nutzung, nicht durch Preisnachlass.
CursorBench: übertrifft alle bisherigen Opus-Modelle über alle Effort-Stufen hinweg.
Drei Produkt-Neuerungen, die gleich starten
Effort Control in claude.ai und Cowork: ein Schieberegler, der bestimmt, wie viel Rechenaufwand Claude in eine Antwort steckt. Der Trade-off zwischen Qualität und Rate-Limit-Verbrauch wird sichtbar.
Dynamic Workflows (Research Preview) für Claude Code: Hunderte parallele Subagenten in einer Session, die ihre Outputs gegenseitig prüfen bevor sie an den User zurückgehen. Anthropic positioniert das explizit für Code-Migrationen über sechsstellige Zeilenmengen.
Fast Mode jetzt zu einem Drittel des bisherigen Preises, bei 2,5-facher Geschwindigkeit. Konkret: 10 USD pro Million Input-Tokens, 50 USD pro Million Output-Tokens.
Fast Mode: 10 USD / 1 Mio. Input · 50 USD / 1 Mio. Output (drei Mal günstiger als der bisherige Fast-Tarif).
API-Identifier:claude-opus-4-8.
Verfügbar ab sofort über die Anthropic-API, claude.ai und die etablierten Cloud-Bezugswege (AWS Bedrock, Google Vertex).
Was Anthropic noch ankündigt: System-Entries + Mythos
Die Messages API akzeptiert ab sofort System-Einträge mitten im Nachrichten-Array. Damit lassen sich Anweisungen während eines laufenden Vorgangs nachschieben, ohne den Prompt-Cache zu zerschießen. Relevant für Agenten-Architekturen, die Zwischenkontrolle einbauen wollen.
Anthropic teasert zudem die Claude-Mythos-Klasse an: Modelle oberhalb von Opus, deren Veröffentlichung an zusätzliche Cyber-Sicherheits-Vorkehrungen geknüpft ist. Allgemeine Verfügbarkeit „in den kommenden Wochen”. Parallel arbeitet das Team an günstigeren Opus-äquivalenten Modellen, ein Hinweis darauf, dass das Preisgefüge in den nächsten Monaten weiter rutscht.
Was Unternehmen aus diesem Release mitnehmen sollten
Der eigentliche Gewinn dieses Releases liegt nicht in den höheren Benchmark-Werten, sondern in einer Verhaltensänderung des Modells, die in Produktivumgebungen direkt spürbar wird. Ein Pflegevermittler, der heute Anfragen über einen Mail-Agenten triagiert, eine regionale Agentur, die Angebote per Workflow vorbereitet, oder ein Mittelständler, der Bestandsdaten über Browser-Agenten in CRM-Oberflächen einpflegt: Alle drei profitieren weniger von einem schöneren Score in OSWorld als davon, dass das Modell vier Mal seltener heimlich Fehler im eigenen Output stehen lässt und beim Tool-Aufruf nicht mehr nach jeder Antwort drei Klärungsschleifen einbaut.
Wer Opus 4.7 produktiv im Einsatz hat, sollte den Wechsel jetzt vorbereiten. Der API-Identifier ändert sich auf claude-opus-4-8, der Preis bleibt gleich, die Eingabe-Schnittstelle ebenfalls. Praktisch bedeutet das einen Drei-Zeilen-Diff in der Konfiguration, gefolgt von einem A/B-Lauf gegen die bestehenden Prompts. Wer noch auf Sonnet sitzt und überlegt, ob Opus den Aufpreis lohnt, hat mit dem 61-Prozent-Argument aus dem Databricks-Test einen konkreten Vergleichswert für die eigene Token-Rechnung, und mit Fast Mode zu einem Drittel des bisherigen Preises ein Argument, das auch im Controlling sitzt.
Die ehrlichere Diagnose lautet: Die Modell-Schicht entwickelt sich in einem Tempo, das die meisten internen Entscheidungsprozesse nicht mitmachen können. Wer ein KI-Projekt aufsetzt und drei Monate auf den Procurement-Stempel wartet, hat beim Go-Live ein Modell im Einsatz, das technisch bereits zwei Generationen veraltet ist. Die organisatorische Antwort darauf ist nicht, schneller einzukaufen, sondern eine Architektur, in der das Modell austauschbar ist, ein Punkt, den dieses Release in Erinnerung ruft, ohne ihn selbst zu lösen.