Teknologi

Claude Opus 4.8 fanger fire ganger flere av sine egne kodefeil

Susan Hill

Anthropic har oppgradert sin mest kapable modell til Claude Opus 4.8, og den viktigste endringen er ikke en større hjerne, men en mer forsiktig. Selskapet sier at modellen er rundt fire ganger mindre tilbøyelig enn forgjengeren til å la feil i sin egen kode passere ukommentert, og at den heller peker på de delene av en oppgave den er usikker på. For den som overlater ekte arbeid til en KI, enten det er å kode, gjøre en analyse eller styre en datamaskin, er den påliteligheten egenskapen som faktisk teller.

Svakheten ved dagens KI-agenter er ikke dumhet, men selvsikkerhet. De leverer resultater som ser ferdige ut og leses glatt mens de stille bærer på feil, og et system som får løpe på egen hånd, bygger gjerne neste steg oppå forrige feil. Gi en agent en oppgave i flere trinn, og en enkelt feil antakelse i starten kan spre seg gjennom alt som følger, slik at arbeidet kommer inn med en mine av å være ferdig og viser seg å være ødelagt uten at det synes. En modell som viser sin egen tvil, i stedet for å male over den, er lettere å føre tilsyn med, fordi mennesket vet hvor det skal se.

Det tydeligste beviset ligger i koden. Anthropic opplyser at Opus 4.8 lar langt færre feil i koden den lager passere uten å merke dem, den stille buggen som dukker opp i drift og ikke i gjennomgang. Investeringsselskapet Bridgewater Associates, blant de første til å teste, sa at modellen på eget initiativ pekte på problemer både i inndata og i resultatene av en analyse, noe andre systemer rutinemessig overså. I kunnskapsarbeid og finans er den farlige feilen nettopp den ingen fanger i tide.

Benchmark-tallene støtter rammen uten å være kjernen. Opus 4.8 skal ha fått 69,2 prosent på SWE-Bench Pro, en test bygd av reelle programvareoppgaver, foran OpenAIs GPT-5.5 og Googles Gemini 3.1 Pro. I Anthropics egne målinger slår den enhver tidligere Opus-modell på en kodetest på hvert innsatsnivå og satte selskapets høyeste registrerte resultat på en test i juridisk resonnement. Forspranget er reelt, men smalt, og benchmark-seire spår dårlig hvordan en modell oppfører seg når den gjør grått arbeid hele dagen.

Modellen kommer med nye verktøy. En funksjon i forskningsforhåndsvisning i Claude Code, kalt dynamic workflows, lar Opus planlegge en stor jobb og så kjøre hundrevis av underagenter parallelt i én økt, tenkt for migreringer som spenner over hundretusenvis av linjer kode, og med prosjektets eksisterende testpakke som målestokk. I tillegg lar en ny innstilling i Claude.ai og selskapets Cowork-miljø brukeren bestemme hvor mye innsats, og hvor mange tokens, modellen legger i et svar.

Forbeholdene sitter tett på løftene. Gevinstene i pålitelighet hviler i stor grad på Anthropics egne tester, og et tall som fire ganger mindre er en egen måling, ikke en uavhengig revidert. Ærlighet er også vanskelig å etterprøve utenfra, for en modell kan kunngjøre sin usikkerhet og likevel ta feil, eller heise flagget over det gale. Dynamic workflows kommer bare som forhåndsvisning, ikke som ferdig funksjon, og fortellingen om fart er mindre rause enn den høres ut, ettersom den raske modusen koster det dobbelte av standardtaksten og bare kalles billigere mot tidligere premium-priser.

For den som ser på prisen, blir standardtilgang værende på fem dollar per million inn-tokens og tjuefem per million ut, det samme som forrige Opus. Den raske modusen kjører på omtrent to og en halv gangs fart for ti og femti dollar per million, noe som gjør den nye innsatsinnstillingen like mye til et budsjettverktøy som en kvalitetsknapp. Claude Opus 4.8 er fra nå tilgjengelig via Anthropics utvikler-API under navnet claude-opus-4-8, og selskapet sier at den rulles ut overalt samme dag. Den kom torsdag, rundt seks uker etter Opus 4.7, et uvanlig kort mellomrom som fulgte en lunken mottakelse av den versjonen og en rekke konkurrerende lanseringer fra OpenAI og Google. Den egentlige prøven er om en modell trent til å tvile på seg selv viser seg nyttigere i det daglige arbeidet enn en trent til å skinne på en liste, og den dommen kommer fra agentene folk faktisk lar kjøre.

Diskusjon

Det er 0 kommentarer.