Teknologi

To poeng bak Opus 4.6, fem ganger billigere: Gemini 3.5 Flash skriver om regnestykket

Susan Hill

Google sendte Gemini 3.5 Flash til markedet mandag til 1,50 dollar per million input-tokens og 9 dollar per million output-tokens. Den nye modellen holder over 280 output-tokens i sekundet, beholder det samme kontekstvinduet på en million tokens som forgjengeren og lander i Artificial Analysis Intelligence Index på 55 poeng, ni over Gemini 3 Flash. Tirsdag morgen hadde en r/Anthropic-tråd allerede satt diagrammet ved siden av Claude Opus 4.6 og stilt spørsmålet markedet har sirklet rundt i seks måneder: når slutter to benchmark-poeng å være verdt fem ganger prisen?

Intelligence Index aggregerer en kurv av offentlige evalueringer — resonnement, kunnskap, koding, matematikk og løsing av agentiske oppgaver — i en samlet karakter fra 1 til 100. Claude Opus 4.6 i adaptiv resonneringsmodus ligger på 57. Gemini 3.5 Flash, lansert 19. mai, ligger på 55. Sprang på ni poeng mellom versjoner er det største enkeltskrittet Flash noensinne har registrert, stort nok til at den nye modellen nå matcher Anthropics forrige Sonnet på rå intelligens til en brøkdel av Sonnets kostnad.

Innrammingen «smartere» som Reddit-tråden brukte overdriver gapet til fordel for Flash. På det rene Intelligence-Indeksen ligger Opus 4.6 fortsatt foran med to poeng. Diagrammet som sprengte tråden er ikke Intelligence Index isolert. Det er visningen intelligens-effektivitet mot kostnad, der aksen gjør et annet arbeid og der Flash 3.5 ikke bare slår Opus 4.6. Den ligger i en klasse der ingen andre er i nærheten.

Opus 4.6 tar rundt 6,25 dollar per million input-tokens og 25 per million output-tokens. Flash tar 1,50 og 9. For en chat-last vektet to mot en til fordel for output ligger det effektive forholdet nærmere 4,5x enn det runde «fem ganger» fra trådens tittel. Avrundingen er ærlig. Hastigheten gjør bildet verre for flaggskipet: Flash 3.5 holder over 280 output-tokens i sekundet, mens Opus 4.6 i resonneringsmodus med maksimal innsats kjører rundt en tiendel av det tempoet på samme benchmark-suite. For produkter der en bruker stirrer på en markør — kode-assistenter, supportagenter, ethvert interaktivt flyt — er latens en egenskap prisen ikke kjøper tilbake.

For et år siden fikk argumentet for å kjøpe den dyreste modellen plass på en linje. Kvalitetsspranget til neste nivå var bratt nok til at prisforskjellen ble en avrundingsfeil mot levert verdi. Diagrammet tråden limte inn er et annet diagram. Marginalkostnaden ved de siste to intelligenspoengene er blitt hele prisbeslutningen for produksjonslaster, og avrundingsfeilen lander nå nærmere 4,75 dollar av hver seks brukt.

Det finnes et rent argument for å beholde Opus 4.6 i stacken. Lang-kontekst-resonnering over hundrevis av sider, agent-loops der feil hoper seg opp steg for steg, dokumentanalyse der to poeng i en aggregert karakter skjuler langt større oppgavespesifikke forsprang. Opus er fortsatt modellen en ingeniør går til når feilmodus er «svaret var feil», ikke «svaret kom sent». Andelen produksjonslaster som ser slik ut krymper. Den er ikke null, og det er nettopp den stripa der de 25 dollar per million tjener lønna.

Chat-turene som flytter hovedmassen av fakturerbare tokens — utforming, oppsummering, klassifisering, oversettelse, kode-autofullføring, kundevent resonnement — ligger alle innenfor Flashs rekkevidde. Spørsmålet ingeniørteamene stiller hvert kvartal er ikke lenger «hvilken modell er best». Det er «hvilken modell gir mest per dollar ved akseptabel latens». Det andre spørsmålet vinner Flash nå med en margin som ikke krever finstilt tolkning.

Trådens sekundære innramming, at konsensus overalt er at Opus 4.6 er bedre enn 4.7, fortjener en mildere behandling. Den er anekdotisk. Anthropics to siste Opus-versjoner har fått delte vurderinger i kodeevalueringer og i strenghet i verktøysbruk, med team som rapporterer regresjoner i lange agent-loops på 4.7 og andre som rapporterer rene seire på identiske laster. Begge observasjoner kan være sanne på en gang når atferd justeres på mange akser mellom mindre versjoner. De to modellene ligger dessuten mindre enn et poeng fra hverandre i den offentlige indeksen, så samfunnets deling ligner mer på en smaksak enn på en kapasitetssak. Det som ikke er oppe til debatt, er at prisen på ingen av de to Opus-versjonene rører seg.

Det dypere signalet i Reddit-samtalen er hva brukerne ikke kranglet om. Ingen i tråden forsvarte Opus-prisen på prinsipiell basis. Forsvarene som dukket opp var lastspesifikke. «Opus vinner fortsatt hos meg i denne agent-loop-en.» «Opus blir i vår pipeline for dokumentgjennomgang.» De er virkelige, men det er last-forsvar, ikke flaggskipsforsvar. Et flaggskip skal vinne over spekteret, ikke i én enkelt bane.

To poengs intelligensavstand. Femdoblet pris. Seksdoblet hastighetsfordel den andre veien. Et kontekstvindu på en million tokens til 1,50 dollar per million input. Multimodalt input, Elo på agentiske oppgaver over 1650, nitti prosent rabatt på cached input. Anthropics svar neste kvartal vil fortelle sin egen historie. Vanskeligere å skrive, i mai 2026, er argumentet en selger må bære med inn i et kundemøte.

Diskusjon

Det er 0 kommentarer.