Teknologi

OpenAIs nye stemmemodell tenker inni selve lydsløyfen, og pausen som avslørte AI forsvinner

Pausen er det som avslører. Inntil nå fungerte stemme-AI slik — den transkriberte tale, sendte teksten til en språkmodell, fikk svaret tilbake og syntetiserte det til lyd igjen. Hvert steg koster tid. Brukeren hører stillhet, vet at noe blir behandlet på den andre siden, og merker sømmen. OpenAIs nye GPT-Realtime-2 kollapser hele den pipelinen til én enkelt modell der resonneringen skjer inni selve lydsløyfen — og sømmen forsvinner.
Susan Hill

OpenAI lanserte denne uken tre nye lydmodeller i sin Realtime API — GPT-Realtime-2, GPT-Realtime-Translate og GPT-Realtime-Whisper. Hovedrolleinnehaveren er den første. Selskapet beskriver den som den første stemmemodellen med «resonnering av GPT-5-klasse», bygd slik at én modell håndterer lyd inn og lyd ut — med tenkningen vevd inn i samtalen i stedet for klemt mellom transkripsjons- og syntesetrinnene. Tallene som bærer det er konkrete. Big Bench Audio-poengsummen hoppet fra 81,4 prosent til 96,6 prosent mot forrige referansemodell. Audio MultiChallenge steg fra 34,7 prosent til 48,5 prosent. Kontekstvinduet vokste fra 32 000 tokens til 128 000 — nok plass til å holde en hel kundehistorikk gjennom én samtale.

Den strukturelle forskyvningen er vanskeligere å se i benchmarker. I tre år har enhver som bygde en stemmeagent for produksjon måttet sy stacken sammen for hånd — Whisper eller Deepgram for transkripsjon, en LLM for resonnering, ElevenLabs eller Cartesia for stemmen, og promptarbeid for å maskere latensen. Hvert sprang mellom delene kostet millisekunder og tydelighet. Brukeren hørte et «la meg sjekke» lirket inn av et skript, deretter ingenting mens modellen tenkte, og til slutt svaret. GPT-Realtime-2 leverer de stilasene som innbygd atferd. Preambler lar agenten si «la meg sjekke» mens den kaller verktøy, slik at brukeren ikke sitter i stillheten. Parallelle verktøykall lar modellen avfyre flere backend-forespørsler samtidig og fortelle hvilken som er i gang. Gjenopprettingsatferden fanger feil og løfter dem fram i stedet for å fryse samtalen.

Kontrolloverflaten som åpner seg for utviklere er den mest interessante delen. «Resonneringsinnsats» er konfigurerbar — minimal, low, medium, high og xhigh — med low som standard for å holde latensen nede ved enkle forespørsler. En agent som svarer «når stenger dere?» trenger ikke resonnering av GPT-5-klasse. En agent som følger en kunde gjennom en refusjonssak gjør det. Den samme modellen kan instrueres i hvor hardt den skal tenke fra tur til tur, noe som er en reell endring i forhold til forrige modell, der resonneringsdybden var fast og utvikleren valgte mellom rask og smart ved utrulling.

Skepsis har sin plass. «Resonnering av GPT-5-klasse» er en markedsføringslinje, ikke en verifiserbar påstand — uten uavhengige benchmarker på realistisk dialog forblir sammenligningen intern. Stemmeagenter har et eget feilmodus som benchmarker fanger dårlig — øyeblikket der agenten sier noe galt med rolig, naturlig stemme. Bedre resonnering hjelper, men fjerner ikke problemet. Prisen veier også. GPT-Realtime-2 koster 32 dollar per million lyd-input-tokens og 64 per million output-tokens. GPT-Realtime-Translate går på 0,034 dollar per minutt, GPT-Realtime-Whisper på 0,017. Billig nok til kundeservice i stort volum. Ikke så billig at man kjører det i konversasjonelle forbrukerprodukter uten å tenke sesjonslengden gjennom.

Utrullingskonteksten forteller resten. Zillow skrudde på boligsøk via stemme samme dag. Deutsche Telekom rullet ut stemmestøtte med direkteoversettelse i fjorten europeiske markeder. Begge er nøyaktig det brukstilfellet OpenAI priser for — lange, transaksjonelle samtaler med tett kontekst, der brukeren tjener på en agent som faktisk resonnerer i stedet for å bare slå opp. Priceline bygger systemer der reisende håndterer hotellreservasjoner og følger flyforsinkelser utelukkende med stemmen. Mønsteret bak navnene OpenAI slipper først er tydelig — det er de kundene hvis tidligere stemmesystemer fungerte dårligst — callcentre, supportlinjer, transaksjonsreiser. Stedene der brukeren i dag skriker «operatør» inn i telefonen.

Modellene er tilgjengelige i Realtime API nå. Stemmeoppgraderingene til ChatGPT er fortsatt på vei — «Følg med, vi lager mat», sa OpenAI. Sam Altman rammet lanseringen rundt et atferdsskifte — brukere griper stadig oftere til stemmen i samtale med AI når de skal «dumpe» mye kontekst. Hvis det mønsteret holder, begynner avstanden mellom stemme-AI og tekst-AI å lukke seg — og sømmen som avslørte AI i telefonen blir vanskeligere å høre.

Diskusjon

Det er 0 kommentarer.