Reaaliaikainen puheentunnistus — streaming ASR yrityskäytössä

Kun asiakas soittaa yritykseen ja puhelimeen vastaa tekoäly, taustalla pyörii teknologia, joka muuttaa puheen tekstiksi reaaliajassa. Tätä kutsutaan streaming ASR:ksi (Automatic Speech Recognition). Ilman sitä tekoäly ei ymmärrä soittajaa — ja puhelu päättyy turhautumiseen.

Perinteinen puheentunnistus käsittelee äänitiedoston vasta puhelun jälkeen. Reaaliaikainen puheentunnistus tekee saman kesken puhelun, millisekunti millisekunnilta. Ero on kuin päiväkirjan lukemisen ja live-keskustelun välillä.

Tässä artikkelissa käymme läpi, miten streaming ASR toimii teknisesti, mitä hyötyjä se tuo yrityskäyttöön ja mihin suuntaan teknologia kehittyy.

Miten streaming ASR eroaa perinteisestä puheentunnistuksesta?

Perinteisessä (batch) puheentunnistuksessa äänitiedosto lähetetään palvelimelle kokonaisena. Järjestelmä palauttaa transkription, kun koko nauhoite on käsitelty. Tämä sopii esimerkiksi kokousmuistioiden litterointiin, mutta puhelinpalvelussa se ei toimi.

Streaming ASR pilkkoo äänisignaalin pieniksi paloiksi — tyypillisesti 100–300 millisekunnin jaksoihin. Jokainen pala lähetetään palvelimelle, joka palauttaa osittaisen transkription välittömästi. Lopputulos tarkentuu sitä mukaa, kun konteksti kasvaa.

Käytännössä tämä tarkoittaa, että tekoäly alkaa "ymmärtää" soittajan puhetta jo ensimmäisen sekunnin aikana. Se voi reagoida kesken lauseen, esittää tarkentavia kysymyksiä ja pitää keskustelun luonnollisena.

End-of-utterance detection

Yksi streaming ASR:n kriittisistä ominaisuuksista on puheen loppumisen tunnistaminen. Järjestelmän pitää osata erottaa lyhyt tauko pitkästä hiljaisuudesta. Liian aikainen katkaisu pilaa lauseen merkityksen, liian myöhäinen hidastaa vastausta.

Modernit ASR-järjestelmät käyttävät VAD-teknologiaa (Voice Activity Detection) ja oppivat tunnistamaan puhujan tauottelutavan puhelun aikana.

Teknologia pinnan alla

Streaming ASR koostuu kolmesta ydinkomponentista:

1. Akustinen malli muuntaa äänisignaalin fooneemeiksi eli kielen äänneyksiköiksi. Modernit mallit käyttävät syviä neuroverkkoja (Conformer, Whisper) ja prosessoivat ääntä lähes reaaliajassa.

2. Kielimalli yhdistää foneemit sanoiksi ja lauseiksi. Suomen kielessä tämä on haastava vaihe: taivutusmuodot, yhdyssanat ja murteet vaativat erikoistunutta mallinnusta. Isot LLM-pohjaiset kielimallit ovat parantaneet suomen tunnistusta merkittävästi viimeisen kahden vuoden aikana.

3. Dekooderi yhdistää akustisen mallin ja kielimallin tuottaen todennäköisimmän transkription. Streaming-tilassa dekooderi tuottaa ensin "hypoteesin", joka tarkentuu lauseen edetessä.

Latenssi on kaikki kaikessa

Yrityskäytössä latenssi ratkaisee. Jos puheentunnistus kestää yli 500 millisekuntia, keskustelu tuntuu epäluonnolliselta. Tavoitteena on päästä alle 300 ms end-to-end-latenssiin: ääni sisään → teksti ulos → LLM käsittelee → vastaus alkaa.

Tähän päästään yhdistämällä reunalaskenta (edge computing), optimoidut mallit ja nopeat WebSocket-yhteydet.

Käyttökohteet yrityksessä

Puhelinpalvelun automaatio

Yleisin käyttökohde. Kun asiakas soittaa, streaming ASR muuntaa puheen tekstiksi, jonka LLM tulkitsee ja johon se vastaa. Koko ketju — puheentunnistus, ymmärrys, vastaus, puhesynteesi — toimii reaaliajassa.

Tämä mahdollistaa luonnolliset puhelut, joissa tekoäly vastaa kysymyksiin, varaa aikoja ja ohjaa puhelun oikealle henkilölle tarvittaessa.

Live-transkriptio ja analytiikka

Streaming ASR mahdollistaa puhelun reaaliaikaisen litteroinnin. Myyntipuheluissa esimies voi seurata keskustelua tekstinä ja antaa vinkkejä myyjälle kesken puhelun. Asiakaspalvelussa järjestelmä voi nostaa esiin relevantteja tietoja CRM:stä heti, kun asiakas mainitsee tilaustunnuksen.

Sentimenttianalyysi reaaliajassa

Kun puhe muuttuu tekstiksi välittömästi, myös tunneanalyysi voi toimia reaaliajassa. Järjestelmä havaitsee, jos asiakas vaikuttaa turhautuneelta, ja voi eskaloi puhelun ihmisagentille ennen kuin tilanne kärjistyy.

Monikielinen palvelu

Modernit ASR-järjestelmät tunnistavat kielen automaattisesti ensimmäisten sekuntien aikana. Jos asiakas puhuu englantia suomalaisen yrityksen numeroon, järjestelmä vaihtaa kielen lennossa ilman erillisiä valikkoja.

Haluatko tietää, miten tämä toimisi sinun yrityksessäsi?

Ilmainen 30 minuutin kartoitus — ei sitoumuksia.

Varaa kartoitus

Haasteet suomen kielessä

Suomi on teknisesti haastava kieli puheentunnistukselle:

Taivutusmuodot: "talo", "talossa", "taloissammekin" — sama sana, kymmeniä muotoja
Yhdyssanat: "puheentunnistusjärjestelmäkonfiguraatio" on yksi sana
Murteet ja puhekieli: "mää" vs. "minä", "sitte" vs. "sitten"
Vähäinen koulutusdata: verrattuna englantiin dataa on murto-osa

Hyvä uutinen on, että OpenAI:n Whisper ja muut suuret mallit ovat parantaneet suomen tunnistusta huomattavasti. Virheprosentit ovat pudonneet alle 10 prosenttiin selkeällä puheella, ja puhekielenkin tunnistus paranee jatkuvasti.

Miten valita ASR-ratkaisu?

Yritykselle keskeisiä kriteereitä ovat:

1. Latenssi: Alle 300 ms on hyvä, alle 200 ms erinomainen 2. Suomen kielen tuki: Testaa oikeilla puheluilla, ei vain studiossa nauhoitetulla puheella 3. Mukautuvuus: Voiko malliin lisätä toimialakohtaista sanastoa (tuotenimet, lyhenteet)? 4. Tietoturva: Missä data käsitellään? EU:n sisällä vai USA:ssa? 5. Hinta: Streaming ASR laskutetaan yleensä per minuutti tai per pyyntö

Aisterilla käytämme markkinoiden nopeimpia ASR-ratkaisuja ja optimoimme ne erityisesti suomen kielelle. Lopputulos: asiakas puhuu, tekoäly ymmärtää — viive on niin pieni, ettei soittaja huomaa eroa ihmiseen.

Tulevaisuuden suunnat

ASR-teknologia kehittyy nopeasti kolmeen suuntaan:

Multimodaalisuus: Puheentunnistus yhdistyy muihin signaaleihin — esimerkiksi videopuhelussa huulten liike parantaa tunnistusta.

On-device ASR: Puheentunnistus siirtyy osittain päätelaitteelle, mikä vähentää latenssia ja parantaa tietosuojaa. Apple, Google ja Meta investoivat tähän voimakkaasti.

Jatkuva oppiminen: ASR-mallit oppivat yrityksen omasta puheludatasta ajan myötä, parantaen tunnistusta juuri sillä toimialalla ja sanastolla.

Yhteenveto

Reaaliaikainen puheentunnistus on AI-puhelinpalvelun perusta. Ilman nopeaa ja tarkkaa ASR:ää puhebotti ei voi käydä luonnollista keskustelua. Streaming-teknologia mahdollistaa alle 300 millisekunnin latenssit, ja suomen kielen tuki on kehittynyt tasolle, joka tekee käytännön sovelluksista mahdollisia.

Yritykselle tämä tarkoittaa, että puhelimeen vastaava tekoäly ei ole enää kömpelö robotti, vaan sujuva keskustelukumppani.

Haluatko nähdä, miten reaaliaikainen puheentunnistus toimii käytännössä? Kokeile Aisterin AI-puhelinpalvelua tai ota yhteyttä: visa.valkonen@aisteri.fi.

Lisää tästä aiheesta

Tutki koko tekninen-kategoria

Jos tämä artikkeli osui hermoon, samasta kategoriasta löytyy lisää käytännön juttuja ilman konsulttiliirumlaarumia.

Avaa kategoriakeskus