Puheentunnistus verkkokaupassa

OK, Google! Ymmärrätkö suomea?

Puheentunnistusteknologia helpottaa elämää.

Puhe on meille luonnollisin tapa ilmaista ajatuksiamme, mutta käyttämämme laitteet ja palvelut eivät ole juurikaan ymmärtäneet meitä. Tähän on tullut muutos aivan viime aikoina, sillä puheentunnistus on teknologiana ottanut merkittäviä harppauksia. Kuinka hyvin Googlen puheentunnistus ymmärtää suomea? Onko nyt sopiva hetki alkaa hyödyntää puheentunnistusteknologiaa ja luonnollista kieltä yritystoiminnassa?

Ihmiselle puhuminen on luonnollisin, nopein ja helpoin tapa ilmaista ajatuksiaan. Koska laitteet ja palvelut eivät ole juurikaan ymmärtäneet puhettamme, olemme joutuneet keksimään ja opettelemaan muita epäoptimaalisia ratkaisuja vuorovaikutukseen laitteiden kanssa. Sen sijaan, että sanelisimme komentoja ja tekstiä tietokoneelle tai kännykälle, meidät on pakotettu syöttämään tahtomme ja ajatuksemme näppäimistön avulla.

Teknologiaa puheentunnistamiseen on kehitetty vuosikymmeniä, mutta melko huonolla menestyksellä. Kuitenkin aivan viime vuosina koneoppiminen (ja erityisesti syväoppiminen) on mahdollistanut teknologisen harppauksen puheentunnistuksessa. Onko tämän harppauksen myötä puheentunnistus suomeksi myös toteutettavissa?

Kuinka hyvin osaat suomea, Google?

Otetaan esimerkki elävästä elämästä: äidilleni luonnollisin tapa tehdä Google-hakuja näyttää olevan puhe, kun vaihtoehtona on kosketusnäytön näppäimistö. Hän siis tekee onnistuneesti Google-hakuja puheen avulla suomeksi, vielä melko vahvalla murteella.

Googlen puheentunnistuksen laatua voi helposti itse kokeilla tekemällä kuten äitini, eli tekemällä hakuja puheen avulla. Puhehaku löytyy Googlen hakukentässä mikrofonikuvakeen takaa. Vaihtoehtoisesti laatua voi testata täällä (jos testaat suomen kielellä, valitse kieleksi suomi). “Järjestelmällistyttämättömyydelläänsäkäänköhän” on varmasti niin vaikeasti taivutettu sana, ettei Googlekaan ymmärrä sitä – vai ymmärtääkö? Kokeile itse!

Puhehakuja tehneet ovat varmasti huomanneet, että teknologia on kehittynyttä ja sille löytyy arjessa käyttöä. Puhehaku on vain niin paljon nopeampi ja vaivattomampi kuin ajatusten ilmaiseminen näppäimistön välityksellä. Puhehaku ei kuitenkaan ole ainoa tapa hyödyntää puheentunnistusteknologiaa.

Google Cloud Speech-to-Text sopii suomenkielisiin sovelluksiin

Googlen puheentunnistusteknologia on kaikkien hyödynnettävissä Cloud Speech-to-Text -palvelun kautta (entinen Cloud Speech API). Cloud Speech-to-Text -palvelulla on jo tuki suomen kielelle, ja lisäksi sen hinnoittelu on huokea ja perustuu käyttöön. Esimerkiksi 24 tuntia puheentunnistusta maksaa noin kolmekymmentä euroa. Toisin sanoen: puheentunnistusteknologian hyödyntäminen esimerkiksi verkkokaupassa suomenkielisille asiakkaille ei enää vaadi suuria investointeja.

Onko Google Cloud Speech-to-Text -palvelu paras suomenkielisille sovelluksille? Tämä on hyvin relevantti kysymys, sillä kilpailevia palveluita löytyy. Näitä ovat esimerkiksi Amazon Transcribe, Microsoft Speech Service (palvelu aikaisemmin nimetty Bing Speech API) ja IBM Watson Speech to Text. Suomenkielisiin sovelluksiin nämä eivät kuitenkaan ole hyviä vaihtoehtoja, sillä mainitut palvelut eivät tue suomea täysin tai ollenkaan. Applen Siri taas on suunnattu yksinomaan Applen tuotteisiin ja palveluihin.

Huomionarvoista on, että monet yritykset, joiden tarjoaman palvelun laatu riippuu erittäin merkittävästi puheentunnistusteknologian laadusta, ovat kattavan vertailun jälkeen valinneet Google Cloud Speech-to-Text -palvelun. Tästä esimerkkinä dialogtech ja LogMeIn GoToMeeting-palvelullaan. Kyseisten yritysten mietteitä Google Cloud Speech-to-Text -palvelun laadusta voi katsoa Google Cloud Next '18 -tallenteesta.

Mielestäni Google Cloud Speech-to-Text -palvelu pystyy tekemään muunnoksen puheesta tekstiksi riittävän luotettavasti, jopa suomeksi. Tämä jo yksistään tarjoaa monia vaihtoehtoja esimerkiksi toiminnan tehostamiseen ja asiakastyytyväisyyden parantamiseen. Esimerkiksi kaikki asiakaspalveluun tulevat puhelut voisi tallentaa ja muuttaa tekstiksi, mikä mahdollistaisi tekstihaut tallentuvaan tietokantaan. Näin puheluissa annetut ratkaisut asiakkaiden ongelmiin ja kyselyihin olisi kaikkien löydettävissä välittömästi. Koneoppimisen avulla asiakaspalvelijoiden avuksi voisi jopa tehdä virtuaalisen avustajan, joka puhelun sisällön perusteella ehdottaa mahdollisia ratkaisuja automaattisesti.

Seuraava askel: luonnollisen kielen prosessointi

Kun puhuttu kieli on tekstin muodossa, seuraava askel on luonnollisen kielen prosessointi (Natural Language Processing, NLP). Siinä laitteet ja palvelut alkavat ymmärtämään puhutut ajatuksemme ja vastaamaan toiminnallaan.

Tämä käytännössä tarkoittaisi sitä, että kun asiakas sanoo “haluaisin löytää nuorekkaat naisten punaiset housut alle sadalla eurolla”, palvelu ymmärtää tekstin muotoon muutetusta puheesta seuraavat asiat: asiakas etsii jotain, tämä jotain on housut ja nämä housut pitää olla sekä nuorekkaat, naisten, punaiset että alle sadan euron hintaiset. Jos asiakas sanoisi kyseisen lauseen verkkokaupalle, verkkokauppa voisi näyttää sivun, jossa on juuri ne hakutulokset, joita asiakas etsi.

Google tarjoaa luonnollisen kielen prosessointiin Cloud Natural Language -palvelun, mutta tämä palvelu ei vielä tue suomea. Tämä ei kuitenkaan tarkoita sitä, etteikö yksinkertaista luonnollista kieltä voisi jo nyt käyttää esimerkiksi verkkokaupan hauissa käyttäen muita teknologioita.

Luonnollisen kielen prosessointi kehittyy nyt nopeasti. Uskon sen nousevan merkittävään rooliin verkkokauppojen käytettävyydessä nopeammin kuin uskommekaan.

Artikkelin kirjoittaja on koneoppimiseen perehtynyt teknologisti, jonka intohimo on löytää toimintaa tehostavia teknologioita.