Talegenkendelse på telefonen kan snart klares let uden internet
I dag har mere end hver fjerde gjort talegenkendelse til en del af hverdagen. Ny algoritme, fra forsker ved Købehavns Universitet og internationale kollegaer, gør det muligt at tale med ”Siri” og andre digitale assistenter uden internetforbindelse, selv på mindre apparater. Med opfindelsen vil talegenkendelse kunne bruges hvor-som-helst, men også når sikkerheden er højeste prioritet.
Engang var det science fiction, at tale med en computer. I dag er det hverdag for mange at sige ”hej Siri”, ”Alexa” eller noget tredje til sit smartphone eller digitale assistent i hjemmet. Alligevel kan talegenkendelse få en endnu større rolle i fremtiden.
Hvor globale undersøgelser har vist, at hvor hver fjerde allerede bruger teknologierne jævnligt, så vil antallet af enheder, der har talegenkendelse, overstige antallet af mennesker på planeten i 2025, hvis forudsigelserne holder stik. Og teknologien udvikler sig stadig.
Indtil nu har funktionen været begrænset til enheder tilsluttet internettet. Det skyldes, at den algoritme, der normalt styrer processen, kræver en stor midlertidig hukommelse (RAM). Derfor har datacentrenes store servere holdt hånden under teknologien via internettet. Man kan selv teste det ved at sætte sin smartphone på ”flyfunktion” og konstatere, at ingen er hjemme, når man taler til den. Men det kan ændre sig nu.
Med en ny algoritme, opfundet af Professor Panagiotis Karras fra Datalogisk Institut ved Københavns Universitet, og udviklet i samarbejde med forsker i taleteknologi, Nassos Katsamanis fra Athena Research Center i Grækenland, og forskere fra Aalto Universitet, Finland, og KTH i Sverige, kan smartphones, og selv mindre apparater, nu blive udstyret med software, der er i stand til at afkode vores tale uden det store behov for hukommelse - uden behov for internetadgang.
Koden, der fornyligt blev præsenteret i en videnskabelig artikel, benytter sig af et smart trick for at undgå det: Den glemmer det, den ikke skal bruge nu og her.
”Talegenkendelse fungerer grundlæggende ved, at de små lyde, som vi danner ord og sætninger med, kaldet fonemer, bliver matchet med et bibliotek af tilsvarende lyde. Der beregnes sandsynligheder for et match og for de efterfølgende kombinationer, som danner vores ord og sætninger. De mest sandsynlige sekvenser beregnes på den måde, og softwaren oversætter således lydene til tekst, ” forklarer Panagiotis Karras.
Men med de nuværende algoritmer kræver processen mere og mere hukommelse, jo længere det talte er, fordi alle alternative kombinationer skal holdes åbne, til den sidste lyd er blevet analyseret. Det er det, den nye algoritme gør op med.
”Den algoritme Panos udtænkte, og som vi har udviklet, kan noget helt nyt. I modsætning til den kode, der har været den gyldne standard siden talegenkendelens tidligste dage, gemmer den kun en brøkdel af arbejdet, der fungerer som en slags ”koordinater”. Med dem kan den genskabe hele sekvensen, den har fortolket, og resultatet er talegenkendelse, der ikke kræver nær samme RAM,” forklarer medudvikler og medforfatter til forskningen, Nassos Katsamanis.
Fra simple ”keywords” til lange sætninger
Den manøvre kan lyde enkel, men involverer unik kode, som ikke før er set, og som forskerne bag har søgt patent på. Algoritmen er den i stand til at mindske den afgørende hukommelse, uden at det går ud over kvaliteten af talegenkendelsen. Den kræver smule mere tid og regnekraft end tidligere processer, men det er ubetydeligt sammenlignet med de muskler, moderne enheder har, forsikrer forskerne.
Og så er den altså i stand til at gøre det uden internetforbindelse, hvilket gør talegenkendelse - og på sigt også oversættelse af hele sprog, håber forskerne - muligt hvor-som-helst, selv i Amazonas dybeste jungle.
Mere info: En sproglig stifinder
Man kan prøve at forstå, hvordan computere arbejder med talegenkendelse, ved at tænke på den klassiske opgave, hvor man med en blyant skal finde den korrekte vej igennem en labyrint til udgangen.
Den klassiske algoritme til talegenkendelse vil nemlig gribe den opgave an på samme måde, som bruger til at genkende sproget. Fra udgangspunktet i starten af labyrinten vil den afsøge alle mulige veje, og i essens huske hele labyrinten - inklusiv alle blindgyderne - til udgangen er nået.
Den gyldne standard for denne metode er en ældre algoritme ved navn Viterbi. Processen beskrevet ovenfor trækker veksler på computerens midlertidige lagerplads, fordi den for hvert skridt på vejen skal beregne og huske sandsynligheder for alle positioner i hele labyrinten. Dette kan betyde, at algoritmen til sidst må huske på millioner af sandsynligheder, hvis labyrinten er tilpas lang.
Panagiotis’ nye algoritme benytter sig i stedet af et princip, der konstant halverer problemet. Ved enhver strækning på sin vej gennem labyrinten ville den nøjes med at huske det punkt, hvor den var halvejs. Konsekvensen er et væsentlig mindre behov for midlertidig hukommelse, og disse ”halvdele” i stedet beregnes igen inden den endelige rute er klar.
I talegenkendelse er disse punkter udgjort af de fonemer – sproglyde i tekst, der beregnes som det bedste match til det sagte, et hvert givet sted i den sætning, der bliver analyseret. De fonemer og deres sandsynlighed gemmes, som en slags koordinater på den rute, algoritmen undervejs finder bedst, mens den forsøger at finde vej mellem første og sidste lyd i en sætning.
Til sidst kan de bruges til at rekonstruere hele ”ruten”. Det vil sige: det bedste bud på en tekst af det, som er blevet sagt.
Når den nuværende software må opbevare disse alternative sekvenser og biblioteker af potentielle lydtolkninger, så er det egentligt relativt uproblematisk, når opgaven er enkelte ord og ganske korte sætninger. Men jo længere sætninger, der er tale om, desto mere kompleks bliver de potentielle kombinationer, og dermed stiger behovet for RAM.
”I dag er det muligt for visse små devices, at genkende og handle ud fra nogle få ord uden at være på nettet. Smart home-systemer kan forstå enkelte ”keywords” som ”tænd” og ”sluk”. Det kalder man for small-vocabulary speech recognition. Med vores algoritme vil de kunne genkende lange instruktioner - i princippet hele sprog, uden internetforbindelse. Det kaldes large-vocabulary speech recognition,” siger Panagiotis Karras.
Bedre inklusion, sikkerhed og energibesparelse
Opfindelsen fører, ifølge forskerne, mange muligheder med sig. Den har fordele, som er både praktiske, sikkerhedsmæssige og samfundsmæssige. Og så er der et stort energibesparende potentiale.
Mange ville kunne få glæde af, at man fortsat vil kunne få hjælp til fx oversættelse af fremmede sprog på rejser, også uden for internettets rækkevidde, og den mulighed håber forskerne på sigt at realisere. Men samfundspotentialet for den sproglige tilgængelighed nu og på sigt er langt større end det.
”Denne algoritme kan være med til at udbrede sprogteknologi og gavne demokratisering ved at gøre information mere tilgængelig. At gøre oversættelsesværktøjer og taleassistenter tilgængelige, uanset om man befinder langt fra internettet, betyder, at flere vil kunne deltage i samfundet. Det giver blandt andet mennesker uden skriftsprog eller med fysiske handicap nye muligheder for at forstå og påvirke samfundets beslutninger,” siger Nassos Katsamanis
Et andet aspekt af opfindelsen er sikkerheden i forbindelse med talegenkendelse. Er sikkerheden ens højeste prioritet, kan den nye algoritme løse et vigtigt problem: Internet-opkoblinger kan hackes. Den nye algoritme øger sikkerheden ved at fjerne behovet for at være tilsluttet internettet.
Samtidigt er energiforbruget i de store datacentre, som understøtter den nuværende teknologi, måske usynlig for den enkelte forbruger, men yderst relevant at reducere i en tid med klimaforandringer. Her kan den hurtigt voksende talegenkendelses-teknologi spare stort ved at undgå det store behov for midlertidig hukommelse
”Det er vigtigt at reducere energiforbruget for at mindske afhængigheden af fossile brændstoffer, da der fortsat er datacentre, som er drevet af sådanne energikilder,” lyder det fra Panagiotis Karras
Bag studiet
Følgende forskere har medvirket til projektet:
Martino Ciaperoni, Aalto University, Finland.
Athanasios (Nassos) Katsamanis, Athena Research Center, Grækenland.
Aristides Gionis, KTH Royal Institute of Technology, Sverige og Aalto University, Finland.
Panagiotis Karras, Datalogisk Institut ved Københavns Universitet.
Kontakt
Panagiotis Karras
Professor
Datalogisk Institut
Københavns Universitet
paka@di.ku.dk
piekarras@gmail.com
+4591416469
Athanasios (Nassos) Katsamanis
Seniorforsker
Institute for Language and Speech Processing
Athena Research Center, Grækenland
nkatsam@athenarc.gr
+30 210 6875405
Kristian Bjørn-Hansen
Journalist og pressekontakt
Det Natur- og Biovidenskabelige Fakultet
Københavns Universitet
kbh@science.ku.dk
93 51 60 02