Dėkojame
Šiame straipsnyje mes kalbėjomės su John Garofalo, kalbos Group Manager prie informacinių technologijų laboratorijos nacionalinio instituto standartų ir technologijos. Mes taip pat norėčiau padėkoti Joshua Senecal už pagalbą šį straipsnį.
Kalboje Duomenų
Norėdami konvertuoti kalboje ekrane teksto ar kompiuterio komandą, kompiuteris turi eiti per keletą sudėtingų žingsnių , Kai kalbate, jūs sukuriate vibracijas į orą. Analoginis-skaitmeninis keitiklis (ASK) verčia šį analoginį bangą į skaitmeninius duomenis, kurie gali suprasti kompiuteryje. Norėdami tai padaryti, jis mėginiai arba digitizes, garsą, atsižvelgiant tikslius matavimus bangos intervalais. Sistema filtrai skaitmeninę garso pašalinti nepageidaujamą triukšmą, o kartais ir atskirti ją į skirtingų juostų dažnio (dažnis yra garso bangos bangos, išklauso žmonių kaip skirtumų aikštelėje). Ji taip pat normalizuoja garsą, arba taiko jį pastovaus tūrio lygiu. Ji taip pat gali būti laikinai suderinti. Žmonės ne visada kalbėti tuo pačiu greičiu, todėl garsas turi būti reguliuojamas taip, kad atitiktų šabloną garso pavyzdžių jau su sistemoje saugomais atmintyje greitį.
Kitas signalas yra padalintas į mažas segmentų trumpas, kaip keletas šimtosios sekundės, ar net tūkstantosios į sprogstamasis priebalsių garsų atveju - priebalsių Stotelės pagaminti trukdo oro srautą į balso trakto - kaip " P " arba ". t " Tada programa atitinka šiuos segmentus žinomų fonemų atitinkama kalba. Fonemą yra mažiausias elementas kalba - apie garsų mes darome atstovavimo ir sudėti formuoti prasmingus posakius. Yra maždaug 40 fonemos anglų kalba (įvairių kalbininkai turi skirtingas nuomones apie tikslią skaičiaus), o kitos kalbos turi daugiau ar mažiau fonemas.
Kitas žingsnis atrodo paprasta, bet ji yra iš tikrųjų sunkiausia atlikti ir IS dėmesys labiausiai kalbėjimo atpažinimo tyrimus. Programa analizuoja fonemas į kitų fonemų aplink juos kontekste. Jis veikia kontekstinį fonema sklypą per sudėtingas statistinis modelis ir lygina juos su didele biblioteka žinomų žodžių, frazių ir sakinių. Tada programa nustato, ką vartotojas tikriausiai