Atslēgas līdzņemšanai
- Strauji tuvojas diena, kad nevarēsit atšķirt datora ģenerētu runu no īstās.
- Google nesen atklāja LaMDA - modeli, kas varētu nodrošināt dabiskākas sarunas.
- Cilvēkam līdzīgas runas veidošanai ir nepieciešams arī liels apstrādes jaudas apjoms.
Šobrīd ir viegli noteikt, kad runājat ar datoru, taču tas drīz var mainīties, pateicoties nesenajiem AI sasniegumiem.
Google nesen atklāja LaMDA - eksperimentālu modeli, kas, pēc uzņēmuma domām, varētu uzlabot tā sarunvalodas AI palīgu spējas un nodrošināt dabiskākas sarunas. LaMDA mērķis ir galu galā normāli sarunāties par gandrīz jebko bez jebkādas iepriekšējas apmācības.
Tas ir viens no pieaugošajiem mākslīgā intelekta projektiem, kas var likt jums aizdomāties, vai jūs runājat ar cilvēku.
Mans aprēķins ir tāds, ka nākamo 12 mēnešu laikā lietotāji sāks saskarties ar šīm jaunajām, emocionālākām balsīm un pieradīs pie šīm balsīm. dzinējs, teikts e-pasta intervijā.
"Kad tas notiks, šodienas sintezētā runa lietotājiem skanēs tāpat kā 2000. gadu sākuma runa šodien."
Balss palīgi ar raksturu
Google LaMDA pamatā ir Transformer - neironu tīkla arhitektūra, ko izgudroja Google pētniecība. Atšķirībā no citiem valodu modeļiem, Google LaMDA tika apmācīts īstā dialogā.
Daļa no izaicinājuma radīt dabiski skanošu AI runu ir sarunu beztermiņa raksturs, emuāra ziņā rakstīja Google pārstāvis Eli Kolinss.
"Tērzēšana ar draugu par TV pārraidi varētu izvērsties par diskusiju par valsti, kurā raidījums tika filmēts, pirms uzsākt debates par šīs valsts labāko reģionālo virtuvi," viņš piebilda.
Lietas strauji virzās ar robotu runu. Ēriks Rozenblūms, Tsingyuan Ventures, kas iegulda sarunvalodas AI, vadošais partneris, teica, ka dažas no vissvarīgākajām datorizētās runas problēmām ir praktiski atrisinātas.
Piemēram, runas izpratnes precizitāte jau ir ārkārtīgi augsta tādos pakalpojumos kā programmatūras Otter.ai veiktās transkripcijas vai DeepScribe veiktās medicīniskās piezīmes.
"Tomēr nākamā robeža ir daudz grūtāka," viņš piebilda.
"Konteksta izpratnes saglabāšana, kas ir problēma, kas pārsniedz dabiskās valodas apstrādi, un empātiju, piemēram, datoriem, kas mijiedarbojas ar cilvēkiem, ir jāsaprot neapmierinātība, dusmas, nepacietība utt. Tiek strādāts pie abiem šiem jautājumiem, taču abi ir diezgan tālu no apmierinošiem."
Neironu tīkli ir atslēga
Lai radītu dzīvībai līdzīgas balsis, uzņēmumi izmanto tādas tehnoloģijas kā dziļie neironu tīkli, mašīnmācīšanās veids, kas klasificē datus pa slāņiem, sacīja Mets Muldūns, Ziemeļamerikas prezidents uzņēmumā ReadSpeaker, kas izstrādā teksta pārvēršanas runas programmatūru. teica e-pasta intervijā.
"Šie slāņi uzlabo signālu, šķirojot to sarežģītākās klasifikācijās," viņš piebilda. "Rezultāts ir sintētiska runa, kas izklausās neparasti pēc cilvēka."
Cita tehnoloģija, kas tiek izstrādāta, ir Prosody Transfer, kas ietver vienas teksta pārvēršanas runā balss skaņas apvienošanu ar citas balss runas stilu, sacīja Muldūns. Ir arī pārsūtīšanas mācīšanās, kas samazina apmācības datu apjomu, kas nepieciešams, lai izveidotu jaunu neironu balsi teksta pārvēršanai runā.
Kaplans teica, ka cilvēkam līdzīgas runas radīšana arī prasa milzīgu apstrādes jaudu. Uzņēmumi izstrādā neironu paātrinātāju mikroshēmas, kas ir pielāgoti moduļi, kas darbojas kopā ar parastajiem procesoriem.
"Nākamais posms būs šo mikroshēmu ievietošana mazākā aparatūrā, jo pašlaik tas jau tiek darīts kamerām, kad ir nepieciešams AI redzei," viņš piebilda. "Nepaies ilgs laiks, kad šāda veida skaitļošanas iespējas būs pieejamas pašās austiņās."
Viens izaicinājums AI vadītas runas attīstībai ir tas, ka visi runā atšķirīgi, tāpēc datoriem parasti ir grūti mūs saprast.
"Padomājiet par Džordžijas un Bostonas un Ziemeļdakotas akcentiem un par to, vai angļu valoda ir jūsu galvenā valoda," e-pastā teica Monika Dema, kas strādā ar balss meklēšanas analīzi uzņēmumā MDinc. "Globāli domājot, tas ir dārgi darīt to visos Vācijas, Ķīnas un Indijas reģionos, taču tas nenozīmē, ka tas nav vai to nevar izdarīt."