Kā AI varētu padarīt datora runu dabiskāku

Satura rādītājs:

Kā AI varētu padarīt datora runu dabiskāku
Kā AI varētu padarīt datora runu dabiskāku
Anonim

Atslēgas līdzņemšanai

  • Uzņēmumi sacenšas, lai atrastu veidus, kā padarīt datorizētas runas skaņu reālistiskāku.
  • NVIDIA nesen atklāja rīkus, kas var uztvert dabiskās runas skaņu, ļaujot apmācīt mākslīgo intelektu ar savu balsi.
  • Intonācija, emocijas un muzikalitāte ir tās īpašības, kuru datorbalsīm joprojām trūkst, saka viens eksperts.
Image
Image

Datora ģenerēta runa drīzumā varētu izklausīties daudz cilvēcīgāk.

Datoru daļu ražotājs NVIDIA nesen atklāja rīkus, kas var uztvert dabiskas runas skaņu, ļaujot apmācīt mākslīgo intelektu ar savu balsi. Programmatūra var arī nodot viena runātāja vārdus, izmantojot citas personas balsi. Tā ir daļa no plaukstošajiem centieniem padarīt datora runu reālāku.

"Uzlabotā balss mākslīgā intelekta tehnoloģija ļauj lietotājiem runāt dabiski, apvienojot daudzus jautājumus vienā teikumā un novēršot nepieciešamību pastāvīgi atkārtot sākotnējā vaicājuma detaļas," runā Maikls Zagorseks, runas atpazīšanas uzņēmuma SoundHound galvenais operators., stāstīja Lifewire e-pasta intervijā.

"Vairāku valodu pievienošana, kas tagad ir pieejama lielākajā daļā balss AI platformu, padara digitālos balss palīgus pieejamus vairākos ģeogrāfiskos reģionos un lielākam iedzīvotāju skaitam," viņš piebilda.

Robospeech Rising

Amazon Alexa un Apple Siri izklausās daudz labāk nekā datora runa pat pirms desmit gadiem, taču tās drīzumā netiks sajauktas ar autentiskām cilvēku balsīm.

Lai mākslīgās runas skaņu padarītu dabiskāku, NVIDIA teksta pārvēršanas runā izpētes komanda izstrādāja RAD-TTS modeli. Sistēma ļauj indivīdiem ar savu balsi mācīt teksta pārvēršanas runā (TTS) modeli, tostarp ritmu, tonalitāti, tembru un citus faktorus.

Uzņēmums izmantoja savu jauno modeli, lai izveidotu sarunvalodas balss stāstījumu savai I Am AI video sērijai.

Izmantojot šo saskarni, mūsu video producents var ierakstīt sevi, lasot video skriptu, un pēc tam izmantot mākslīgā intelekta modeli, lai pārvērstu savu runu sievietes stāstītājas balsī. Izmantojot šo pamata stāstījumu, producents pēc tam varētu vadīt AI kā balss aktieris pielāgo sintezēto runu, lai uzsvērtu konkrētus vārdus, un maina stāstījuma tempu, lai labāk izteiktu videoklipa toni,” savā vietnē rakstīja NVIDIA.

Grūtāk, nekā izklausās

Datora ģenerētas runas dabiskuma radīšana ir sarežģīta problēma, norāda eksperti.

"Lai izveidotu tās datora versiju, jums ir jāieraksta simtiem stundu ilgas balss," e-pasta intervijā Lifewire sacīja Nazims Ragimovs, programmatūras uzņēmuma Kukarella izpilddirektors. «Un ierakstam jābūt kvalitatīvam, ierakstītam profesionālā studijā. Jo vairāk stundu kvalitatīvas runas tiek ielādētas un apstrādātas, jo labāks rezultāts."

Teksta pārvēršanu runā var izmantot spēlēs, lai palīdzētu personām ar balss traucējumiem vai palīdzētu lietotājiem tulkot no vienas valodas savā balsī.

Intonācija, emocijas un muzikalitāte ir tās īpašības, kuru datorbalsīm joprojām trūkst, sacīja Ragimovs.

Ja mākslīgais intelekts var pievienot šīs trūkstošās saites, datora ģenerētā runa būs "neatšķirama no īstu aktieru balsīm", viņš piebilda. "Tas ir darbs. Citas balsis varēs konkurēt ar radio vadītājiem. Drīz jūs redzēsiet balsis, kas varēs dziedāt un lasīt audiogrāmatas."

Runas tehnoloģija kļūst arvien populārāka daudzos uzņēmumos.

"Automobiļu rūpniecība nesen ir ieviesusi balss AI kā veidu, kā radīt drošākas un savienotākas braukšanas pieredzi," sacīja Zagorseks.

"Kopš tā laika balss asistenti ir kļuvuši arvien izplatītāki, jo zīmoli meklē veidus, kā uzlabot klientu pieredzi un apmierināt pieprasījumu pēc vienkāršākām, drošākām, ērtākām, efektīvākām un higiēniskām metodēm mijiedarbībai ar saviem produktiem un pakalpojumiem."

Parasti balss AI pārvērš vaicājumus atbildēs divpakāpju procesā, kas sākas ar runas pārrakstīšanu tekstā, izmantojot automātisko runas atpazīšanu (ASR), un pēc tam ievadot šo tekstu dabiskās valodas izpratnes (NLU) modelī.

Image
Image

SoundHound pieeja apvieno šīs divas darbības vienā procesā, lai izsekotu runu reāllaikā. Uzņēmums apgalvo, ka šis paņēmiens ļauj balss palīgiem saprast lietotāja vaicājumu nozīmi pat pirms persona ir pabeigusi runāt.

Nākotnes sasniegumi datoru runas jomā, tostarp dažādu savienojamības iespēju pieejamība no tikai iegultās (nav nepieciešams mākoņa savienojums) līdz hibrīdam (iegults plus mākonis) un tikai mākonī "sniegs plašākas izvēles iespējas uzņēmumiem visās nozarēs izmaksu, privātuma un apstrādes jaudas pieejamības ziņā," sacīja Zagoresks.

NVIDIA paziņoja, ka tās jaunumi AI modeļi pārsniedz balss pārraides funkciju.

"Teksta pārvēršanu runā var izmantot spēlēs, lai palīdzētu personām ar balss traucējumiem vai palīdzētu lietotājiem tulkot no vienas valodas savā balsī," raksta uzņēmums. "Tā pat var atjaunot ikonisku dziedātāju priekšnesumus, saskaņojot ne tikai dziesmas melodiju, bet arī emocionālo izteiksmi aiz vokāla."

Ieteicams: