Vai šīs īpaši iespaidīgās AI audiogrāmatu balsis ir labas vai sliktas?

Satura rādītājs:

Vai šīs īpaši iespaidīgās AI audiogrāmatu balsis ir labas vai sliktas?
Vai šīs īpaši iespaidīgās AI audiogrāmatu balsis ir labas vai sliktas?
Anonim

Atslēgas līdzņemšanai

  • DeepZen izmanto AI (mākslīgo intelektu), lai no teksta izveidotu satriecoši reālistiskas audiogrāmatas.
  • Tehnoloģija izmanto īstas cilvēka balss aktierus, lai nodrošinātu pamatelementus.
  • Amazon un Audible pašlaik nepieņem datorizētas audiogrāmatas.
Image
Image

DeepZen ir uzņēmums, kas rada datoru balsis, ko izmanto audiogrāmatās, balstoties uz īstām cilvēku aktieru balsīm. Kvalitāte ir biedējoša - pietiekami laba, lai klausītos stundām ilgi. Šis triks ir AI (mākslīgā intelekta) komponents, kas var nolasīt tekstu un secināt pareizo emocionālo reakciju, pamatojoties uz kontekstu. Pēc tam tas šīs emocijas ievieš balsī.

Tas ir iespaidīgi un ļoti ērti. Bet vai mēs patiešām vēlamies homogenizētu audiogrāmatu pieredzi? Un kā ar tiem balss aktieriem?

"No neatkarīgā izdevēja viedokļa viss, kas samazina audiogrāmatu ražošanas izmaksas, ir ļoti interesants," e-pastā Lifewire pastāstīja Riks Kārlils, neatkarīgā izdevēja Carlile Media īpašnieks.

"Bet šī pievilcība paredz, ka produkts būtu tikpat kvalitatīvs kā tradicionālais stāstījums. Es domāju, ka mēs vēl neesam simtprocentīgi tur. Nepārprotiet, DeepZen ir pārsteidzoši labs. Tas ir milzīgs izrāviens, un tā veidotāji ir pelnījuši milzīgu uzslavu un panākumus. Taču tas vēl nav ideāls."

Audio, kas ir “pietiekami labs”

Labākais veids, kā izprast DeepZen kvalitāti, ir klausīties paraugus. Ja jūs nezinātu, ka tie ir datorizēti, jūs, iespējams, pat neapzinātos. Jebkurā gadījumā ne uz laiku. Pieņemsim, ka DeepZen mākslīgais intelekts ir ideāls un ka tas nekad nepareizi interpretē emocionālās notis, kuras tam ir paredzēts.

Image
Image

Arī tad cilvēks var piedāvāt daudz niansētākas un bieži vien pārsteidzošākas interpretācijas. Aktieris var negaidīti pagriezt vārdus, ko dators pat neapdomātu. Un patiesībā mākslīgā intelekta interpretācija noteikti vēl nav tik laba kā profesionāla balss aktiera interpretācija.

"Kā tas, kurš strādā pie filmām un pēdējā laikā audio stāstījuma pasaulē, bet esmu pārsteigts par mākslīgo intelektu - es zinu, ka ir dziļas jēgas, kuras mašīna nevar interpretēt," profesionāla balss Aktieris Pols Krems pastāstīja Lifewire pa e-pastu.

"Vai to izmantos nezināmu autoru pieplūdums? Es garantēju, ka to izmantos, jo tas ir "pietiekami labs"."

Ja esat pietiekami labs, apvienojumā ar ērtībām un izmaksu ietaupījumiem, iespējams, pietiks, lai piesaistītu neatkarīgos izdevējus pakalpojumam.

"Audiogrāmatas var maksāt līdz pat 500 ASV dolāriem par pabeigtu audio stundu (daudz vairāk par slavenību balsi), un tajās nav iekļautas pārvaldības un administratora laika izmaksas," saka Karlila. "Ir ļoti pievilcīga iespēja uz pusi samazināt šīs izmaksas, vienkārši augšupielādējot manuskriptu tādam pakalpojumu sniedzējam kā DeepZen."

Runāšanas problēmas

Tas vēl nav tik vienkārši, kā atlaist aktierus un augšupielādēt manuskriptus pakalpojumā DeepZen. Pašlaik ir viens šķērslis vienkāršai audiogrāmatu AI orācijai, un tas ir no Amazon.

Image
Image

"Pašlaik ACX, pašizdevēja ceļš uz Audible un Amazon audiogrāmatu izplatīšanu, nepieņems audiogrāmatas, kuras nav ierakstījis cilvēks," saka Karlila.

Kāpēc? Kvalitāte. Šeit ir FAQ ieraksts no vietnes:

"Teksta pārvēršana runā vai citi automatizēti ieraksti nav atļauti. Skaņas klausītāji izvēlas audiogrāmatas materiāla atskaņošanai, kā arī stāstam. Lai izpildītu šīs prasības, jūsu audiogrāmatu ir jāieraksta cilvēkam."

Tas nozīmē, ka DeepZen ģenerētās audiogrāmatas vismaz pagaidām ir beigušās. Tā ir tīra spekulācija, taču DeepZen šķiet diezgan labs ieguvums Amazon, ļaujot tam pārdot pakalpojumu un paturēt to tikai Audible grāmatām. Un pat ja tas nenotiek, ja datorizēto audiogrāmatu kvalitāte ir tik laba, šķiet, nav iemesla nepieļaut izņēmumu no šī noteikuma.

Vai jūs labprāt klausītos šādā veidā veidotas audiogrāmatas? Kad tas notiek, lielākā daļa cilvēku pat nenojauš. Daži varētu dot priekšroku datora radītām balsīm, jo tajās nebūs vokālo tiku un ieradumu, kas dažkārt var novērst uzmanību. Šī tehnoloģija ir piemērota arī videospēlēm, TV un radio reklāmām, kā arī jebkuram citam scenārijam, kurā jūs nolīgsiet balss aktieri.

DeepZen tehnoloģija būtu arī lielisks veids, kā automātiski izveidot ziņu aplādes no rakstītiem rakstiem, kas varētu būt noderīgi ceļā uz darbu un mājām.

Un kā ar tiem balss aktieriem? Nu, būs vismaz viena iespēja: viņi var doties strādāt DeepZen.

Ieteicams: