AI tagad var saprast jūsu videoklipus, tos skatoties

Satura rādītājs:

AI tagad var saprast jūsu videoklipus, tos skatoties
AI tagad var saprast jūsu videoklipus, tos skatoties
Anonim

Atslēgas līdzņemšanai

  • Pētnieki saka, ka var iemācīt AI iezīmēt videoklipus, skatoties un klausoties.
  • AI sistēma mācās attēlot datus, lai tvertu jēdzienus, kas ir kopīgi starp vizuālajiem un audio datiem.
  • Tā ir daļa no centieniem iemācīt mākslīgajam intelektam saprast jēdzienus, kurus cilvēkiem nav grūti apgūt, taču tos ir grūti uztvert datoros.

Image
Image

Jauna mākslīgā intelekta sistēma (AI) varētu skatīties un klausīties jūsu videoklipus un iezīmēt notiekošo.

MIT pētnieki ir izstrādājuši paņēmienu, kas māca AI tvert video un audio kopīgas darbības. Piemēram, viņu metode var saprast, ka bērna raudāšana videoklipā ir saistīta ar izrunāto vārdu "raudāšana" skaņas klipā. Tā ir daļa no centieniem mācīt mākslīgo intelektu, kā saprast jēdzienus, kurus cilvēkiem nav grūti apgūt, bet kurus datoriem ir grūti aptvert.

"Izplatītā mācību paradigma, uzraudzīta mācīšanās, darbojas labi, ja jums ir datu kopas, kas ir labi aprakstītas un pilnīgas," AI eksperts Fils Vinders stāstīja Lifewire e-pasta intervijā. "Diemžēl datu kopas reti ir pilnīgas, jo reālajā pasaulē ir slikts ieradums parādīt jaunas situācijas."

Viedāks AI

Datoriem ir grūti izdomāt ikdienas scenārijus, jo tiem ir jāapkopo dati, nevis skaņa un attēli kā cilvēkiem. Kad iekārta "redz" fotoattēlu, tai ir jāiekodē šis fotoattēls datos, ko tā var izmantot, lai veiktu tādu uzdevumu kā attēlu klasifikācija. AI var iestrēgt, ja ievades dati ir dažādos formātos, piemēram, videoklipi, audio klipi un attēli.

"Šeit galvenais izaicinājums ir, kā mašīna var saskaņot šīs dažādās modalitātes? Mums, cilvēkiem, tas ir viegli," sacīja Aleksandrs Liu, MIT pētnieks un pirmais raksta autors par šo tēmu. ziņu izlaidums. "Mēs redzam automašīnu un pēc tam dzirdam garām braucošas automašīnas skaņu, un mēs zinām, ka tas ir viens un tas pats. Taču mašīnmācībai tas nav tik vienkārši."

Liu komanda izstrādāja mākslīgā intelekta paņēmienu, kas, viņuprāt, mācās attēlot datus, lai uztvertu jēdzienus, kas tiek koplietoti starp vizuālajiem un audio datiem. Izmantojot šīs zināšanas, viņu mašīnmācības modelis var noteikt, kur videoklipā notiek konkrēta darbība, un atzīmēt to.

Jaunais modelis ņem neapstrādātus datus, piemēram, videoklipus un tiem atbilstošos teksta parakstus, un kodē tos, izvelkot funkcijas vai novērojumus par objektiem un darbībām videoklipā. Pēc tam tas kartē šos datu punktus režģī, kas pazīstams kā iegulšanas vieta. Modelis apvieno līdzīgus datus kā vienus punktus režģī; katrs no šiem datu punktiem jeb vektoriem ir attēlots ar atsevišķu vārdu.

Piemēram, videoklips, kurā redzama žonglējoša persona, var tikt kartēts ar vektoru ar apzīmējumu "žonglēšana".

Pētnieki izstrādāja modeli tā, lai vektoru marķēšanai varētu izmantot tikai 1000 vārdu. Modelis var izlemt, kuras darbības vai jēdzienus tas vēlas iekodēt vienā vektorā, taču tas var izmantot tikai 1000 vektorus. Modelis izvēlas vārdus, kas, viņaprāt, vislabāk atspoguļo datus.

"Ja ir video par cūkām, modelis var piešķirt vārdu "cūka" kādam no 1000 vektoriem. Pēc tam, ja modelis audio klipā dzird kādu sakām vārdu "cūka", tai joprojām vajadzētu izmantot to pašu vektoru, lai to kodētu," skaidroja Liu.

Jūsu videoklipi, atšifrēti

Labākas marķēšanas sistēmas, piemēram, MIT izstrādātās, varētu palīdzēt samazināt neobjektivitāti mākslīgajā intelektā, e-pasta intervijā Lifewire sacīja Marians Bešedess, biometrijas uzņēmuma Innovatrics pētniecības un izstrādes vadītājs. Beszedes ierosināja, ka datu nozare var aplūkot AI sistēmas no ražošanas procesa viedokļa.

"Sistēmas pieņem neapstrādātus datus kā ievadi (izejvielas), tos iepriekš apstrādā, uzņem, pieņem lēmumus vai prognozes un izvada analīzi (gatavās preces)," sacīja Beszedes. "Šo procesa plūsmu mēs saucam par "datu rūpnīcu", un, tāpat kā citiem ražošanas procesiem, tai ir jābūt pakļautai kvalitātes kontrolei. Datu nozarei AI neobjektivitāte ir jāuztver kā kvalitātes problēma.

"No patērētāja viedokļa nepareizi marķēti dati apgrūtina, piemēram, konkrētu attēlu/video meklēšanu tiešsaistē," piebilda Beszedes. "Ar pareizi izstrādātu mākslīgo intelektu jūs varat veikt marķēšanu automātiski, daudz ātrāk un neitrālāk nekā ar manuālu marķēšanu."

Image
Image

Bet MIT modelim joprojām ir daži ierobežojumi. Pirmkārt, viņu pētījumi koncentrējās uz datiem no diviem avotiem vienlaikus, bet reālajā pasaulē cilvēki vienlaikus sastopas ar dažāda veida informāciju, sacīja Liu

"Un mēs zinām, ka pie šāda veida datu kopas darbojas 1000 vārdu, taču mēs nezinām, vai to var vispārināt līdz reālai problēmai," piebilda Liu.

MIT pētnieki saka, ka viņu jaunā tehnika pārspēj daudzus līdzīgus modeļus. Ja AI var apmācīt saprast videoklipus, iespējams, varēsit neskatīties drauga atvaļinājuma videoklipus un tā vietā saņemt datora ģenerētu pārskatu.

Ieteicams: