Kas ir optiskā rakstzīmju atpazīšana (OCR)?

Satura rādītājs:

Kas ir optiskā rakstzīmju atpazīšana (OCR)?
Kas ir optiskā rakstzīmju atpazīšana (OCR)?
Anonim

Optiskā rakstzīmju atpazīšana (OCR) attiecas uz programmatūru, kas izveido drukāta, drukāta vai ar roku rakstīta dokumenta digitālo versiju, ko datori var lasīt bez nepieciešamības manuāli rakstīt vai ievadīt tekstu. OCR parasti izmanto skenētiem dokumentiem PDF formātā, taču attēla failā var izveidot arī datorlasāmu teksta versiju.

Kas ir OCR

OCR, ko dēvē arī par teksta atpazīšanu, ir programmatūras tehnoloģija, kas pārveido tādas rakstzīmes kā ciparus, burtus un pieturzīmes (sauktas arī par glifiem) no drukātiem vai rakstītiem dokumentiem elektroniskā formā, ko datori un datori var vieglāk atpazīt un lasīt. citas programmatūras programmas. Dažas OCR programmas to dara, kad dokuments tiek skenēts vai fotografēts ar digitālo kameru, savukārt citas var izmantot šo procesu dokumentiem, kas iepriekš ir skenēti vai fotografēti bez OCR. OCR ļauj lietotājiem meklēt PDF dokumentos, rediģēt tekstu un atkārtoti formatēt dokumentus.

Image
Image
Vēsturiskas avīzes skenēšana, izmantojot OCR programmatūru.

Getty Images

Kam tiek izmantota OCR?

Ātrās ikdienas skenēšanas vajadzībām OCR var nebūt liela problēma. Ja veicat lielu skenēšanas apjomu, iespēja meklēt PDF failos, lai atrastu tieši vajadzīgo, var ietaupīt diezgan daudz laika un padarīt OCR funkcionalitāti skenera programmā svarīgāku. Šeit ir dažas citas lietas, ar kurām OCR palīdz:

  • Automatizēta datu apstrāde un datu ievade (Piemērs: Darba pretendentu izsekošanas sistēmas CV).
  • Padarot skenētās grāmatas meklējamas.
  • Ar roku rakstītu skenējumu pārveidošana datorlasāmā tekstā.
  • Padarot dokumentus vieglāk lietojamus lasītāju programmām, kas palīdz lietotājiem ar redzes traucējumiem.
  • Vēsturisku dokumentu un laikrakstu saglabāšana, vienlaikus padarot tos meklējamus.
  • Datu ieguve un pārsūtīšana uz grāmatvedības programmām (Piemērs: kvītis un rēķini).
  • Dokumentu indeksēšana izmantošanai meklētājprogrammās.
  • Vadītāja numura zīmju atpazīšana, izmantojot ātruma kameru un sarkanās gaismas kameru programmatūru.
  • Runas sintezatori cilvēkiem, kuri neprot runāt – teorētiskais fiziķis Stīvens Hokings, iespējams, ir vispazīstamākais runas sintezatoru programmas lietotājs.

Bottom Line

Kāpēc gan ne tikai nofotografēt, vai ne? Jo jūs nevarētu neko rediģēt vai meklēt tekstu, jo tas būtu tikai attēls. Dokumenta skenēšana un OCR programmatūras palaišana var pārvērst šo failu par kaut ko, ko varat rediģēt un meklēt.

OCR vēsture

Lai gan agrākā teksta atpazīšanas izmantošana ir datēta ar 1914. gadu, ar OCR saistīto tehnoloģiju plašā attīstība un izmantošana nopietni sākās 1950. gados, jo īpaši, izveidojot ļoti vienkāršotus fontus, kurus bija vieglāk pārveidot digitālā formātā. lasāms teksts. Pirmo no šiem vienkāršotajiem fontiem izveidoja Deivids Šepards un plaši pazīstams kā OCR-7B. OCR-7B joprojām tiek izmantots finanšu nozarē standarta fontam, ko izmanto kredītkartēs un debetkartēs. Sešdesmitajos gados pasta pakalpojumi vairākās valstīs sāka izmantot OCR tehnoloģiju, lai ievērojami paātrinātu pasta šķirošanu, tostarp ASV, Lielbritānijā, Kanādā un Vācijā. OCR joprojām ir galvenā tehnoloģija, ko izmanto pasta šķirošanai pasta pakalpojumiem visā pasaulē. 2000. gadā galvenās zināšanas par OCR tehnoloģijas ierobežojumiem un iespējām tika izmantotas, lai izstrādātu CAPTCHA programmas, ko izmanto, lai apturētu robotprogrammatūras un surogātpasta izplatītājus.

Gadu desmitu laikā OCR ir kļuvis precīzāks un sarežģītāks, pateicoties sasniegumiem saistītajās tehnoloģiju jomās, piemēram, mākslīgajā intelektā, mašīnmācībā un datorredzē. Mūsdienās OCR programmatūra izmanto modeļu atpazīšanu, funkciju noteikšanu un teksta ieguvi, lai pārveidotu dokumentus ātrāk un precīzāk nekā jebkad agrāk.

FAQ

    Kā skenēt dokumentus ar tālruni vai planšetdatoru?

    IOS ierīcē atveriet lietotni Notes un izveidojiet jaunu piezīmi. Atveriet kameru un pēc tam pieskarieties Skenēt dokumentus. Android ierīcē atveriet Google disku un atlasiet Plus (+), pēc tam pieskarieties Scan, lai skenētu dokumentējiet ar savu tālruni.

    Kā lietot OCR programmā Adobe Acrobat?

    Atveriet PDF failu, kurā ir skenēts attēls, pēc tam atlasiet Tools > Rediģēt PDF. Programma Acrobat automātiski lietos OCR, lai jūs varētu rediģēt tekstu. Vienkārši atlasiet, kur vēlaties veikt labojumus, un sāciet rakstīt.

    Kāda ir atšķirība starp OCR un OMR?

    Optiskā zīmju atpazīšana (OMR) ir programmatūra, kas nosaka zīmes uz papīra, parasti uz burbuļlapas. OMR izmanto eksāmenu, aptauju, anketu un pat vēlēšanu rezultātu apstrādei. Atšķirībā no OCR, OMR nevar atšifrēt atzīmes lapā, bet tikai pārbauda, vai tās ir.

Ieteicams: