Eskaneatu eta OCR

Arratsalde on

Ziurrenik, gutako bakoitzak zereginari aurre egin behar izan dio paper dokumentu bat modu elektronikoan itzuli behar duzunean. Hori bereziki beharrezkoa da ikasketak egiten, dokumentazioarekin lan egiten dutenak, hiztegi elektronikoak erabiliz itzultzen dituztenak, eta abar.

Artikulu honetan prozesu honen oinarriak partekatu nahi nituzke. Oro har, eskaneatzea eta testu bidezko aitorpena denbora askoz ere kontsumitzen da; izan ere, eragiketa gehienak eskuz egin behar dira. Jakin nahi dugu zer, nola eta zergatik.

Denek ez dute berehala ulertzen gauza bat. Eskaneatu ondoren (eskanerreko orri guztiak egokituz) BMP, JPG, PNG, GIF formatuaren irudiak izango dituzu (beste formatu batzuk ere egon daitezke). Beraz, argazki honetatik testua eskuratu behar duzu - prozedura hau aitorpena deitzen zaio. Ordena honetan, azpian aurkeztuko da.

Edukia

  • 1. Zer behar da eskaneatze eta aitorpenerako?
  • 2. Testu eskaneatze aukerak
  • 3. Dokumentuaren testua ezagutzea
    • 3.1 Testua
    • 3.2 Argazkiak
    • 3.3 Taulak
    • 3.4 Beharrezko elementuak
  • 4. PDF / DJVU fitxategiak ezagutzea
  • 5. Laneko emaitzak egiaztatzen eta aurrezten

1. Zer behar da eskaneatze eta aitorpenerako?

1) Eskanerra

Inprimatutako dokumentuak testu modura itzultzeko, lehenik eta behin eskaner bat behar duzu eta, horrenbestez, bertako programak eta bertako kontrolatzaileak behar dituzu. Haiekin dokumentua eskaneatu eta prozesatu ahal izateko gorde ditzakezu.

Beste analogia batzuk erabil ditzakezu, baina eskanerra eskanerarekin batera iritsi den softwareak azkarrago funtzionatzen du eta aukera gehiago ditu.

Zure eskaner mota motaren arabera, lanaren abiadura nabarmen alda daiteke. Orrialde batetik irudi bat 10 segundotan lor dezaketen eskanerrak daude, 30 segundotan lortuko dutenak. 200-300 orriko liburu bat eskaneatzen baduzu, ez da zaila kalkulatzea zenbat aldiz denboran aldatuko den?

2) Aitortzeko programa

Gure artikuluan, lana eskainiko dizuet eskaneatzeko eta aitortzeko edozein programa hoberenetako batean - ABBYY FineReader. delako programa ordaintzen da, eta berehala beste esteka bat emango dut - Cunei inprimakia doan. Egia esan, ez nuke alderatu, FineReaderrek alderdi guztietan irabazi zuenez, dena probatzea gomendatzen dut.

ABBYY FineReader 11

Gune ofiziala: //www.abbyy.ru/

Bere mota horretako programa onenetako bat. Irudian testua hautemateko diseinatuta dago. Aukera eta ezaugarri asko eraiki zituen. Letra tipoak analizatu ditzake, eskuz idatzitako bertsioak ere onartzen ditu (nahiz eta ez dut pertsonalki saiatu, uste dut ona da eskuz idatzitako bertsioa ia ez dakizu eskuzko kaligrafia ezin hobea izan ezean). Jarraian azalduko da berarekin lan egiteari buruzko informazio gehiago. Hemen ere aipatu dugu 11 artikuluko bertsioaren lana estaliko dela.

Oro har, ABBYY FineReader-en bertsio desberdinak ez dira oso desberdinak. Beste gauza batean erraz egin dezakezu. Desberdintasun nagusiak erosotasuna, programa abiadura eta bere gaitasunetan izan daitezke. Adibidez, aurreko bertsioak PDF dokumentu bat eta DJVU irekitzen ...

3) Eskaneatzeko dokumentuak

Bai, beraz, hemen erabaki nuen dokumentuak zutabe bereizi batean ateratzea. Kasu gehienetan, eskaneatu testu liburuak, egunkariak, artikuluak, aldizkariak, etab. Ie liburuak eta eskatutako literatura. Zer egiten dut? Esperientzia pertsonaletik, eskaneatu nahi dudan asko esan dezaket - agian sarean egon daiteke! Zenbat aldiz pertsonalki aurreztu dut denbora liburu bat edo beste bat eskaneatu dut sarean. Testua dokumentuan sartu eta berarekin jarraitu behar nuen.

Aholku sinple honen bidez - zerbait eskaneatu aurretik, egiaztatu norbaitek jadanik eskaneatu badu eta ez duzu zure denbora galdu behar.

2. Testu eskaneatze aukerak

Hemen, ez ditut zure eskanerentzako kontrolatzaileei buruz hitz egingo, bertako programak, eskaner eredu guztiak ezberdinak baitira, softwarea desberdina baita nonahi eta asmakuntza eta, are gehiago, argi eta garbi erakusten du nola burutzen den eragiketa errealistak.

Baina eskaner guztiek zure lanaren abiadura eta kalitateari eragin diezaieketen ezarpen berdinak dituzte. Hemen buruz hitz egingo dut hemen. Ordena zerrendatuko dut.

1) Eskaneatze kalitatea - DPI

Lehenik eta behin, ezarri eskaneatze kalitatea 300 DPI baino txikiagoa ez diren aukeretan. Komenigarria da, are gehiago, pixka bat gehiago jartzea, ahal bada. Zenbat eta handiagoa den DPI adierazlea, argiagoa izango da zure irudia agertuko dela, eta, beraz, prozesamendu gehiago azkarrago egingo da. Gainera, zenbat eta handiagoa izan eskaneatze kalitatea - beranduago zuzendu behar dituzun akatsak gutxiago.

Aukera onena eskaintzen du, normalean 300-400 DPI.

2) kromatizazioa

Parametro honek eskaneatze denbora osoan eragiten du (bide batez, DPIk ere eragiten du, baina hain indartsuak dira, eta erabiltzaileak balio handiak ezartzen dituenean bakarrik daude).

Normalean hiru modu daude:

- zuri-beltza (testu arruntarentzako ezin hobea);

- gris (taulak eta irudiak testu egokia);

- Kolorea (koloretako aldizkarietarako, liburuak, orokorrean dokumentuak, kolorea garrantzitsua den lekuan).

Normalean eskaneatze-denbora kolorearen aukeren araberakoa da. Azken finean, dokumentu handi bat baduzu, orrialde osoan 5-10 segundoko gehigarriek denbora duina izango dute ...

3) Argazkiak

Dokumentua eskaneatzeaz gain, argazki bat ere lor dezakezu. Oro har, kasu honetan beste arazo batzuk izango dituzu: irudiaren distortsioa, lausotzea. Horregatik, jaso daitekeen testu luzeagoa editatzea eta prozesatzea eska dezake. Pertsonalki, ez dut negozio honetarako kamerak erabiltzea gomendatzen.

Garrantzitsua da dokumentu horien guztiek ez dutela onartuko eskaneatze kalitatea oso baxua izan daiteke ...

3. Dokumentuaren testua ezagutzea

Eskerrak diren orrialdeak eskaneatu dituzula suposatuko dugu. Gehienetan formatuak dira: tif, bmb, jpg, png. Oro har, ABBYY FineReader-entzat, hau ez da oso garrantzitsua ...

Argazkia ABBYY FineReader-en irekitzean, programan, oro har, makinan eremuak hautatzen hasten dira eta horiek ezagutzen ditu. Batzuetan oker egiten du. Horretarako, nahi dituzun eremuen hautapena eskuz aztertuko dugu.

Garrantzitsua da! Denek ez dute berehala ulertzen programa batean dokumentu bat ireki ondoren, iturriaren dokumentua ezkerraldean bistaratzen da leihoan, eta bertan, eremu desberdinak nabarmenduko dituzu. "Onarpena" botoian klik egin eta gero, eskuinaldean dagoen leihoaren programa amaitutako testua ekarriko dizu. Aitortu ondoren, bide batez, komeni da FineReader beraren erroreen testua egiaztatzea.

3.1 Testua

Eremu hau testua nabarmentzeko erabiltzen da. Irudiak eta taulak baztertu beharko lirateke. Letra tipo arraroak eta ezohikoak eskuz sartu behar dira ...

Testu-eremu bat hautatzeko, arreta jarri FineReader-en goialdeko panelean. "T" botoia dago (ikusi. Beheko pantaila-argazkia, saguaren erakuslea botoi honetan dago). Egin klik gainean eta, ondoren, beheko irudian hautatu testua kokatuta dagoen eremu angeluzuzena. Bide batez, kasu batzuetan testu blokeak sortu behar dira 2-3, eta batzuetan 10-12 orrialde bakoitzeko, delako Testu formatua desberdina izan daiteke eta ez hautatu eremu osoa laukizuzen batekin.

Garrantzitsua da irudiak ez direla testu-eremuan erori. Etorkizunean, denbora asko aurreztuko dizu ...

3.2 Argazkiak

Kalitate txarra edo ohiz kanpoko letra-tipoengatik ezagutzen ez diren irudiak eta horiek ezagutzeko modua erabiltzen da.

Beheko pantailan, saguaren erakuslea "argazkia" eremua hautatzeko erabilitako botoian kokatzen da. Bide batez, orri honetako zatiak erabat hautatuta egon daitezke arlo honetan, eta FineReader-ek dokumentuan irudia normal gisa txertatuko du. ie "ergelak" kopiatuko ...

Normalean, eremu hau eskaneatu gaizki dagoen taulak nabarmentzeko erabiltzen da, testu eta letra ez-estandarrak nabarmentzeko, beraien irudiak.

3.3 Taulak

Beheko irudia taulak nabarmentzeko botoia erakusten du. Oro har, oso gutxitan erabiltzen dut. Egia esan, mahaiko lerro bakoitza nahiko modu arruntean marraztu behar duzula eta programak nola eta nola erakutsi erakutsi behar duzu. Mahaia txikia bada eta kalitate onekoa ez bada, "irudia" eremua erabiltzea gomendatzen dut horretarako. Hortaz, denbora asko aurrezten da eta, ondoren, azkar egin dezakezu taula bat Word erabiliz argazki baten arabera.

3.4 Beharrezko elementuak

Garrantzitsua da ohartu. Batzuetan, orrialdean beharrezkoak ez diren elementuak daude, testua zaila den jakitea edo ez duzu nahi duzun eremua aukeratzen. "Erasas" erabiliz kendu egin daitezke.

Horretarako, joan irudien edizio modua.

Hautatu ezabatzeko tresna eta hautatu nahi ez duzun area. Ezabatu egingo da eta bere lekuan paper orri zuria izango da.

Bide batez, aukera hori ahalik eta gehien erabiltzea gomendatzen dut. Saiatu hautatutako testu eremu guztiak, testu zati bat behar ez baduzu edo alferrikako puntuak, lausotasunak, distortsioak badituzu - ezabatu ezabatu batekin. Onarpen horri esker azkarragoa izango da!

4. PDF / DJVU fitxategiak ezagutzea

Oro har, aitorpen formatu hau ez da besteen artean desberdina izango da. Irudietan bezala lan egin dezakezu. Programa bakarra ez da bertsio zaharra izan behar, PDF / DJVU fitxategiak irekitzen ez badituzu - eguneratu bertsioa 11era.

Aholku txiki bat. FineReader-en dokumentua ireki ondoren, dokumentua automatikoki ezagutzen hasiko da. PDF / DJVU fitxategietan sarritan, orriaren eremu zehatz bat ez da beharrezkoa dokumentu osoan! Orrialde guztietan eremu hori kentzeko, egin hau:

1. Joan irudien edizio atalera.

2. Gaitu "mozketa" aukera.

3. Hautatu orri guztietan behar duzun eremua.

4. Egin klik orrialde guztietan aplikatzeko eta moztu.

5. Laneko emaitzak egiaztatzen eta aurrezten

Badirudi arazoak egon daitezkeela eremu guztietan hauteman zitezkeela eta, ondoren, onartuta zegoen - eraman eta gorde ... Ez zegoen han!

Lehenik eta behin, dokumentua egiaztatu behar dugu!

Aktibatzeko, aitortu ondoren, eskuineko leihoan "egiaztatzeko" botoia izango da, beheko pantaila-argazkia ikusi. Klikatu ondoren, FineReader programak automatikoki erakutsiko dizu programa horrek akatsak dituenak eta ezin du sinbolo zehatzik zehaztu. Aukeratu beharko duzu, edo programaren iritziarekin ados, edo zure pertsonaia sartuko duzu.

Bide batez, kasuen erdia, gutxi gorabehera, programak eskuineko hitza eskainiko dizu, sagua erabili nahi duzun aukera aukeratzeko.

Bigarrenik, egiaztatutakoan, zure lanaren emaitza gorde duzun formatua aukeratu behar duzu.

Hemen FineReader-ek erabateko buelta emango dizu: Word-en informazioa bakarka transferi dezakezu, eta dozenaka formatuetan gorde dezakezu. Baina beste alderdi garrantzitsu bat nabarmendu nahi nuke. Aukeratzen duzun formatua edozein dela ere, garrantzitsua da kopia mota aukeratzea! Demagun aukera interesgarrienak ...

Kopia zehatza

Onartutako dokumentuan orrialdean hautatutako eremu guztiak bat-batekoak izango dira iturburu dokumentuan. Aukera oso komenigarria da testua formateatzea galtzen ez baduzu garrantzitsua. Bide batez, letra-tipoak jatorrizkoaren antzekoak izango dira. Aukera honekin dokumentua Word-era transferitzeko gomendatzen dizuet, lan gehiago jarraitzeko.

Editable copy

Aukera hau ona da dagoeneko testuaren bertsio formateatua lortzen duzulako. ie Jatorrizko dokumentuan egon daitekeen "kilometroa" koskatzea - ​​ez duzu betetzen. Aukera erabilgarria informazioa nabarmen editatu ahal izango duzu.

Egia da, ez zenuke aukeratu behar diseinuaren, letra-tipoen, kosketen estiloa zaintzea garrantzitsua bada. Batzuetan, onarpena oso arrakastatsua ez bada - zure dokumentua "okertzea" izan daiteke aldaketaren formatua dela eta. Kasu honetan, komenigarria da kopia zehatza aukeratzea.

Testu arrunta

Orrialdetik soilik behar duten testua beste edozer aukeretarako. Irudi eta taularik gabeko dokumentuetarako egokia.

Honek dokumentu eskaneatze eta aintzatespen artikulua amaitzen du. Aholku erraz horien laguntzaz, zure arazoak konpontzen ditudala espero dut ...

Zorte on!