PDF fitxategi batean dauden testuak ezagutzea linean.


Ezin da beti PDF fitxategi batetik testua ohiko kopia erabiliz ateratzea. Sarritan dokumentu horien orrialdeak beren paper bertsioen eskaneatutako edukia da. Fitxategi horiek testu-datuak erabat aldatzeko bihurtzeko, karaktere-ezagutze optikoaren (OCR) funtzioarekin programa bereziak erabiltzen dira.

Soluzio horiek oso zaila da aplikatzea eta, ondorioz, diru asko kostatzen da. PDFarekin testua modu erregularrean aitortu behar baduzu, programa egokia erosi behar da. Kasu arraroetan, logikoa litzateke antzeko funtzioak erabilgarri dauden lineako zerbitzuetako bat erabiltzea.

Nola onartu testua PDF bidezko konektatuta

Jakina, OCR lineako zerbitzuen funtzioen multzoa maizago dago mahaigainen irtenbide guztiekin. Hala ere, baliabide horiekin lan egin dezakezu, dohainik edo zenbateko nominalarekin. Garrantzitsua da dagokion web aplikazioek beren zeregin nagusia aurre egitea, hots, testu-aitorpena ere.

1 metodoa: ABBYY FineReader Online

Zerbitzuen garapeneko enpresak dokumentu optikoen aitorpenaren alorrean liderra da. Windows eta Mac-eko ABBYY FineReader PDFa testura bihurtzeko eta harekin lan egiteko irtenbide indartsua da.

Programa honen alderdia webeko funtzionaltasuna baino txikiagoa da. Hala ere, zerbitzuak eskaneatzea eta argazkiak atera ditzake 190 hizkuntzatan baino gehiagotan. PDF fitxategiak Word, Excel eta abarretan dokumentu bihurtzea onartzen du.

ABBYY FineReader Online lineako zerbitzua

  1. Tresna honekin hasi aurretik, sortu kontu bat webgunean edo hasi saioa zure Facebook, Google edo Microsoft kontuarekin.

    Saio-hasierako leihora joateko, egin klik botoian. "Login" goiko menuko barra.
  2. Saioa hasi ondoren, inportatu nahi duzun PDF dokumentua FineReader-en botoia erabiliz "Kargatu fitxategiak".

    Ondoren, egin klik "Hautatu orri zenbakiak" eta zehaztu nahi duzun tartea testu onarpena egiteko.
  3. Ondoren, hautatu dokumentuan dauden hizkuntzak, sortutako fitxategiaren formatua eta egin klik botoian "Ezagutu".
  4. Izapidetu ondoren, iraupena dokumentuaren tamainaren araberakoa izango da. Amaitutako fitxategia testu datuekin deskargatu ahal izango duzu, besterik gabe, bere izenean klik eginda.

    Edo esportatu erabilgarri dauden hodei zerbitzuetako batera.

Zerbitzua irudien eta PDF fitxategien testu-ezagutze metodo algoritmo egokienak bereizten ditu. Baina, zoritxarrez, erabilpen librea hilero bost orrialde baino gehiagotara mugatzen da. Dokumentu handiagoekin lan egiteko, urtebeteko harpidetza erosi behar duzu.

Hala ere, oso gutxitan OCR funtzioa behar bada, ABBYY FineReader Online aukera bikaina da PDF fitxategi txikietarako testua ateratzeko.

2. metodoa: doako lineako OCR

Testu digitalizatzeko zerbitzu erraz eta erosoa. Erregistroa beharrik gabe, baliabideari esker, 15 PDF orri osoko orduak ezagutuko dituzu. Lineako OCR doako dokumentuak 46 hizkuntzatan egiten ditu eta baimenik gabe hiru testu esportazio formatuetan onartzen da: DOCX, XLSX eta TXT.

Erregistratzen denean, erabiltzaileak orrialde anitzeko dokumentuak prozesatu ditzake, baina orri hauen doako 50 unitateetara mugatuta dago.

Lineako OCR lineako zerbitzua

  1. PDFko testua "gonbidatu" gisa onartzeko, baliabidearen baimenik gabe, erabili dagokion inprimakia guneko orri nagusian.

    Hautatu nahi duzun dokumentua botoia erabiliz "Fitxategia", zehaztu testu hizkuntza nagusia, irteerako formatua, eta itxaron fitxategia kargatu eta sakatu "Bihurtu".
  2. Digitalizazio prozesuaren amaieran, sakatu "Deskargatu irteera fitxategia" amaitutako dokumentua ordenagailuaren testuarekin gordetzeko.

Baimendutako erabiltzaileentzat, ekintzen sekuentzia desberdina da.

  1. Erabili botoia "Izen ematea" edo "Login" goialdeko menuko barra, hurrenez hurren, sortu kontu bat Free Online OCR edo sartu.
  2. Onarpenaren panelean baimena egin ondoren, sakatu tekla «CTRL», hautatu iturburuko dokumentuko bi hizkuntzatan emandako zerrendatik.
  3. Zehaztu testua PDFetik ateratzeko beste aukera batzuk eta egin klik botoian. "Hautatu fitxategia" dokumentua zerbitzuan kargatzeko.

    Ondoren, aitorpena hasteko, sakatu "Bihurtu".
  4. Dokumentua prozesatu ondoren, egin klik dagokion zutabean irteerako fitxategiaren izenarekin duen estekan.

    Aitortzearen emaitza berehala gordetzen da zure ordenagailuaren memorian.

PDF dokumentu txiki batetik testua erauzi behar baduzu, goian deskribatutako tresna erabil dezakezu. Fitxategi handiekin lan egiteko, sinadura gehiago erosi beharko dituzu Free Online OCRn edo beste irtenbide batzuetara jotzea.

3. metodoa: NewOCR

Erabat doako OCR-zerbitzua, ia edozein dokumentu grafiko eta elektronikoetatik testua ateratzeko DjVu eta PDF bezalako PDF bidez. Baliabideak ez ditu inongo ezagutzen fitxategien tamainari eta kopuruari inolako mugarik inposatzen, ez du izena emateak eskatzen, eta erlazionatutako funtzio ugari eskaintzen ditu.

NewOCR-ek 106 hizkuntzak onartzen ditu eta kalitate baxuko dokumentuen bilaketak behar bezala kudeatzeko gai da. Fitxategiaren orrialdean testu-hautematea eskuz hautatu daiteke area.

NewOCR lineako zerbitzua

  1. Beraz, baliabidearekin berehala lan egin dezakezu, beharrezkoak ez diren ekintza egin beharrik gabe.

    Orrialde nagusian zuzenean dokumentua gunera inportatzeko inprimakia dago. Fitxategi bat NewOCRra kargatzeko, erabili botoia "Hautatu fitxategia" atalean "Hautatu fitxategia". Ondoren, eremuan "Onarpen hizkuntza (k)" hautatu iturburuko dokumentuaren hizkuntza bat edo gehiago, eta sakatu "Igo + OCR".
  2. Ezarri zure lehentasunezko ezagutzaren ezarpenak, hautatu nahi duzun orria testua ateratzeko eta sakatu botoia. «OCR».
  3. Joan pixka bat behera eta aurkitu botoia. «Jaitsi».

    Egin klik gainean eta goitibeherako zerrendan hautatu behar den dokumentuaren formatua deskargatzeko. Ondoren, ateratako testuarekin amaitutako fitxategia ordenagailuan deskargatuko da.

Tresna egokia da eta pertsonaia guztiek kalitate handiko irizpideak ezagutzen dituzte. Hala ere, inportatutako PDF dokumentuaren orri bakoitza modu independentean abiarazi behar da eta aparteko fitxategi batean bistaratuko da. Jakina, zuk onarpenaren emaitzak arbelean kopiatu eta berehala besteekin batzea egin dezakezu.

Hala ere, aurreko ñabardurak kontuan hartuta, NewOCR erabiliz testu kopuru handia oso zaila da ateratzea. Fitxategi txiki berdinekin zerbitzu batek "bang batekin" aurre egiten du.

4 metodoa: OCR.Space

Testu digitalizatzeko baliabide erraz eta ulergarria PDF dokumentuak ezagutzea eta emaitza TXT fitxategian ireki ditzakezu. Orrialde kopuruari buruzko mugarik ez dago. Muga bakarra da sarrerako dokumentuaren tamaina 5 megabyte baino gehiago ez izatea.

OCR.Space lineako zerbitzua

  1. Ez da beharrezkoa tresnarekin lan egiteko erregistratu.

    Egin klik esteka gainean eta igo ordenagailuko PDF dokumentura ordenagailutik botoia erabiliz "Hautatu fitxategia" edo saretik - erreferentzia bidez.
  2. Goitibeherako zerrendan "Aukeratu OCR hizkuntza" hautatu inportatutako dokumentuaren hizkuntza.

    Ondoren, hasi testu-ezagutze prozesua botoian klik eginez. "Hasi OCR!".
  3. Fitxategiaren tratamenduaren amaieran, ikus emaitza "OCR'ed Result" eta egin klik «Jaitsi»amaitutako TXT dokumentua deskargatzeko.

PDFa testua atera behar baduzu eta azken formatua ez da oso garrantzitsua, OCR.Space aukera ona da. Dokumentu bakarra "elebakarra" izan behar da, zerbitzuan bi hizkuntzatan edo gehiagotan aitortzea ez da ematen.

Ikusi ere: Doako analogiak FineReader

Artikuluan aurkeztutako lineako tresnak ebaluatuz, ABBYYko FineReader Online-ek OCR funtzioak zehaztasunez eta zehaztasun handiagoz kudeatzen duela esan behar da. Testuaren aintzatespenaren zehaztasun maximoa garrantzitsua bada, hobe da kontuan hartu aukera hau. Baina ordaintzeko, ziur aski, beharrezkoa da.

Dokumentu txikiak digitalizatu behar badituzu eta zerbitzuan zuk akatsak zuzentzeko prest zaude, NewOCR, OCR.Space edo Free Online OCR erabiltzea komeni da.