Skenovanie a rozpoznávanie textu

Dobré popoludnie.

Pravdepodobne každý z nás čelí úlohe, keď je potrebné preložiť papierový dokument do elektronickej podoby. Najmä je potrebné robiť tých, ktorí študujú, pracuje s dokumentáciou, prekladá texty pomocou elektronických slovníkov atď.

V tomto článku by som rád zdieľa niektoré základy tohto procesu. Vo všeobecnosti je skenovanie a rozpoznávanie textu dosť namáhavé, pretože väčšina operácií sa musí robiť manuálne. Budeme sa snažiť pochopiť kroky, ktoré, ako a prečo.

Nie všetci okamžite chápu jednu vec. Po skenovaní (zmenšenie všetkých listov na skeneri) budete mať obrázky formátu BMP, JPG, PNG, GIF (môžu existovať aj iné formáty). Takže s týmto obrázkom potrebujete získať text - tento postup sa nazýva rozpoznávanie. V tomto poradí a bude vyhlásenie nižšie.

obsah

  • 1 1. Čo potrebujem skenovať a rozpoznať?
  • 2 2. Možnosti skenovania textu
  • 3 3. Rozpoznávanie textu dokumentu
    • 3.1 3.1 Text
    • 3.2 3.2 Obrázky
    • 3.3 3.3 Tabuľky
    • 3.4 3.4 Nepotrebné položky
  • 4 4. Rozpoznávanie súborov PDF / DJVU
  • 5 5. Kontrola chýb a uloženie výsledkov práce

1. Čo potrebujete skenovať a rozpoznať?

1) Skener

Ak chcete preložiť vytlačené dokumenty do textovej podoby, potrebujete skener a podľa toho aj "natívne" programy a ovládače, ktoré s ňou prichádzajú. Pomocou nich môžete skenovať dokument a uložiť ho na ďalšie spracovanie.

Môžete použiť iné analógové, ale softvér dodávaný so skenerom v súprave obvykle pracuje rýchlejšie a má viac možností.

V závislosti od toho, aký typ skenera máte - rýchlosť práce sa môže značne líšiť. K dispozícii sú skenery, ktoré dokážu získať obraz z hárku za 10 sekúnd. Niektoré z nich budú prijaté za 30 sekúnd. Ak skenujete knihu na 200-300 listov - myslím, že nie je ťažké vypočítať, koľkokrát bude časový rozdiel?

2) Program rozpoznávania

V tomto článku vám ukážem prácu v jednom z najlepších programov na skenovanie a rozpoznanie všetkých dokumentov - ABBYY FineReader. pretože program je zaplatený, potom okamžite dám odkaz na druhý - jeho voľný analógový formulár Cunei. Nechcel by som ich porovnať, vzhľadom na skutočnosť, že FineReader vyhrá vo všetkých ohľadoch, odporúčam to ešte stále skúšať.

Aplikácia ABBYY FineReader 11

Oficiálna webová stránka: http://www.abbyy.ru/

Jeden z najlepších programov tohto druhu. Je určený na rozpoznanie textu na obrázku. Veľa možností a funkcií je zabudovaných. Môže analyzovať veľa písiem, podporuje aj ručne písané verzie (aj keď osobne to neskúšalo, myslím si, že je veľmi nepravdepodobné, že rozpoznáte ručne písané verzie, ak nemáte dokonalý kaligrafický rukopis). Ďalšie podrobnosti o práci s ním budú popísané nižšie. Tu si všimneme, že článok vám povie o práci vo verzii programu 11.

Zvyčajne sa rôzne verzie programu ABBYY FineReader navzájom nelíšia. Môžete ľahko urobiť to isté v druhom. Hlavnými rozdielmi môžu byť pohodlie, rýchlosť programu a jeho schopnosti. Napríklad staršie verzie odmietajú otvárať PDF a DJVU ...

3) Dokumenty na skenovanie

Áno, tak som sa rozhodol urobiť dokumenty v samostatnej kolónke. Vo väčšine prípadov vyhľadajte všetky učebnice, noviny, články, časopisy atď. tie knihy a literatúru, ktorá je požadovaná. Je to to, čo vediem? Z osobnej skúsenosti môžem povedať, že veľa, ktoré chcete skenovať - ​​možno už v sieti existuje! Koľkokrát som osobne ušetril čas, keď som našiel túto alebo tú knihu, ktorá už bola naskenovaná v sieti. Mohol som skopírovať text do dokumentu a pokračovať v práci s ním.

Z tejto jednoduchej rady - predtým, ako skenujete niečo, skontrolujte, či ho niekto už naskenoval a nemusíte strácať čas.

2. Možnosti skenovania textu

Tu nebudem hovoriť o vašich ovládačoch skenera, programoch, ktoré s ňou súviseli, pretože všetky modely skenerov sú iné, softvér sa tiež všade líši a odhaduje a ešte viac, aby ukázal, ako vykonávať operáciu, je nerealistická.

Ale vo všetkých skeneroch sú rovnaké nastavenia, ktoré môžu výrazne ovplyvniť rýchlosť a kvalitu vašej práce. To je o nich práve a tu budeme hovoriť. Zoznamujem ich v poradí.

1) Kvalita skenovania - DPI

Po prvé, kvalita skenovania by mala byť nastavená na minimálne 300 DPI. Odporúča sa dokonca dať viac, ak je to možné. Čím je DPI vyššie, tým jasnejší bude obraz, a preto bude ďalšie spracovanie rýchlejšie. Okrem toho vyššia kvalita skenovania - tým menej chýb budete musieť neskôr opraviť.

Optimálny variant poskytuje zvyčajne 300-400 DPI.

2) Chromaticita

Tento parameter výrazne ovplyvňuje čas skenovania (mimochodom, DPI tiež ovplyvňuje, ale sú také silné a len vtedy, keď používateľ kladie vysoké hodnoty).

K dispozícii sú zvyčajne tri režimy:

- čierna a biela (ideálna pre obyčajný text);

- šedá (vhodné pre text s tabuľkami a obrázkami);

- farba (pre farebné časopisy, knihy, všeobecne, dokumenty, kde je dôležitá farba).

Zvyčajne časovanie skenovania závisí od výberu farby. Koniec koncov, ak máte veľký dokument, dokonca aj ďalšie 5-10 sekúnd na stránke ako celku sa vylieva do slušného času ...

3) Fotografie

Dokument môžete prijať nielen skenovaním, ale aj fotografovaním. V tomto prípade budete mať spravidla niektoré ďalšie problémy: skreslenie obrazu, rozmazané. Z tohto dôvodu sa môže vyžadovať dlhšia ďalšia úprava a spracovanie prijatého textu. Osobne nedoporučujem používať kamery v tomto prípade.

Je dôležité poznamenať, že nie každý takýto dokument bude uznaný; Kvalita snímania môže byť extrémne nízka ...

3. Rozpoznávanie textu dokumentu

Predpokladáme, že ste získali vyhľadávané naskenované stránky. Najčastejšie sú to formáty: tif, bmb, jpg, png. Všeobecne platí, že pre ABBYY FineReader nie je veľmi dôležité ...

Po otvorení obrázkov v aplikácii ABBYY FineReader sa program automaticky spustí pri prideľovaní oblastí a rozpoznávania. Ale niekedy to nerobí správne. Za týmto účelom budeme zvážiť priradenie požadovaných oblastí ručne.

Dôležité! Nie každý hneď pochopí, že po otvorení dokumentu v programe sa zdrojový dokument zobrazí vľavo v okne, v ktorom vyberiete rôzne oblasti. Po kliknutí na tlačidlo "rozpoznávanie" sa program v okne vpravo zobrazí pre vás hotový text. Po rozpoznaní, je vhodné skontrolovať text pre chyby v rovnakom FineReader.

3.1 Text

Táto oblasť slúži na výber textu. Obrazy a tabuľky je potrebné vylúčiť. Zriedkavé a neobvyklé písma budú musieť byť zadané ručne ...

Ak chcete zvýrazniť textovú oblasť, dávajte pozor na panel v hornej časti programu FineReader. Existuje tlačidlo "T" (pozrite si snímku nižšie, ukazovateľ myši sa nachádza iba na tomto tlačidle). Kliknite na ňu a na obrázku nižšie vyberte úhľadne obdĺžnikovú oblasť, v ktorej sa nachádza text. Mimochodom, v niektorých prípadoch je potrebné vytvoriť bloky textu 2-3 a niekedy 10-12 na stránku, pretože Formátovanie textu môže byť odlišné a jeden obdĺžnik neprideľuje celú oblasť.

Je dôležité poznamenať, že textové pole by nemalo získať obrázky! V budúcnosti vám to ušetrí veľa času ...

3.2 Obrázky

Používa sa na zvýraznenie obrázkov a oblastí, ktoré sa ťažko rozpoznávajú v dôsledku nekvalitného alebo neobvyklého písma.

Na obrazovke nižšie sa ukazovateľ myši nachádza na tlačidle, ktoré sa používa na výber oblasti obrázka. Mimochodom, v tejto oblasti môžete vybrať úplne ľubovoľnú časť stránky a FineReader ju vloží do dokumentu neskôr ako bežný obrázok. tj len "hlúpe" kópia ...

Zvyčajne sa táto oblasť používa na zvýraznenie nesprávne naskenovaných tabuliek, zvýraznenie neštandardného textu a písma pre samotné obrázky.

3.3 Tabuľky

Nasledujúci obrázok obrazovky zobrazuje tlačidlo na výber tabuliek. Vo všeobecnosti ju osobne veľmi zriedka používam. Faktom je, že budete musieť rutinne kresliť (v skutočnosti) každý riadok na stole a ukázať, čo a ako programovať. Ak je tabuľka malá a nie je veľmi dobrá kvalita, odporúčam pre tieto účely použiť oblasť "obrázok". To šetrí veľa času a môžete rýchlo vytvoriť tabuľku v programe Word na základe obrázka.

3.4 Nepotrebné položky

Je dôležité poznamenať. Niekedy na stránke sú zbytočné prvky, ktoré narúšajú rozpoznávanie textu, alebo vôbec neumožňujú vybrať požadovanú oblasť. Môžu byť úplne vymazané pomocou gumy.

Ak to chcete urobiť, prejdite do režimu úpravy obrázkov.

Vyberte nástroj "gumu" a vyberte zbytočnú oblasť. Bude vymazaný a na jeho mieste bude biely list papiera.

Mimochodom odporúčam, aby ste túto možnosť používali čo najčastejšie. Vyskúšajte všetky textové oblasti, ktoré ste vyzdvihli, kde nepotrebujete text, alebo existujú zbytočné body, rozmazanosť, skreslenie - vymažte gumu. Vďaka tomuto rozpoznaniu bude rýchlejšie!

4. Rozpoznávanie súborov PDF / DJVU

Vo všeobecnosti sa tento formát rozpoznávania nebude líšiť od ničoho iného - t. Môžete s ním pracovať, rovnako ako aj s obrázkami. Jediné, čo by program nemal byť príliš stará verzia, ak neotvárate súbory PDF / DJVU - aktualizujte verziu na 11.

Malá rada. Po otvorení dokumentu v programe FineReader automaticky začne rozpoznávať dokument. Často v súboroch PDF / DJVU nie je potrebná konkrétna oblasť stránky v celom dokumente! Ak chcete takúto oblasť odstrániť na všetkých stránkach, postupujte takto:

1. Prejdite na sekciu úpravy obrázkov.

2. Zapnite možnosť orezania.

3. Vyberte požadovanú oblasť na všetkých stránkach.

4. Kliknite na aplikovať na všetky stránky a orezanie.

5. Kontrola chýb a uloženie výsledkov práce

Zdá sa, že stále môžu existovať problémy, keď boli všetky oblasti pridelené, potom uznané - vezmite si to a uložte ho ... Nebol tam!

Najprv potrebujete kontrolu dokumentu!

Ak to povolíte, po rozpoznaní v okne vpravo sa zobrazí tlačidlo "check", pozri obrázok nižšie. Po kliknutí na ňu program FineReader automaticky zobrazí tie oblasti, kde program obsahuje chyby a nedokáže spoľahlivo identifikovať konkrétny symbol. Budete si musieť vybrať len to, že súhlasíte s názorom programu, alebo zadáte svoj symbol.

Mimochodom, v polovici prípadov približne program vám ponúkne pripravené správne slovo - budete musieť vybrať správnu možnosť pomocou myši.

Po druhé, po kontrole musíte vybrať formát, v ktorom uložíte výsledok vašej práce.

Tu vám FineReader prináša plný obrat: jednoducho môžete preniesť informácie v programe Word do jedného a môžete ho uložiť do jednej z desiatok formátov. Chcel by som však zdôrazniť ďalší dôležitý aspekt. Ktorý formát by nebol zvolený, je dôležitejšie vybrať typ kópie! Zvážte najzaujímavejšie možnosti ...

Presná kópia

Všetky oblasti, ktoré ste vybrali na stránke v uznanom dokumente, budú presne zodpovedať pôvodnému dokumentu. Veľmi vhodná možnosť, keď je dôležité, aby ste nestratili formátovanie textu. Mimochodom, fonty budú tiež veľmi podobné pôvodnému. Odporúčam použiť túto možnosť na odoslanie dokumentu do programu Word, aby ste tam mohli ďalej pracovať.

Upraviteľná kópia

Táto možnosť je dobrá, pretože už máte formátovanú verziu textu. tj odsadenie z "kilometra", ktoré možno bolo v zdrojovom dokumente - nebudete sa stretávať. Užitočná možnosť, ak budete významne upravovať informácie.

Nie je však potrebné vybrať si, ak je pre vás dôležité zachovať štýl dekorácie, písma a zarážky. Niekedy, ak rozpoznávanie nie je veľmi úspešné - váš dokument môže byť "skreslený" kvôli zmenenému formátovaniu. V tomto prípade je vhodné vybrať presnú kópiu.

Jednoduchý text

Možnosť pre tých, ktorí chcú text so stránkou bez všetkého ostatného. Vhodné pre dokumenty bez obrázkov a tabuliek.

Tento článok o skenovaní a rozpoznávaní dokumentu sa skončil. Dúfam, že pomocou týchto jednoduchých tipov budete môcť vyriešiť vaše problémy ...

Veľa šťastia!