Rozpoznávanie textu. Voľný program - analógový FineReader

Skôr alebo neskôr, každý, kto často pracuje s kancelárskymi programami, čelí bežnej úlohe - skenovať text z knihy, časopisu, novín, len letáky a potom preložiť tieto obrázky do textového formátu, napríklad v dokumente programu Word.

Aby ste to urobili, potrebujete skener a špeciálny program na rozpoznávanie textu. V tomto článku budeme hovoriť o bezplatnom analógovom FineReader - CuneiForm (o rozpoznávaní v programe FineReader - pozri tento článok).

Začnime ...

obsah

  • 1. Vlastnosti funkcie CuneiForm
  • 2 2. Príklad rozpoznávania textu
  • . 3 3. Hromadné rozpoznávanie textu
  • 4 4. Závery

1. Vlastnosti funkcie CuneiForm

klinový

Môžete si ho stiahnuť z lokality vývojára: http://cognitiveforms.com/

Program na rozpoznávanie textu s otvoreným zdrojom. Okrem toho funguje vo všetkých verziách systému Windows: XP, Vista, 7, 8, ktoré sa páči. Navyše pridajte úplný ruský preklad programu!

klady:

- uznanie textu v 20 najpopulárnejších jazykoch sveta (v tomto čísle je zahrnuté aj angličtina a ruština);

- obrovská podpora rôznych tlačených písiem;

- skontrolujte slovník rozpoznaného textu;

- možnosť zachrániť výsledky práce v niekoľkých variantoch;

- zachovanie štruktúry dokumentu,

- vynikajúca podpora a uznanie tabuliek.

nevýhody:

- nepodporuje príliš veľké dokumenty a súbory (viac ako 400 dpi);

- priamo nepodporuje niektoré typy skenerov (no, nie je to desivé, ovládač skenera je dodávaný so špeciálnym programom na skenovanie);

- Návrh nesvieti (ale kto to potrebuje, ak program plne vyrieši problém).

2. Príklad rozpoznávania textu

Predpokladáme, že ste už dostali potrebné obrázky na rozpoznávanie (skenované tam, alebo stiahli si knihu vo formáte pdf / djvu na internete a extrahovali potrebné obrázky z nich.) Prečítajte si tento článok.)

1) Otvorte požadovaný obrázok v programe CuineForm (súbor / otvorený alebo "Cntrl + O").

2) Ak chcete začať rozpoznávať - ​​musíte najprv vybrať rôzne oblasti: text, obrázky, tabuľky atď. V Cuneiform to môže byť urobené nielen ručne, ale aj automaticky ! Ak to chcete urobiť, kliknite na tlačidlo "označenie" v hornom paneli okna.

3) Po 10-15 sekundách. program automaticky zvýrazní všetky oblasti s rôznymi farbami. Napríklad textová oblasť je zvýraznená modrou farbou. Mimochodom, zdôraznila všetky oblasti správne a pomerne rýchlo. Úprimne povedané, neočakával som od neho takú rýchlu a správnu reakciu ...

4) Pre tých, ktorí nedôverujú automatickému označovaniu, môžete použiť manuál. Ak to chcete urobiť, existuje panel s nástrojmi (pozri obrázok nižšie), vďaka ktorému môžete vybrať: text, tabuľku, obrázok. Presunúť, zvyšovať / znižovať počiatočný obrázok, orezávať okraje. Vo všeobecnosti, dobrý súbor.

5) Po označení všetkých oblastí môžete začať rozpoznávať . Za týmto účelom stačí kliknúť na tlačidlo s rovnakým názvom ako na obrázku nižšie.

6) Doslova za 10-20 sekúnd. pred otvorením dokumentu v programe Microsoft Word s rozpoznaným textom. Zaujímavé je, že v texte tohto príkladu boli samozrejme chyby, ale nie je ich veľa! Najmä v danej nekonečnej kvalite bol zdrojový materiál - obraz.

Rýchlosť a kvalita je pomerne porovnateľná s programom FineReader!

3. Dávkové rozpoznávanie textu

Táto funkcia programu môže byť užitočná, ak potrebujete rozpoznať viac ako jeden obrázok, ale niekoľko naraz. Štítok na spustenie rozpoznávania paketov je zvyčajne skrytý v ponuke "Štart".

1) Po otvorení programu musíte vytvoriť nový balík alebo ho otvoriť. V našom príklade vytvorte nový.

2) V ďalšom kroku mu dáme meno, najlepšie tak, že v priebehu pol roka si budeme pamätať, čo je v ňom uložené.

3) Potom zvoľte jazyk dokumentu (rusko-angličtina), špecifikujte, či sú v skenovanom materiáli obrázky a tabuľky.

4) Teraz musíte zadať priečinok, v ktorom sú umiestnené súbory na rozpoznávanie. Mimochodom, je zaujímavé, že samotný program nájde všetky obrázky a iné grafické súbory, ktoré dokáže rozpoznať a pridať do projektu. Budete musieť odstrániť ďalšie.

5) Ďalším krokom nie je dôležité, vyberte si čo urobiť so zdrojovými súbormi po rozpoznaní. Odporúčam vám začiarknuť políčko "nerobiť nič".

6) Zostáva len výber formátu, v ktorom sa bude rozpoznaný dokument ukladať. Existuje niekoľko možností:

- rtf - súbor zo slovného dokumentu, otvára sa so všetkými obľúbenými kanceláriami (vrátane voľných, odkaz na programy);

- txt - textový formát, v ňom môžete ukladať iba text, obrázky a tabuľky;

- htm - hypertextová stránka, je vhodné, ak skenujete a rozpoznáte súbory pre danú lokalitu. Vyberieme to v našom príklade.

7) Po kliknutí na tlačidlo "pripravené" začne spracovanie vášho projektu.

8) Program funguje veľmi rýchlo. Po rozpoznávaní sa vám zobrazí karta s htm súbormi. Ak kliknete na takýto súbor, spustí sa prehliadač, na ktorom sa zobrazia výsledky. Mimochodom, balík môže byť uložený na ďalšiu prácu s ním.

9) Ako vidíte, výsledky práce sú veľmi pôsobivé. Program bol ľahko rozpoznateľný programom a pod ním bolo ľahké rozpoznať text. So skutočnosťou, že program je zadarmo - je to všeobecne super!

4. Závery

Ak často nerozpoznávate a nerozpoznáte dokumenty, nemáte zmysel nakupovať FineReader. Pri väčšine úloh sa CuneiForm ľahko zaobchádza.

Na druhej strane má aj nevýhody.

Po prvé, existuje príliš málo nástrojov na úpravu a overenie výsledku. Po druhé, ak musíte rozpoznať veľa obrázkov, potom je vo FineReaderu pohodlnejšie okamžite vidieť všetko pridané do projektu v stĺpci napravo: rýchlo odstrániť zbytočné, vykonať opravy atď. A po tretie, na dokumenty s veľmi nízkou kvalitou stráca CuneiForm ako uznanie: Je potrebné uviesť dokument do úvahy - opraviť chyby, vložiť interpunkčné znamienka, obrátené čiarky atď.

To je všetko. Poznáte nejaký iný hodný bezplatný program na rozpoznávanie textu?