Zamiast przepisywać…

Komputerowe rozpoznawanie tekstu ze skanowanych dokumentów to dzisiaj jedno z typowych zadań, jakie powierzamy pecetowi. Zwłaszcza w pracy biurowej, gdzie mamy do czynienia ze sporą ilością “makulatury”, wykorzystanie aplikacji OCR bywa nieocenione. Niewątpliwym królem tych narzędzi jest rosyjski FineReader. Niemniej na rynku co rusz pojawiają się nowe wersje konkurencyjnych produktów. Tym razem “w szpony” naszego laboratorium wpadł Readiris 8 Pro.

Lista możliwości “ósemki” jest spora. Jak każdy nowoczesny program OCR, potrafi ona dokonać automatycznej analizy strony i zamarkować odpowiednio bloki dokumentu, grafiki czy tabeli (wraz z przepływem tekstu). Rozpoznany materiał da się zapisać w czystej postaci lub zgodnie z oryginalnym układem w kilku formatach (Word, PDF, HTML, OpenOffice.org Writer). W programie można także dokonać automatycznego wyrównania strony (tak, by wiersze tekstu były poziome) oraz skorygować parametry skanu (jasność, usuwanie punktowych szumów). W nieco niewygodny sposób rozwiązano powiększanie i pomniejszanie obrazu, a także tworzenie i edycję bloków o nieregularnych kształtach.

Readiris Pro 8
Wymagania: Windows 9x/Me/2000/XP/NT 4.0,
ok. 110 MB na dysku
+ przetwarzanie wsadowe
+ rozpoznawanie 4 języków na stronę (wersja Corporate)
+ automatyczne wyrównywanie strony
+ zapis w formatach HTML i PDF
– brak polskiej wersji
– brak wbudowanego edytora tekstu
– niska skuteczność rozpoznawania w trybie standardowym
Cena: 665 zł; 665 zł – wersja Pro; 780 zł – Corporate Edition
www.irislink.com
www.akon.com.pl

Minusem aplikacji jest dodatkowo brak interaktywnego słownika i korekcji rozpoznanego tekstu – poprawek musimy dokonywać w edytorze tekstu. Sam interfejs, choć wydaje się ubogi, zawiera wszystkie elementy potrzebne do sprawnej obsługi aplikacji. Sporą zaletą Readirisa jest moduł uczenia się, przez co znacznie zwiększa się skuteczność rozpoznawania w przypadku przetwarzania dużej partii tych samych dokumentów źródłowych. Plusem jest też możliwość przetwarzania wsadowego, czyli automatyzacja rozpoznawania wcześniej zeskanowanych plików.

Wyniki naszego minitestu rozpoznawania nie są jednak imponujące. Właściwie wszystkie rodzaje dokumentów “odczytane” zostały przez Readirisa z mniejszą skutecznością niż przez produkty konkurencyjne. Jedynie wydruki z drukarki atramentowej (z posklejanymi literami) “irysek” rozpoznaje prawie tak dobrze jak FineReader. Zaskakująco niska jest natomiast skuteczność odczytywania wydruków z drukarki igłowej – choć trzeba uczciwie powiedzieć, że przetwarzanie tych dokumentów to dzisiaj już rzadkość. Wypada też odnotować fakt, że wiele błędów Readirisa było typowych i polegało np. na rozpoznawaniu “o” zamiast “c”.

Wyniki testu (skuteczność rozpoznawania tekstu)
Rodzaj drukuOmniPage12FineReader 6.0 ProReadiris 8
Gazeta codzienna 98,22% 99,47% 97,26%
Ilustrowany magazyn 96,21% 98,54% 89,80%
Ksišżka 98,42% 99,39% 97,22%
Faks 85,71% 96,94% 85,71%
Maszynopis 92,45% 95,66% 90,46%
Tekst z posklejanymi literami 94,91% 98,52% 97,06%
Wydruk z drukarki igłowej 65,86% 92,88% 54,37%

Readiris 8 Pro dostępny jest w wersjach standardowej i Corporate Edition. Ta ostatnia ma kilka dodatkowych usprawnień, np. rozpoznawanie stron zawierających tekst w różnych językach (maks. czterech), skanowanie obu stron kartki jednocześnie (w przypadku skanerów dwustronnych) itp. Za te udogodnienia musimy jednak słono zapłacić.

Więcej:bezcatnews