Papier do lamusa?

O zaletach elektronicznych dokumentów nikogo przekonywać nie trzeba. Cóż jednak począć, gdy w naszych archiwach zalegają setki stron maszynopisu? Rozwiązanie może być tylko jedno – kupić szybki skaner i zaprzęgnąć do pracy oprogramowanie OCR.

Co dwie głowy…

Rynek aplikacji do rozpoznawania tekstu od lat opanowany jest przez kilka firm, które regularnie publikują nowsze, ulepszane wersje swoich produktów. Tym razem zbiegły się premiery dwóch znanych programów. Chcąc porównać ich skuteczność, przeprowadziliśmy w naszym laboratorium praktyczny minitest. W obu narzędziach przetworzyliśmy te same pliki utworzone na bazie różnych materiałów wejściowych (takich jak faks, wydruk z drukarki igłowej, atramentowej itp.). Liczbę błędów (słów nierozpoznanych lub rozpoznanych błędnie) liczyliśmy ręcznie w edytorze tekstu. Tabela zamieszczona poniżej przedstawia procentową skuteczność aplikacji (stosunek słów rozpoznanych poprawnie do wszystkich wyrazów w dokumencie).

Nasze wyniki potwierdzają czołową pozycję FineReadera, który okazał się lepszy w każdej kategorii rozpoznawania. W wypadku wydruków z drukarki igłowej wydaje się on wręcz niezastąpiony. Niestety, nowa Recognita nie poradziła sobie z tym materiałem w ogóle. Rozpoznała jedynie kilka słów na stronie, co w praktyce oznacza konieczność wpisania dokumentu ręcznie.

Omni znaczy… łatwo?

Najnowsza wersja Recognity OmniPage Pro 11 jest następcą edycji Plus 5.0. W stosunku do swojej poprzedniczki zawiera wiele nowych rozwiązań, takich jak tworzenie nieregularnych obszarów, zapis dokumentu w oryginalnym układzie czy eksport do formatów HTML i PDF. Dużymi zaletami programu są polonizacja interfejsu i systemu pomocy, a także integracja z pakietem biurowym Microsoft Office XP. Dzięki temu rozwiązaniu możemy pobrać tekst ze skanowanej strony bezpośrednio do Worda bez konieczności otwierania aplikacji OCR. Recognita potrafi też przetworzyć plik PDF na dowolny inny obsługiwany przez siebie format. Plusem programu jest zdolność uczenia się. Podczas wprowadzania korekt tworzony jest specjalny plik “uczenia”, dzięki czemu następne przetwarzane strony mogą zawierać mniej błędów. Ciekawostką w aplikacji jest czytanie rozpoznanego tekstu poprzez wbudowany syntezator mowy. Dotyczy to jednak wyłącznie języka angielskiego.

Recognita miewa też sporadycznie problemy z automatyczną segmentacją strony – potrafi bowiem na siłę markować obszary tekstowe znajdujące się na obrazkach. Wadą programu jest brak aktywnego powiązania obszarów i wyników rozpoznawania. Usunięcie bloku nie powoduje skasowania odpowiadającego mu tekstu.

FineReader 6.0 Pro
Wymagania: Windows 9x / Me / 2000 / XP / NT 4.0 (SP6), IE 5.0, ok. 160 MB na dysku 
+ wysoka skuteczność
+ bardzo dobre filtry eksportu
+ obsługa 177 języków (w tym języków programowania)
+ rozpoznawanie plików PDF
Producent: ABBYY Software House, Rosja
http://www.finereader.com/
Dostawca: AutoID, Kraków
http://www.autoid.pl/
tel.: (12) 292 51 00
Cena (z VAT-em): ok. 730 zł (Professional)
Uaktualnienie (z VAT-em): ok. 460 zł
Recognita OmniPage Pro 11
Wymagania: Windows 9x / Me / 2000 /  XP / NT 4.0, ok. 140 MB na dysku
+ integracja z pakietem MS Office XP
+ przetwarzanie dokumentów PDF
+ rozpoznawanie 114 języków
+ moduł automatycznego uczenia się
– brak powiązania bloków z rozpoznawanym tekstem
– problemy z przetwarzaniem wydruków z drukarki igłowej
Producent: ScanSoft, USA
http://www.scansoft.com/
Dostawca: Veracomp, Kraków
http://www.veracomp.pl/
tel.: (12) 252 55 55
Cena (z VAT-em): ok. 2560 zł
Uaktualnienie (z VAT-em): ok. 610 zł

Poprawiać nie trzeba

FineReader 6.0 nie jest wielką rewolucją. Przyrost skuteczności rozpoznawania tekstu w stosunku do poprzedniej wersji nie jest duży, a dla niektórych typów dokumentów (maszynopis, wydruk z drukarki igłowej) zaobserwowaliśmy nawet jej niewielki spadek. Błędy popełniane przez program polegają jednak najczęściej na wstawieniu przecinka w miejsce kropki lub rozpoczęciu wyrazu wielką literą. Poważne pomyłki w rozpoznawaniu zdarzają się bardzo rzadko. Dokumenty mogą być zapisywane w wielu formatach (w tym HTML i PDF) z zachowaniem oryginalnego układu strony. Eksport do Worda jest bardzo dopracowany, tak że np. tekst wieloszpaltowy otrzymujemy w edytorze w postaci kolumn (Recognita wstawia pola tekstowe, co utrudnia późniejszą edycję dokumentu). W najnowszej edycji poprawiono wewnętrzny edytor tekstu, dzięki czemu od razu po rozpoznaniu widzimy oryginalny układ strony. Nowością w wersji 6.0 jest konwersja dokumentów PDF do innych formatów. Wprowadzono też kilka innych udogodnień: zapisywanie rozpoznanych dokumentów pod taką samą nazwą jak plik wejściowy, integracja z Eksploratorem Windows czy możliwość dostosowywania pasków narzędzi.

Klawiatura (nie)potrzebna

Oba programy cechują wysoka ergonomia i przyjazny interfejs. Mniej zaawansowani użytkownicy skorzystają na pewno na obecności kreatorów i asystentów rozpoznawania, które poprowadzą nas przez cały proces za rękę. Niemniej jednak najważniejszą cechą aplikacji OCR jest jej skuteczność. I pod tym względem – przynajmniej na razie – FineReader jest nie do pobicia.

Wyniki minitestu
FineReader 6.0 Pro Recognita OmniPage Pro 11
Gazeta codzienna  99,47%  96,60%
Ilustrowany magazyn   98,54% 91,06%
Książka   99,39% 96,85%
Faks   96,94% 69,39%
Maszynopis   95,66% 84,75%
Tekst z posklejanymi literami   98,52% 86,48%
Wydruk z drukarki igłowej   92,88% 0,00%*
* – rozpoznane zostały tylko szczątkowe fragmenty przetwarzanej strony
Więcej:bezcatnews