Fajny czytacz

Węgierska Recognita, uznawana za najlepszy pakiet OCR, ma godnego siebie konkurenta. Jego autorami są rosyjscy programiści. FineReader Professional to pakiet złożony z dwóch aplikacji. FineReader Batch jest OCR-em przeznaczonym do rozpoznawania zeskanowanych stron tekstu (obraz można wprowadzić także w postaci pliku graficznego w formacie BMP, PCX, DCX, TIFF lub JPEG). Po wczytaniu obrazu w razie potrzeby korygowana jest jego orientacja i jasność. Na życzenie użytkownika program eliminuje również drobne zabrudzenia, które pojawiają się w przypadku skanów gorszej jakości i mogą utrudniać prawidłowe rozpoznanie liter.

Dobrze zaprojektowany interfejs Fine-Reader Batch poprawia wydajność pracy nie ma to jak interfejs

Następnie strona dzielona jest na obszary, które stanowią pewną całość, czyli np. kolumny tekstu, tytuły, podpisy pod ilustracjami, kody kreskowe, tabele czy rysunki. Sposób fragmentacji zaproponowany przez algorytm analizy układu strony oraz kolejność i typ poszczególnych części mogą być dowolnie modyfikowane przez użytkownika. Odnosi się to także do struktury tabel, w których można dodawać, usuwać i przenosić wiersze oraz kolumny, a także scalać i dzielić komórki.

Jeżeli użytkownik jest już zadowolony z podziału strony, powinien jeszcze określić język rozpoznawanego tekstu (przewidziano pracę z dokumentami wielojęzycznymi) oraz zdecydować, jakie elementy formatowania mają zostać zachowane. Następnie można uruchomić proces rozpoznawania tekstu. Po jego zakończeniu dane są umieszczane w wewnętrznym edytorze, który pozwala użytkownikowi nanieść poprawki w tych miejscach, w których program błędnie rozpoznał znaki lub sposób ich formatowania. Korekcję ułatwiają kolory, którymi wyróżnione są symbole niepewne oraz słowa nie występujące w słowniku.

Autorzy FineReadera perspektywicznie rozwiązali kwestię językową przetwarzanych dokumentów. Słowniki mogą być nie tylko wzbogacane nowymi wyrażeniami, ale nawet tworzone zupełnie od podstaw w języku standardowo nie obsługiwanym przez aplikację. Wymaga to określenia zestawu znaków obowiązującego w danym języku oraz opcjonalnie dołączenia słownika w postaci listy słów w pliku TXT.

automatyzacja zadańFineReader Forms może bardzo ułatwić pracę biura, automatyzując proces weryfikacji formularzy wypełnianych przez petentów

Jeśli błędów jest dużo i powtarzają się w wypadku tych samych liter lub przyczyną komplikacji jest jakaś ozdobna czcionka, wówczas warto uruchomić moduł służący do uczenia programu. Wskazanie przez użytkownika, jak poprawnie powinny być identyfikowane kłopotliwe znaki, oszczędzi podobnych problemów w przyszłości.

Rozpoznany tekst można skopiować do Schowka, wyeksportować w formacie RTF, DOC (MS Word), TXT lub HTML. W przypadku tabel sensownym rozwiązaniem jest zapisanie zgromadzonej w nich treści w arkuszu Excela lub pliku typu DBF.

Drugą aplikacją wchodzącą w skład pakietu jest FineReader Forms przeznaczony do przetwarzania formularzy. Jego obsługa jest nieco inna. Pierwszy etap polega na stworzeniu szablonu, czyli wczytaniu czystego formularza i wskazaniu na nim pól, w których na wypełnionej stronie będą znajdować się dane. Każde pole otrzymuje swoją nazwę oraz typ wprowadzanej do niego informacji (tekst, kod paskowy, zaznaczenie krzyżykiem itp.). Następnie należy jeszcze określić punkty odniesienia (np. linie, tekst); dzięki temu podczas rozpoznawania uda się dopasować formularz do konkretnego szablonu.

Rozpoznawanie formularzy ogranicza się do przeczytania danych z wybranych pól bez żadnych elementów formatowania. Następnie dane można zapisać w pliku tekstowym albo w formacie DBF jako tabele z nagłówkami, którymi są nazwy pól w szablonie. Dzięki temu później można zaimportować je niemal do każdej bazy danych.

Podczas miesięcznego użytkowania FineReader radził sobie bardzo dobrze w zdecydowanej większości przypadków. Czasem nawet zaskakiwał, poprawnie rozpoznając słowa napisane z błędem literowym. FineReader 4.0 Professional jest trzecim pakietem do rozpoznawania pisma, jaki w ostatnich miesiącach był opisywany na łamach CHIP-a. I trzeba przyznać, że wywarł najlepsze wrażenie. W teście, któremu poddano również poprzednie programy, polegającym na rozpoznaniu 178 strony zeskanowanej z CHIP-a nr 11/98 popełnił on najmniej błędów. Drobnej korekty wymagał sposób podziału strony na obszary, ale po jego poprawieniu tylko cztery znaki zostały źle rozpoznane.

w skrócie
mamy to na chip-cd 4/99FineReader 4.0 Professional
Wymagania: PC 486 (zalecane Pentium 133); Windows 9x i 16 MB RAM lub Windows NT 4.0 i 32 MB RAM, ok. 30 MB na dysku
pluspełna obsługa tekstów w języku polskim
plustworzenie nowych słowników
plusprzetwarzanie formularzy
pluszapis danych tabelarycznych w pliku DBF
Producent: ABBYY Software House, Rosja, http://www.abbyy.ru/
Dostarczył: DMT, Kraków, tel./faks: (0-12) 423 64 69, e-mail: [email protected], http://www.dmt.com.pl/
Cena: ok. 1100 zł

Oczywiście, tak jak w przypadku innych programów OCR, podstawowym warunkiem osiągania dobrych rezultatów jest niezła jakość zeskanowanego tekstu, ale FineReader wydaje się bardzo odporny na występowanie drobnych zakłóceń w obrazie.

Więcej:bezcatnews