Piszę to, co widzę

Ze stosowaniem techniki OCR (Optical Character Recognition) wiążą się rozmaite korzyści. Czas skanowania i rozpoznawania tekstu jest wielokrotnie krótszy od czasu potrzebnego na jego przepisanie. Strona zapisana w postaci dwukolorowego pliku TIFF zajmuje tylko 70-120 KB. Sięgając po program ReadIRIS 4.15, korzystamy z wymienionych zalet komputerowego rozpoznawania tekstu.

Źródłem danych wejściowych może być obraz wczytany z pliku graficznego w formacie TIFF, PCX lub BMP. Jest on poddawany automatycznej dekompozycji na fragmenty zawierające tekst, natomiast ilustracje są ignorowane. Obszary są sortowane w kolejności od góry do dołu i od lewej strony do prawej, co decyduje o kolejności ich łączenia. Niestety, ta prosta reguła nie zawsze zdaje egzamin, dlatego użytkownik ma możliwość manualnego skorygowania układu strony i kolejności, w jakiej szeregowane są poszczególne części tekstu. Na uwagę zasługuje fakt, że obszary mogą mieć nieregularny kształt, który powstaje przez połączenie dwóch nakładających się prostokątów. Żmudnie dopracowany układ strony można zapisać w postaci szablonu. Dzięki temu unika się konieczności każdorazowego korygowania podziału strony na obszary, np. w sytuacji gdy przetwarzany jest pięćdziesięciostronicowy tekst zawierający stopkę, którą użytkownik chce pomijać.

Przy skomplikowanym układzie strony ReadIRIS ma kłopoty z prawidłowym uporządkowaniem fragmentów tekstu skomplikowana strona

Po fazie analizy układu strony obraz przekształcany jest do postaci tekstowej. Rozpoznawane są litery napisane czcionką od 6 do 72 punktów w jednym z 52 języków, w tym także polskim. Podczas identyfikacji poszczególnych znaków wykorzystywany jest analizator językowy, który sprawdza, czy rozpoznane słowo znajduje się w słowniku zawierającym 100 tys. jednostek leksykalnych.

Jeśli rozpoznawanie jest przeprowadzane przy włączonej opcji uczenia, wówczas program po napotkaniu znaku, co do którego ma wątpliwości, pozostawia użytkownikowi decyzję dotyczącą interpretacji czcionki. Można wtedy zaakceptować przedstawioną propozycję, zmienić lub odrzucić zaproponowany znak. W ten sposób algorytm rozpoznawania uczy się na własnych błędach, co owocuje ich redukcją w przyszłości.

Po rozpoznaniu tekst jest umieszczany w Schowku lub zapisywany w pliku. Do wyboru są formaty RTF, DOC, TXT oraz kilka innych. W pierwszym przypadku można także zachować identyczny układ (położenie akapitów na stronie) i format (rozmiar, styl i rodzaj czcionki) tekstu. Jeśli z kolei dokument zawiera dane w postaci tabelarycznej, wówczas można zapamiętać je w formie “zrozumiałej” dla Excela. W takiej sytuacji każde “okienko” tabeli jest wklejane do jednej komórki arkusza kalkulacyjnego.

zaznaczanie obszarówMożliwość zaznaczania nieregularnych obszarów jest zaletą ReadIRIS-a

ReadIRIS został poddany testowi identycznemu z tym, który przeszła Recognita Plus 4.0 (opis w CHIP-ie nr 1/99). Badanie polegało na rozpoznaniu 178. strony zeskanowanej z numeru 11/98 CHIP-a. Tym razem nie sprawdziła się zasada, w myśl której obszary sortowane są od lewej do prawej i od góry do dołu. Konieczna była zmiana ich kolejności, ponieważ kolumny dwóch artykułów przemieszały się ze sobą. Natomiast dzięki możliwości zakreślania nieregularnych obszarów prawie bez zarzutu zostały wydzielone poszczególne pola tekstu. Rozpoznanie wypadło jednak bez rewelacji. Trzynaście razy ReadIRIS pomylił się i wstawił dużą literę zamiast małej w środku wyrazu. Oprócz tego popełnił jeszcze kilka błędów, np. zamieniając “ł” na “l”.

Łatwiejszą próbą miało być rozpoznanie wydruku z drukarki atramentowej czcionką o rozmiarze 12 punktów. Jednak mimo prostego układu tekstu ujawniły się problemy z określeniem obszarów rozpoznawania. Znaki wypunktowania akapitu zostały oddzielone od swoich wierszy, co zupełnie zaburzyło strukturę tekstu i wymagało interwencji użytkownika. Konieczne było również poprawienie dziewięciu błędnie zidentyfikowanych znaków. Po włączeniu opcji uczenia liczba błędów zmniejszyła się zaledwie o dwa, natomiast czas potrzebny do rozpoznania tekstu znacznie wydłużył się ze względu na konieczność interakcji z użytkownikiem.

w skrócie
mamy to na chip-cd 3/99ReadIRIS 4.15
Wymagania: PC 486; 16 MB RAM; Windows 9x; ok. 30 MB na dysku
pluszaznaczanie nieregularnych obszarów tekstu
plustworzenie szablonów układu strony
plusmożliwość wyboru wersji językowej aplikacji
minusniezadowalające wyniki rozpoznawania tekstu gorszej jakości
minusskromne możliwości modułu uczenia programu
Producent: Image Recognition Integrated Systems, USA, http://www.irislink.com/
Dostarczył: Connect, Warszawa, tel./faks: (0-22) 843 24 91, e-mail: [email protected], http://www.connect.pl/
Cena: 1580 zł

Mówiąc o ReadIRIS-ie, trudno powstrzymać się od porównania z Recognitą, która może być wyznacznikiem jakości wśród oprogramowania OCR. Przy pracy z tekstami o skomplikowanym układzie lub gorszej jakości opisywany produkt wypada słabiej niż Recognita. Poprawki są konieczne zarówno na etapie podziału strony na obszary oraz ich porządkowania, jak i po przeniesieniu rozpoznanego tekstu do zewnętrznego edytora. Zupełnie inaczej sprawa przedstawia się w sytuacji, gdy przetwarzany jest tekst bardzo dobrej jakości i o prostym układzie. Wtedy ReadIRIS poprawnością i szybkością rozpoznawania tylko nieznacznie ustępuje Recognicie. Natomiast niewątpliwą zaletą opisywanej aplikacji jest jej wielojęzyczność. Podczas instalacji programu użytkownik może zdecydować, z jaką odmianą językową ReadIRIS-a chce pracować. Wśród najrozmaitszych wersji narodowych pakietu znajdujesię także jej lokalna, polska odmiana.

Więcej:bezcatnews