Najistotniejszą innowacją jest zastosowanie trójstopniowego algorytmu rozpoznawania znaków. Zaowocowało to 30-procentową redukcją błędów w porównaniu z wynikami dwustopniowej analizy wykorzystywanej do tej pory. Mechanizm rozpoznawania znaków nadal opiera się na wykrywaniu charakterystycznych szczegółów (tzw. analiza konturów), które pozwalają odróżnić od siebie poszczególne litery. Jednak obecnie Recognita jest dodatkowo wspierana przez technologię “samoupewniania się” (Self Assertion Technology). SAT pomaga podjąć trafną decyzję w niejednoznacznych przypadkach, na podstawie innych znaków w tekście, które rozpoznano poprawnie z dużą pewnością. Ponadto tekst jest poddawany analizie językowej. Jeśli rozpoznane słowo nie występuje w słowniku, podejrzany ciąg znaków może zostać powtórnie przeanalizowany.
Przetworzenie na tekst zeskanowanej strony CHIP-a sprawiło Recognicie trochę kłopotów |
Pakiet przygotowano do pracy z tekstami napisanymi w jednym ze stu siedmiu języków i wyposażono w 16 słowników do analizy językowej, w tym także polski. Użytkownik może rozszerzać zakres słowników, dodając do nich nowe słowa. Dozwolone jest również przetwarzanie stron zapisanych w kilku językach jednocześnie, aczkolwiek w czasie rozpoznawania wykorzystywany jest tylko jeden analizator językowy. Oprócz tekstu drukowanego czcionką od 6 do 72 punktów, Recognita rozpoznaje też kody kreskowe i ręcznie pisane cyfry. Nie ma natomiast mowy o “rozumieniu” pisma odręcznego.
Poprawiono również algorytm dekompozycji strony. Dzięki temu program lepiej niż poprzednio daje sobie radę ze skomplikowanym układem tekstu, jego podziałem na kolumny, wyróżnionymi śródtytułami i wstawionymi zdjęciami. Wprowadzono także rozpoznawanie i edycję struktury oraz zawartości tabeli, którą można następnie zapisać w pliku jako tekst oddzielony tabulatorami.
Przed przystąpieniem do rozpoznawania tekstu warto wziąć pod uwagę jego jakość i ustalić dokładność analizy. Do wyboru jest pięć poziomów, które różnią się wnikliwością badania znaków, co istotnie wpływa na wynik i szybkość działania programu. Przy pracy z tekstem bardzo dobrej jakości z powodzeniem można korzystać z jednostopniowej analizy, osiągając zadowalające rezultaty i oszczędzając czas. Natomiast obróbka dokumentu, który zawiera poprzerywane, częściowo zamazane lub pozlepiane litery, wymaga użycia wszystkich dostępnych środków. Wspomnianych trudności nie muszą zbytnio obawiać się właściciele drukarek 9- i 24-igłowych, ponieważ algorytm został przystosowany do przetwarzania wydruków pochodzących z tych urządzeń.
Zadbano również o wygodną obsługę tekstów wielostronicowych. Przeglądarka stron gwarantuje dobrą orientację w przetwarzanym dokumencie, wyświetlając zminiaturyzowany podgląd wszystkich kartek.
Dzięki zdolności uczenia się Racognita może znacznie podwyższyć swoją skuteczność w rozpoznawaniu tekstów gorszej jakości |
Ważnym składnikiem programu jest moduł, pozwalający “nauczyć” Recognitę rozpoznawania pojedynczych znaków lub całych ciągów, które notorycznie sprawiają trudności. Rezultat treningu można zapisać w celu ponownego wykorzystania w przyszłości. Ma to zastosowanie na przykład w sytuacjach, gdy algorytm wyraźnie gorzej daje sobie radę z pewną czcionką, jak również w przypadku tekstu napisanego na maszynie, która ma manierę niewyraźnego odbijania jakiejś litery.
Krótki test, polegający na rozpoznaniu dwóch stron tekstu, pozwolił częściowo ocenić, jak Recognita daje sobie radę w pracy. Sporo trudności sprawiła strona 178 zeskanowana z numeru 11/98 CHIP-a, zawierająca dwa krótkie testy z działu Software. Konieczność zmiany kolejności obszarów, na jakie została podzielona strona oraz poprawa czternastu błędnie rozpoznanych słów wymagała ok. 3-4 minut, zależnie od biegłości posługiwania się klawiaturą. W drugim przypadku przetwarzano wydruk z drukarki atramentowej w trybie ekonomicznym, który zawierał fragmenty pisane w języku polskim i angielskim trzema czcionkami o rozmiarze od 10 do 14 punktów. Osiągnięty wynik był znacznie lepszy od poprzedniego i wymagał zaledwie pięciu drobnych poprawek, na co potrzebna była niecała minuta.
w skrócie | |
Recognita Plus 4.0 | |
Wymagania: PC 486; 8 MB RAM; Windows 9x/NT; ok. 15 MB na dysku | |
mechanizm “samoupewniania się” połączony z analizą językową rozpoznawanego tekstu | |
rozpoznawanie tekstów wydrukowanych na 9- i 24-igłowych drukarkach | |
możliwość zachowania i modyfikacji struktury tabeli | |
pięć poziomów dokładności i szybkości rozpoznawania | |
Producent: Recognita Corp., Węgry, http://www.recognita.hu/ | |
Dostarczył: Veracomp, Kraków, tel.: (0-12) 411 10 44, faks: 422 23 52, e-mail: [email protected], http://www.veracomp.com.pl/ | |
Cena: ok. 1400 zł |
Chociaż Recognita jest bardzo dobrym OCR-em, jej użytkownik musi zdawać sobie sprawę z pewnych ograniczeń. Jeśli chodzi o teksty o skomplikowanym układzie, pisane drobnym drukiem – prawdopodobnie szybciej wpisze się je za pomocą klawiatury, niż poprawi błędnie rozpoznane słowa. Natomiast do “czytania” dobrej jakości tekstu z książki Recognita nadaje się znakomicie.