Tekst pOCRojony

Optyczne rozpoznawanie znaków (Optical Character Recognition) to technika, dzięki której papierowy dokument zostaje zamieniony na edytowalny tekst. Specjalne algorytmy wykorzystujące sieci neuronowe oraz analizę językową pozwalają szybko i niemal bezbłędnie przenieść pismo drukowane do dowolnego edytora tekstu. Przy dobrej jakości wydruku skuteczność tego rodzaju narzędzi już dawno przekroczyła 99%.

Piątka z polskiego

Rozpoznawanie tekstu jest dość skomplikowanym zagadnieniem i tylko kilku producentów oferuje tego typu oprogramowanie. Problem dodatkowo potęguje kwestia specyficznych dla danego języka znaków diakrytycznych. Cóż nam po programie radzącym sobie z angielskim tekstem, jeśli nie będzie on potrafił odczytać rodzimych “ś”, “ć” czy “ż”? Biorąc więc pod uwagę, że w sferze zainteresowania Polaków znajdują się tylko te aplikacje, które rozpoznają specyficzne dla naszego języka “ogonki”, wybór mamy naprawdę niewielki.

Warto zwrócić uwagę, że na rynku dostępne są dołączane do skanerów OEM-owe edycje znanych pakietów. Są to zazwyczaj starsze lub okrojone funkcjonalnie wersje danego produktu. Nie znaczy to jednak, że należy lekceważyć ich możliwości – postanowiliśmy poddać je takiej samej procedurze testowej jak aplikacje “pudełkowe”.

Przede wszystkim skutecznie

Testując aplikacje OCR, zrezygnowaliśmy ze sprawdzania szybkości, dlatego że testy wstępne wykazały minimalne różnice w czasie przetwarzania kilkustronicowych dokumentów. Istotne rozbieżności pojawiałyby się zatem dopiero przy wczytywaniu bardzo wielu stron. Spory nacisk położyliśmy na test skuteczności rozpoznawania, uznając, że w wypadku tych programów jest ona najważniejsza. By ocenić ten parametr dla różnych rodzajów druku, przygotowaliśmy kilka dokumentów, które następnie wydrukowaliśmy na różnych drukarkach, wysłaliśmy faksem itd. Jako materiały źródłowe wykorzystaliśmy także popularne gazety i magazyny oraz teksty napisane na maszynie i drukowane na “plujce” starego typu (posklejane litery). Skuteczność rozpoznawania poszczególnych dokumentów obliczaliśmy jako stosunek poprawnie rozpoznanych słów do wszystkich słów w danym dokumencie.

Największą “rzetelnością” wykazały się OmniPage 14 oraz FineReader 7. Nie można też pominąć faktu, że ten pierwszy program potrafił bezbłędnie rozpoznać wszystkie wyrazy z tekstów “magazynowych” oraz plików PDF.

Laser i atrament

Bardzo ciekawe jest zestawienie skuteczności rozpoznawania tekstów wydrukowanych na drukarce laserowej i atramentowej. Najlepsze programy uzyskały tu odpowiednio wyniki 99,8% i 99,9%, zatem korekty wymagało jedno lub dwa słowa na tysiąc! Najgorsze wyniki uzyskaliśmy w aplikacji OmniPage SE – 98,9% – ale i to oznacza, że na przeciętnej stronie A4 (ok. 500 wyrazów) popełnia ona tylko 5-6 błędów. Wydaje się to niezłym wynikiem. Biorąc pod uwagę, że zawodowej maszynistce przepisanie strony tekstu zajmuje ok. 7-8 minut, to w tym czasie powinniśmy bez problemu zdążyć zeskanować, przetworzyć i poprawić co najmniej dwie strony.

Wszystkie aplikacje uzyskiwały bardzo dobre wyniki także w rozpoznawaniu dokumentów PDF, książek, czasopism i gazet. Znakomita większość programów dobrze sobie poradziła także z posklejanymi literami, będącymi efektem wydruków na starej, nieco rozregulowanej drukarce atramentowej. Podobnie dużą skutecznością (od 97,0% do 99,9%) wykazały się aplikacje podczas “czytania” wydruków z drukarki mozaikowej.

Gorzej lub wcale

Problemy pojawiły się przy rozpoznawaniu pozostałych rodzajów tekstu. Wyraźny spadek skuteczności zauważalny jest przy słabej jakości kserokopiach (od 90,1% do 99,0%) oraz faksach. Z tym ostatnim materiałem nie poradziła sobie starsza wersja OmniPage. Jej skuteczność wyniosła tu zaledwie 61,8%, co oznacza, że lepiej dokument w całości przepisać. Konkurencyjne aplikacje wypadły znacznie lepiej: od 85,5% w wypadku obu wersji ReadIRIS-a do nieco ponad 98% dla produktów rosyjskiej firmy Abbyy.

Najtrudniejszy do pokonania okazał się jednak dla wszystkich programów maszynopis. Z tego rodzaju tekstem zupełnie nie poradziły sobie produkty I.R.I.S.-a, a pozostałe aplikacje osiągnęły skuteczność poniżej 90%. Najlepsza (89,3%) okazała się tutaj najnowsza wersja OmniPage Pro 14.

Więcej:bezcatnews