FineReader 11 Professional Edition (Ing. Miroslav HEROLD, CSc.)

18.6 2015
Na Jeronýmovi 2011 byl vystaven OCR program FineReader 11 Professional Edition (dále jen FR11). Překvapením bylo, že od uvedení verze 10, která byla recenzována v ToP 101/2011, neuplynulo ještě tolik času a firma dává na trh verzi další. Čím si chce zasloužit pozornost profesionálního překladatele?

Hlavní novinky verze 11

- Počet rozpoznávaných jazyků byl opět zvýšen, oproti verzi 10 o další 3, na 189. Přibyla arabština, vietnamština a turkmenština psaná latinkou. Pro 36 jazyků lze používat kontrolu pravopisu s podporu uživatelských slovníků.

- Pokud se zpracovává černobílý podklad, je k dispozici speciální černobílý režim, který je – podle údajů výrobce – až o 30% rychlejší. Nemám na jednom počítači vedle sebe verzi 10 a 11, abych byl schopen provést přesné měření. Faktem však zůstává, že testovací PDF publikaci Dr. Koukolíka: Vzpoura deprivantů, která má 305 stran, zvládl FR11 převést z PDF do EPUB za 3 minuty a 12 vteřin. V tomto čase je zahrnuta i automatická analýza rozložení.
Je samozřejmé, že při skutečném převodu knihy by se analýza rozložení musela ještě manuálně mírně doladit.

- Mezi výstupní formáty přibyly EPUB a FB2, které jsou hojně využívány v elektronických čtečkách knih. Možnost tohoto převodu je pro majitele čteček velmi zajímavá, neboť tak si lze vzít do kapsy slovníky, které by ve formátu PDF, který je jedním z obvyklých výstupů při skenování tištěných publikací, na obrazovce chytrého mobilního telefonu byly nečitelně malé.

- Vzhledem k tomu, že ABBYY vyváží FR11 i do států, kde není tak silná pozice Microsoft Office jako v ČR, byla přidána nativní podpora OpenOffice.org Writer, tj. přímý převod do formátu ODT. V ČR se může hodit provozovatelům SW systémů Software602, které jsou vybudovány nad tímto formátem.

- Rozšířená možnost zpracování fotografovaných dokumentů = funkce předběžného zpracování obrazu, kterou lze spustit při otevírání obrazu, automaticky opravuje běžné defekty digitálních fotografií, tj. odstranění šumu, korekce zešikmení, vyrovnání řádků s textem a odstranění lichoběžníkového zkreslení.

Kromě toho je k dispozici manuální editor obrázků, který vidíme na Obr. 9.

Funkce - rozhraní

Na úvodní obrazovce (viz Obr. 1.) přibylo při rychlém zpracování nové okno = skenování/převod do formátu EPUB/FB2. V rámci tohoto okna i oken dalších, již v FR10 standardních, se nabídne volba režimu plnobarevného a režimu černobílého (viz Obr. 2). Režim černobílý, viz poznámka výše o převodu 305 stránek PDF publikace, umožňuje zrychlení = časovou úsporu.Pokud se podíváme na hlavní okno při otevřeném dokumentu (Obr. 3), změn oproti FR10 je minimálně. V okně Obrázek přibyla ikonka Obrázek na pozadí, pod níž se skrývá nově přidaná funkce, užitečná při zpracování technických výkresů nebo zobrazení, mezi nimiž je nutné rozpoznávat text. S takovýmto uspořádáním mívaly minulé verze občas potíže.

Další kosmetickou změnou je v okně text překřtění bývalé Kontroly pravopisu na Ověřování. Prováděná funkce (viz Obr. 3) zůstala stejná jako u FR10, pouze tlačítka ovládající velikost zobrazení se přestěhovala.

Probereme-li jednotlivé nabídky, zjistíme následující nové funkce: V nabídce soubor přibyla funkce Rozdělit do několika dokumentů. Bude velmi praktická při zpracování naskenovaných vícestránkových dokumentů. Skenování je vhodné provádět najednou pro všechny stránky (nastavení skeneru na určitý formát nebo rozlišení). Nastavení typů rozpoznávaných oblastí a vlastní rozpoznávání lze teď rozdělit do více etap, např. 100 naskenovaných stran lze rozpoznávat v 5 etapách, což je efektivnější.

V dalších nabídkách (Upravit až Nástroje) nedošlo k podstatným změnám.

Poznatky a připomínky

- Bezesporu největší novinkou verze 11 je přímý výstup do formátu pro elektronické čtečky knih. Jeho praktické ověření však ukázalo některá úskalí přímočarého procesu. Když se podíváme na Obr. 3., kde je podchycen PDF soubor převáděný na formát EPUB, vidíme jeden nedostatek = počáteční jednořádkové nadpisy stlačí algoritmus do jediné řádky. Je to způsobeno skutečností, že formáty elektronických čteček mají flexibilní délku řádky, aby si uživatel čtečky mohl přizpůsobit velikost písma podle svého zraku.
Z tohoto důvodu nelze pro EPUB formát použít nastavení Přesná kopie nebo Upravitelná kopie v FR11, které jsou vyhrazeny pro převody DOC, RTF, ODT a jim podobné.
Pro další víceřádkové odstavce se tato závada již neprojevuje. Z tohoto důvodu lze např. majitelům čtečky Kindle3 a vyšších modelů u takovýchto textů spíše doporučit převod nejprve do DOC nebo RTF s nastavením přesná kopie a následné načtení do Kindle prostřednictvím aplikace Calibre E-Book Management. Pokud se v převáděném textu vyskytne větší množství takto uspořádaných nadpisů, např. kapitol, bude to rychlejší. Je-li nadpisů/řádek méně než 5-7, je rychlejší převádět jako EPUB a nové řádky upravit v dílčím okně FR11 Text.

- Další příklad na Obr. 17 je přímé skenování. Zde se jedná o knihu Barron: Dictionary of Banking Terms. Výběr na ni padl vzhledem k její jednoduché struktuře, kde důležitý je obsah v kapse. Předpoklad = akce, která nedovoluje mít s sebou přes rameno notebook. No obrázku je patrný bezchybný převod. FR11 se totiž připojuje přímo na skener, který si nastaví na parametry potřebné ke kvalitnímu rozpoznávání.
Obr. 18 ukazuje rozpoznaný text otevřený v aplikaci MobiReader. Je to jen jedna z mnoha aplikací, které umí otevřít formát EPUB a přenést jej do mobilních zařízení. Příjemnou vlastností této aplikace je skutečnost, že je na Internetu ke stažení zdarma. Povšimněme si flexibilního zalomení řádek, což je nutné pro zařízení s malou obrazovkou.

Obr. 19 ukazuje obrazovku mobilu NOKIA N73 s otevřeným slovníkem. Je to pouze ukázka, jak lze klasickou publikaci zmenšit a přenést do mobilního zařízení. Tento mobil je při vyhledávání v textu velmi zdlouhavý a nelze jej na slovníky doporučit. Něco jiného jsou moderní chytré telefony s operačním systémem Android nebo čtečky, které mají vyhledávací funkce na úrovni netbooku.

- Došlo ke změně grafického uspořádání okénka Editor stylu, viz Obr. 4. Na uvedeném obrázku je vidět zadání nového stylu Nadpis, s odlišným typem, velikostí a s tučným písmem.
- Funkce Obrázek na pozadí bude velmi užitečná při všech překladech, kde zdrojový text je roztroušen mezi obrázky nebo dokonce nad obrázky. V předchozích verzích, i když se podařilo vymezit lomenými čarami obrázky a text, vždy zůstal podklad pod textem v barvě papíru.
Na Obr. 5. je testovací fotografie, vytvořená v editoru fotografií, kdy nad fotkou je text a vše je uloženo do jedné vrstvy, takže překlad nepadá v úvahu, a to ani v editoru fotek.
Na Obr. 6. Je tato fotografie natažená do FR11 s nastavením parametru Obrázek na pozadí.
Obr. 7. ukazuje výstupní soubor DOC s anglickým textem, který je již oddělen od obrázku. Konečně na Obr. 8. je soubor DOC s textem přeloženým do češtiny.


V tomto případě se jedná o simulovaný příklad, nicméně naprosto stejně se dá postupovat při skutečném zadání od klienta. Pouze je nutné pečlivě vymezit ohraničení oblasti podkladového obrázku a jednotlivých textových polí. Příjemné je, že takto připravený soubor DOC lze překládat ve všech CAT programech.

- Pokud je zadávaný podklad (v obrazovém formátu) s nějakou vadou, lze to před spuštěním rozpoznávání ještě opravit v Editoru obrázku, který poskytuje základní funkce, tak jak je známe z klasických programů na editaci obrazů (viz Obr. 9.) = korekce zešikmení, lineárního zkreslení, otáčení a převracení, úpravy jasu a úrovně.
Jediné, co nikdy nikdo už nespraví, je nedostatečné rozlišení. Pokud dostaneme od klienta ať již obrazové formáty, nebo soubory PDF, které byly pořízeny na skeneru, a mají nedostatečné rozlišení, a FR11 nahlásí nedostečné rozlišení k rozpoznávání, jediná rozumná pomoc je rychle z klienta vydolovat zadání, mající rozlišení dostatečné.
Z takovéhoto podkladu totiž výstupní soubor obsahuje velký počet spatně rozpoznaných znaků, které se následně musí opravovat manuálně = ztracený čas = ztracené peníze.
Položka nabídky Korekce fotografie umí, krom jiného, také narovnat textové řádky, které jsou při skenování silnější knihy u hřbetu do oblouku. ALE POZOR, algoritmus není geniální a nerozliší, že jsme skenovali lajdácky, tj. že přítlak ruky roztahující knihu je nerovnoměrný. Pokud bude zaoblení řádků v horní části stránky a v dolní části odlišné, bude korekce na průměru, tj. buď nahoře, nebo dole nás čeká hodně oprav chybně rozpoznaných znaků= ztráta času.
Ukázka je na Obr. 10., kde teprve čtvrté heslo ze slovníku je rozpoznáno správně. První tři, vlivem nerovnoměrného zaoblení řádků obsahují mnoho chybných rozpoznání. Správně naskenované a tedy i rozpoznané stránky jsou na Obr. 17.

Slovník na kontrolu pravopisu, lokalizace

Již na webových stránkách narazíme na prohřešky proti správnému tvarosloví – viz Obr. 11. Správný tvar = Webové stránky. Autor asi chtěl napsat hovorově „Webový“, ale shoda se substantivem „stránky“ byla již mimo jeho možnosti.

Dalším humorným překladem je „Belgičtina“ na Obr. 12. I nepříliš lingvisticky vzdělaný autor ví, že takovýto jazyk neexistuje. Bohužel nemám možnost přeinstalovat na FR11 s anglickým rozhraním, a tak zjistit, co tam vlastně v originále je.
Kontrola pravopisu vzbuzuje v rodilém českém mluvčím rozpaky. Na jedné straně FR11 někdy rozpozná a nabídne správnou opravu i při dvou nesprávně rozpoznaných znacích v jediném slově (s čímž i WinWord má někdy potíže), jindy zase i u zcela běžných slov hlásí neznámé slovo.

Za neznámé považuje i slovo „parníčků“ (obr. 13), což je banální zdrobnělina, a nabízí opravy „Pavlíčků“ a podobné. Důvod proč ruský analytik pochopil, že zdrobnělina ke slovu Pavel je Pavlíček, a nedošlo mu, že ke slovu „parník“ je to „parníček“ je za hranicemi chápání rodilého mluvčího. Platí do omrzení stále totéž, co u minulých verzí = programátorsky jsou produkty ABBYY zpracovány na skutečně vysoké úrovni, ale když dojde na lingvistiku, narazí na velmocenskou nabubřelost. Detailní znalost, respektive schopnost najít kvalifikovaného rodilého mluvčího z jejich hlediska malých jazyků, je pod úroveň firmy.

Uživatelský slovník, respektive zadávání nových slov, nabízí možnost importu souboru. Stačí v oblíbeném editoru vytvořit sloupcový seznam dosud neznámých slov a z dialogového okna Slovník provést import. V nápovědě uváděná vlastnost uživatelského slovníku (že k zadanému základnímu tvaru si aplikace automaticky dotvoří ostatní správné tvary) – viz Obr. 14 – není vždy splněna.
Podíváme-li se na Obr. 15, vidíme, že „formička“ byla již do slovníku zadána, a přesto je tvar „formičky“ označen jako neznámý. Na témže obrázku je i chybná nápověda „horničky“, což asi mělo být femininum k horníkovi. Nicméně správný tvar je „hornice“.

Tento způsob automatizovaného dotváření databáze korektoru se postaral i o některé humorné nápovědy „správných“ tvarů, viz Obr. 16, kde jsou neologismy „volatýma, věcnatýma“. Tentýž obrázek ukazuje ještě další past, které se autoři korektoru nedokázali vyhnout – nesprávné extrapolace. Koncovka „-ýma“ je správná pouze omezeně, pro párové orgány. Zde ji však vidíme i u adjektiv, která nelze s těmito orgány použít ani náhodou- viz „hornatýma“.

Návod

Uživatelská příručka ve formátu PDF se oproti verzi 10 rozrostla o dalších 30 stran na celkem 110. Podrobně popisuje všechny činnosti, které jsou zapotřebí k úspěšnému převodu naskenovaného/vyfoceného nebo PDF dokumentu do podoby, kterou lze prohledávat anebo upravovat.
Pro případ fotografování dokumentů je začleněn i poměrně podrobný popis (13 stránek), jaké musí fotoaparát splňovat parametry a jak postupovat při fotografování.

Závěr

Počet klientů, kteří si nechávají přeložit průvodní dokumentaci výrobků a překladateli ji předávají ve formátu PDF – bohužel – stále vzrůstá. S rostoucím počtem nových modelů daného produktu v jediném roce tištěný manuál nestihne skoro nikdo, z čehož se zákonitě rodí příručka v PDF formátu. Že někde v dálce za mořem tento PDF formát musel zákonitě vzniknout buď z DOC, PPT, XLIFF či jiného formátu přímo kompatibilního s CAT nástroji, to většinou evropský zástupce spíše tuší než ví. A vůbec nemá chuť složitě komunikovat se zámořím a žebrat o zaslání onoho zdrojového formátu.

Tak tedy překladatel dostane PDF a je na něm, jak toto dilema rozřeší. Pomineme-li přístup z doby krále Klacka = tisk a následný překlad z papírového zdroje = zbývá jen konverze na některý formát, s nímž je náš CAT systém kompatibilní. Nu a na tomto poli je společnost ABBYY na evropském trhu v posledních letech nespornou jedničkou optimálního poměru CENA/VÝKONNOST.

Když pomineme dokumenty se složitou grafikou, budeme tedy uvažovat pouze dokumenty PDF v čistě textovém složení, troufám si tvrdit, že pořízení FR11 za níže uvedenou pořizovací cenu se překladateli užívajícímu některý z vyspělých CAT nástrojů vrátí po cca 150 až 200 pracovních hodinách strávených překladem. Uvažuji nízkou hodinovou výkonnost 300,- Kč a časovou úsporu 7 až 12 %. Vzpomeňme si na minuty ztracené na jediném segmentu zdroje, kdy zadavatel měl pár chybných znaků New Line (NL), a tento segment bylo při překladu nutné slučovat s následujícím.

Pokud narazíme na klienta ochotného zaplatit za překlad, který bude formátovým zrcadlem zdrojového PDF textu, počet hodin návratnosti se dramaticky sníží. Nikdo nás nenutí k hloupé otevřenosti. Pokud klient spolkne nabídku, že pomocí DTP nástrojů umíme udělat zrcadlo zdroje v překladu kopírováním formátování včetně ilustrací, tak pořízení FR11 se zaplatí v jediné velké nebo dvou menších zakázkách.

Věřím, že většina kolegů již ten či onen CAT nástroj používá, nicméně i pro ty, kteří se k jeho pořízení doposud nerozhoupali, bude rozhodně příjemnější mít na široké obrazovce vedle sebe ve Wordu otevřený zdrojový text a do vedlejšího okna psát překlad, nebo kopírovat vzorce či ilustrace, než dělat totéž s levým oknem v PDF. Z tohoto okna se totiž poněkud obtížně kopíruje.

Pokud se týče kontroly pravopisu a lokalizace, je na firmě ABBYY, aby konečně pochopila, co Microsoft pochopil před více než 10 lety: kvalitní spellchecker češtiny se nedá udělat v Irsku, ani v Moskvě.
IMG-jpg-OB-FR11-13.jpg -  Stáhnout
IMG-jpg-OB-FR11-14.jpg -  Stáhnout
IMG-jpg-OB-FR11-15.jpg -  Stáhnout
IMG-jpg-OB-FR11-16.jpg -  Stáhnout
IMG-jpg-OB-FR11-18.jpg -  Stáhnout
IMG-jpg-OB-FR11-2.jpg -  Stáhnout
IMG-jpg-OB-FR11-4.jpg -  Stáhnout
IMG-jpg-OB-FR11-7.jpg -  Stáhnout
IMG-jpg-OB-FR11-8.jpg -  Stáhnout
|<  <   1 2    >  >| Pages: 2 of 2
Žádné komentáře. Buďte první.

Přidat komentář

European Commission International Federation of Translators Asociace konferenčních tlumočníků v ČR Komora soudních tlumočníků ČR Česká komora tlumočníků znakového jazyka Obec překladatelů Svaz českých knihkupců a nakladatelů Filozofická fakulta Univerzity Karlovy v Praze Filozofická fakulta UMB v Banskej Bystrici Svět knihy Opus arabicum Slovenská spoločnosť prekladateľov odbornej literatúry Pražský Literární Dům iLiteratura STAR Group Paraple Centrum

O JTP

JTP je nezávislá, dobrovolná, profesní organizace profesionálních tlumočníků a překladatelů otevřená všem, kteří chtějí podpořit její činnost. JTP byla založena v roce 1990, aby hájila profesní, pracovně právní a sociální zájmy svých řádných členů, napomáhala jim k dalšímu vzdělávání, propagovala je na trhu práce a informovala je o pracovních příležitostech. JTP dbá na povznesení společenské prestiže profese i kvality překladu a tlumočení. JTP je členem Mezinárodní federace překladatelů FIT.


Více

Kontakt

Senovážné náměstí 23,
Praha 1, 110 00

Tel.: 224 142 312
Tel.: 224 142 517
E-mail: JTP@JTPunion.org


NÁVŠTĚVNÍ DOBA:
středa 11.00 - 15.00 hod.
 

Napište nám

Jen vám chceme připomenout, že náš web používá cookies. Pokud si jejich nastavení nezměníte, bereme to jako souhlas s jejich užíváním. Přenastavit je samozřejmě můžete kdykoliv (další informace).