A DjVu dokumentum formátumról bővebben


Mi a DjVu és mi a titka a különleges hatékonyságának

A világon hihetetlen mennyiségű információ még ma is csak papíron érhető el, nyomtatott szövegek, képek, kották, kéziratok formájában. Ennek oka, hogy az anyagok digitalizálása és digitális publikálása igen nehézkes feladat. A szöveg olvashatóságát, a képek eredetihez való hűségét biztosító szkennelési és tárolási kapacitás nem is olyan régóta áll rendelkezésre, de mégis a hagyományos módszerekkel, a kívánt minőségi szinten történő archiváláshoz szükséges tárterület és erőforrás szükséglet a gyakorlatban használatlanná és továbbíthatatlanná tenné a dokumentumokat. A digitalizálásra általánosan használt formátumok, mint például a JPG, GIF vagy PNG, kis fájlméretben csak nagyon rossz minőséget tudnak tárolni, jó minőségben pedig az internetes felhasználáshoz alkalmatlan méretű fájlokat hoznak létre.

A DjVu (ejtsd "dézsá vu") egy új, céltudatosan a szkennelt dokumentumok kezelésére kifejlesztett formátum, melynek fejlesztését az AT&T munkatársai kezdték 1996-ban. A technológia fejlesztése jelenleg a Cuminas nevű cég kezében van.

A formátum lehetővé teszi, hogy az interneten igen nagy felbontásban jelenhessenek meg a szkennelt dokumentumok, fotók, újságok, kézikönyvek, történelmi vagy antik könyvek.

Kutatóintézetek, könyvtárak, levéltárak és más dokumentum archívumok tehetik az anyagaikat könnyen elérhetővé és tárolhatják, kezelhetik azokat digitális formában.

A DjVu formátum előnyei

A DjVu egy nyílt szabvány. Bárki számára elérhető a formátum pontos leírása és a kezeléséhez szükséges szoftverek egy nyílt forrású megvalósítása. (Habár - mint szinte minden más is - tartalmaz bizonyos szabadalmaztatott eljárásokat.)

A DjVu színes dokumentumok vagy képet és szöveget is tartalmazó oldalak esetén

Színes oldalak, teljes színmélységben, 300 DPI-n, 30-100 KB-ra tömöríthetőek, a fekete-fehér oldalak pedig 5-20 KB helyet foglalnak el!

A megjelenítéséhez a legtöbb operációs rendszeren elérhetők programok, online megjelenítéshez pedig böngésző pluginek. Ezekben az egyes oldalak könnyen nagyíthatóak és mozgathatóak: az egyedi, menetközbeni kitömörítési technológiának köszönhetően, olyan oldalak amelyek normálisan 25 MB-ot igényelnének, DjVu-ban 2 MB memóriahasználattal megtekinthetőek.

Alapoktól újragondolt tömörítési megoldások

A hagyományos képkezelő programok a teljes képet kitömörítik a megjelenítéshez. Ez a megközelítés nagy felbontású dokumentumok esetén igen erőforrás igényes. Ezzel szemben a DjVu mindig tömörítve tartja a képet a memóriában és csak az aktuális nézet megjelenítéséhez szükséges információrészleteket tömöríti ki. Ezzel a nagyfelbontású (akár 300-600 DPI) képekből álló dokumentumok is problémamentesen megjeleníthetők akár gyengébb eszközökön is, mint például régebbi PC-k, hordozható eszközök vagy okostelefonok.

A DjVu formátum progresszív megjelenítést tesz lehetővé: a felhasználók már azonnal láthatnak egy kevés információból előállított képet, ami folyamatosan finomodik a további információk megérkezésekor.

A DjVu egyik leglényegesebb technológiai eleme az oldalak szétválasztása rétegekre. A fentebb említett egyéb formátumok hátránya, hogy nem tudják külön kezelni a háttérben vagy képeken jelentkező sokszínűséget és a kontrasztos éles vonalakat igénylő betűket, fekete-fehér ábrákat. A JPG - amely inkább fotók tömörítésére alkalmas - a kontrasztos éleket (pl betűket) összemossa, túlságosan lerontva a minőséget. Fekete-fehér oldalak esetén pedig a többi tömörítőnél a írott szövegekre kidolgozott speciális tömörítési eljárás miatt ér el jobb eredményt. A rétegek külön kezelésével a DjVu képes egy nagyon magas felbontású és kontrasztos előtér réteg tárolására, míg a hátteret és a képeket tárolhatja a egy kisebb felbontású, veszteséges tömörítéssel.

OCR szöveg réteg és további tárolható adatok

A dokumentum ezeken felül tartalmazhat karakter-felismert szöveget (OCR): pontosan a szavak és betűk eredeti helye fölé pozicionált réteg, így a szöveg kijelölhetővé, másolhatóvá és kereshetővé válik. Tartalmazhat navigálható tartalomjegyzéket, URL linkeket vagy oldal linkeket, tetszőleges dokumentumjellemzőket (cím, szerző stb.) és egyszerűbb megjegyzéseket tartalmazó vonalas ábrákat.

A méret és sebességbeli előnyök a mai asztali gépek és szélessávú internet mellett kevésbé tűnhetnek fontosnak, de gondoljunk a feldolgozandó információ töménytelen mennyiségére, ilyen skálával szemlélve ez a hatékonyság felbecsülhetetlen különbséget jelent.

Példák

A szöveg a djvu.org bemutatója alapján készült. A pontos fájl méret arányokat nem ellenőriztük és ez nagyban függ a tesztelt dokumentum tartalmától és az alkalmazott tömörítés pontos beállításaitól.

DjVu vagy PDF?

A DjVu legjobb alternatívája a PDF formátum. Természetesen az olyan felhasználási területeket értelmetlen összevetni, ami nem is célja a DjVu-nak, mint például eleve szövegként meglévő dokumentumok tárolása*. Viszont hiába volt 2000-ben a DjVu a papír lapok digitalizálására sokkal inkább megfelelő, fejlesztése azóta is áll, míg a PDF-é gőzerővel folytatódott.

Ma már a PDF is támogatja a többrétegű oldalakat, a DjVu-hoz hasonlóan különböző minőségű tömörítésekkel. A PDF-ben az egyes rétegek (több is lehet) a lap tetszőleges területét fedhetik le, tehát a "háttér réteg"-be nem kell beletömörítenünk az információt nem tartalmazó fehér területeket.

Az Acrobat 9-ben megjelent ClearScan technológia annyiban szintén a DjVu-ra emlékeztet, hogy az egyes karakterek ismétlődést referencia hivatkozásokkal tudja tömöríteni, de tovább megy ennél: vektorizálja a betűk formáját, így tetszőleges nagyításnál is folytonos vonalak láthatók. (Ez nem változtat az karakter felismerés pontosságán vagy lehetőségein.) Ezzel a megoldással a fájlméret akár tizedére is csökkenthető.

Ettől függetlenül még mindig megvan a DjVu helye a piacon és talán idővel fejlesztések is történnek. A cikk elején felsorolt előnyei még ma is versenyképesé teszik, nem mellékesen a formátum nyílt szabvány és nyílt forráskódú referencia implementációk érhetők ez az összes szükséges művelethez.

* A Cuminas erre is talált megoldást és Digital to DjVu néven árusítja a Document Express részeként.