Lecţia 3 - zona4.arhiva-ortodoxa.infozona4.arhiva-ortodoxa.info/.../Soft/...despre-DjVu.pdf · A N...

12
Lecţia 3 Formatul DjVu şi structurarea funcţională a cărţilor digitale Premiză: O carte digitală, întrucît e digitală, trebuie să se bucure de toate facilităţile informatizării. Introducere: rin structurarea cărţilor digitale înţelegem adăugarea posibilităţilor de navigare internă, „pe verticală” - arborele de conţinut sau indicele, „pe orizontală” - motorul de căutare după text (cu textualizarea prealabilă a cărţii scanate), generală sau după cuvintele-cheie prestabilite. Un alt element de considerat împreună cu acestea, însă cu semnificaţie prevalent estetică este copertarea. P Cîteva cuvinte despre vehicolul acestori facilităţi: ărţile scanate se deosebesc de cele „tipărite” (bazate pe texte culese din start la computer) prin faptul că sunt de tip grafic (imagini), exact ca şi pozele foto digitale. Deşi conţin informaţie textuală, textul lor nu este accesibil ca atare (spre exemplu, pentru „copy-paste” sau pentru „search”). Pe lângă acest disconfort funcţional, cărţile scanate atât timp cât rămân ca imagini (sau ca PDF) au şi un dezavantaj fizic foarte mare, fiind incomode pentru lectură (răsfoirea lentă) şi pentru depozitare (greutate enormă). O metodă eficientă pentru depăsirea acestor neajunsuri constă în utilizarea formatului de compresie DjVu. C Anexa 1 despre secretul formatului DjVu şi analiza lui comparativă cu PDF Compresia DjVu : n rezultatul prelucrării scanatelor în Scan Kromsator 5.91 am obţinut mapa „out” în acelaşi sediu ca şi fişierul sursă TIF G4Fax. Pentru compresia DjVu folosim programul deja amintit DjVu Small 0.3.3 după metoda descrisă (vezi Lecţia 1), schimbînd doar profilul în „user b/w 300” Î Anexa 2 , în care găsiţi şi un truc pentru reducerea dimensiunii finale a fişierului DjVu cu pînă la 25% NOTĂ: Toate etapele ulerioare se pot face într-un timp secund. Copertarea n moment cu valoare preponderent estetică îl constituie adăugarea copertei originale color la cartea comprimată DjVu. Dincolo de frumuseţe, copertarea oferă şi avantajul de a putea lesne repera cartea digitală în regimul „thumbnails” din Explorer graţie unicităţii copertelor în lumea livrescă (vezi schema de mai jos). U Anexa 3, despre pregătirea copertei şi unirea ei la DjVu principal

Transcript of Lecţia 3 - zona4.arhiva-ortodoxa.infozona4.arhiva-ortodoxa.info/.../Soft/...despre-DjVu.pdf · A N...

Page 1: Lecţia 3 - zona4.arhiva-ortodoxa.infozona4.arhiva-ortodoxa.info/.../Soft/...despre-DjVu.pdf · A N E X A 1 * s e c r e t u l D J V U Anexa 1: Secretul formatului DjVu (înapoi la

Lecţia 3Formatul DjVu

şi structurarea funcţională a cărţilor digitalePremiză:

O carte digitală, întrucît e digitală, trebuie să se bucure de toate facilităţile informatizării.

Introducere:

rin structurarea cărţilor digitale înţelegem adăugarea posibilităţilor de navigare internă, „pe verticală” - arborele de conţinut sau indicele, „pe orizontală” - motorul de căutare după text (cu textualizarea prealabilă a cărţii scanate), generală sau după cuvintele-cheie prestabilite. Un

alt element de considerat împreună cu acestea, însă cu semnificaţie prevalent estetică este copertarea. PCîteva cuvinte despre vehicolul acestori facilităţi:

ărţile scanate se deosebesc de cele „tipărite” (bazate pe texte culese din start la computer) prin faptul că sunt de tip grafic (imagini), exact ca şi pozele foto digitale. Deşi

conţin informaţie textuală, textul lor nu este accesibil ca atare (spre exemplu, pentru „copy-paste” sau pentru „search”). Pe lângă acest disconfort funcţional, cărţile scanate atât timp cât rămân ca imagini (sau ca PDF) au şi un dezavantaj fizic foarte mare, fiind incomode pentru lectură (răsfoirea lentă) şi pentru depozitare (greutate enormă). O metodă eficientă pentru depăsirea acestor neajunsuri constă în utilizarea formatului de compresie DjVu.

C Anexa 1 despre secretul formatului DjVu şi analiza lui comparativă cu PDF

Compresia DjVu :

n rezultatul prelucrării scanatelor în Scan Kromsator 5.91 am obţinut mapa „out” în acelaşi sediu ca şi fişierul sursă TIF G4Fax. Pentru compresia DjVu folosim programul deja amintit

DjVu Small 0.3.3 după metoda descrisă (vezi Lecţia 1), schimbînd doar profilul în „user b/w 300”

Î Anexa 2, în care găsiţi şi un truc pentru reducerea dimensiunii finale a fişierului DjVu cu pînă la 25%

NOTĂ: Toate etapele ulerioare se pot face într-un timp secund.

Copertarea

n moment cu valoare preponderent estetică îl constituie adăugarea copertei originale color la cartea comprimată DjVu. Dincolo de frumuseţe, copertarea oferă şi avantajul

de a putea lesne repera cartea digitală în regimul „thumbnails” din Explorer graţie unicităţii copertelor în lumea livrescă (vezi schema de mai jos).

U Anexa 3, despre pregătirea copertei şi unirea ei la DjVu principal

Page 2: Lecţia 3 - zona4.arhiva-ortodoxa.infozona4.arhiva-ortodoxa.info/.../Soft/...despre-DjVu.pdf · A N E X A 1 * s e c r e t u l D J V U Anexa 1: Secretul formatului DjVu (înapoi la

Schemă: Fişierele DjVu în Windows Explorer

NOTĂ: Pentru a putea previzualiza fişierele DjVu în regim „thumbnails” instalaţi programul gratuit DjVu Shell Extension.

Indexarea şi textualizarea:

dăugarea stratului de text „cules” la imaginea DjVu corespunzătoare (textualizare), ca şi a arborelui de conţinut (indexare) sunt etape ultime, textualizarea de

regulă, precedând indexarea. Vor fi tratate în lecţiile următoare. A

Anexa 4, pentru descoperirea rezultatului final

În loc de încheiere:

n lecţia precedentă am promis să tratăm mai îndeaproape subiectul restaurării cărţilor scanate „de proastă calitate” - înţelegînd prin ultima atît neoformarea estetică a conţinutului, cît şi defectele de lizibilitate. Înrudită cu restaurarea este aşa-zisa optimizare grafică, la care vom face apel însă în

situaţiile normale. În exemplul ce urmează vom trata un caz comun de compresie a imaginilor de tip ”gri”, care la bitonalizarea normală rezultă aproape întotdeauna defectuoase:

Î (a) original (b) bitonalizare normală (c) bitonalizare optimizată

Page 3: Lecţia 3 - zona4.arhiva-ortodoxa.infozona4.arhiva-ortodoxa.info/.../Soft/...despre-DjVu.pdf · A N E X A 1 * s e c r e t u l D J V U Anexa 1: Secretul formatului DjVu (înapoi la

Procedeu: bitonalizarea optimizatăDjVu Small 0.3.3 profilul „photo 300” DjVu Ocr 2.4 (+ bitonal) BMP negru-alb

1. Comprimaţi repetent imaginile originale ale paginilor defectuoase în DjVu cu profilul „photo 300” (DjVu Small 0.3.3)

NOTĂ: Dacă fişierul sursă este PDF, puteţi salta etapa decomprimând deodată imaginile individuate în format „bmp”, cu ajutorul STDU Viewer, versiunea 1.5.330. Pentru o calitate mai bună, puteţi contrasta noile imagini cu ajutorul lui FastStone Photo Resizer, având grijă ca la ieşire să le salvaţi tot în format „bmp”. Necesită timp (350 pagini = 1-2 ore) şi spaţiu (1 pagină = 10 Mb)!

2. Decomprimaţi DjVu în format „bmp” cu ajutorul lui DjVu Decoder din cadrul lui DjVu Ocr 2.4, selectând şi opţiunea pentru bitonalizare: „To bitonal” (pe desen vezi „e”)

3. Recompresia finală după modalitatea obişnuită pentru cărţile negru-alb (profil „b/w 300”)

NOTĂ: Acest algoritm poate fi angajat şi ca procedeu de bază pentru bitonalizare dacă se face abstracţie de timpul şi de spaţiul necesar.

Page 4: Lecţia 3 - zona4.arhiva-ortodoxa.infozona4.arhiva-ortodoxa.info/.../Soft/...despre-DjVu.pdf · A N E X A 1 * s e c r e t u l D J V U Anexa 1: Secretul formatului DjVu (înapoi la

ANEXA

1*secretul

DJVU

Anexa 1: Secretul formatului DjVu (înapoi la text):

PDF vs DjVu

ata foarte mică de compresie a scanatelor atunci cînd sunt salvate ca PDF, se explică prin principiul pe care se bazează şi anume, pe identificarea repetiţiei caracterelor digitale – litere, cifre etc – mecanism, care în faţa informaţiei textuale „non-textuale”

a imaginilor scanate se adevereşte cu totul neputincios. În aceste condiţii compresia devine liniară şi dezavantajoasă din punct de vedere economic.

R Pe de altă parte, mecanismul pe care se bizuie codificarea DjVu este descompunerea imaginilor pe „straturi” cu aplicarea consecutivă a diverselor metode de compresie pentru fiecare din ele.

Principiul formatului DjVu:

onstă în separarea „figurii” de „fond”: elementele grafice cu contururi nete (text şi desene) formează stratul ”mask”/”stencil”, care împreună cu informaţia despre culori alcătuieşte aşa-zisul strat superficial „foreground”. Toate celelalte elemente,

mai mult sau mai puţin estompate, formează aşa-zisul strat profund „background” (vezi schemele următoare).

CIată şi secretul. Stratul superficial, ca purtător de bază al informaţiei utile lizibile, este comprimat cu rezoluţie 100%, iar cel profund – după caz, în funcţie de profilul ales (de la „0” - în „bitonal”, la „100%” în „photo”). În toate cazurile informaţia utilă trebuie să rămână clară şi distinctă (stratul superficial = text; stratul profund = foto, vezi schema de mai jos).

Schemă: DjVu, strat cu strat

(a) imaginea deplină („color”) (b) stratul mască („stencil”)

Page 5: Lecţia 3 - zona4.arhiva-ortodoxa.infozona4.arhiva-ortodoxa.info/.../Soft/...despre-DjVu.pdf · A N E X A 1 * s e c r e t u l D J V U Anexa 1: Secretul formatului DjVu (înapoi la

ANEXA

1*secretul

DJVU

(c) stratul profund („background”) (d) stratul superficial („foreground”)

Un truc util:

u este greu să vă daţi seama cum stratul superficial („foreground”) conţine în sine toată informaţia utilă. Vestea bună e că acesta poate fi separat de celelalte şi salvat de sinestătător. În afară de câştigul evident în calitate, acest truc oferă şi un

semnificativ avantaj economic – într-adevăr, înlăturarea stratului profund „background” poate reduce cu cca 15-20% greutatea fişierului!

NProcedeu: separarea DjVu în straturi

Prima metodă DjView 4.3 <cu previzualizare> TIF multipaginat (= 1 fişier) A doua metodă DjVu Ocr 2.4 <oarbă> TIF unu-per-pagină (= multe fişiere)

PRIMA METODĂ:

zolarea straturilor este posibilă în cadrul programului deja cunoscut nouă, DjView, care are şi avantajul de a putea vizualiza în timp real fiecare

strat în parte. Izolarea unui strat se face simplu:I

1. Bifaţi stratul dorit, accesând meniul: View-->Display, în timp ce vizualizaţi cartea DjVu

2. Efectuaţi decodificarea în TIF după procedeul cunoscut (indicat în Lecţia 1, la capitolul despre bitonalizare).

Page 6: Lecţia 3 - zona4.arhiva-ortodoxa.infozona4.arhiva-ortodoxa.info/.../Soft/...despre-DjVu.pdf · A N E X A 1 * s e c r e t u l D J V U Anexa 1: Secretul formatului DjVu (înapoi la

ANEXA

1*secretul

DJVU

Atenţie: la salvarea color aveţi grijă să debifaţi în prealabil căsuţa „Force G4Fax Compress”, altfel informaţia despre culori va fi automat omisă!

A DOUA METODĂ:

celaşi efect poate fi obţinut cu ajutorul unui alt program gratuit la care vom apela la etapa de textualizare a DjVu – DjVu OCR 2.4:A

1. Pe pagina principală selectaţi „DjVu Decoder”:

2. Pe noua pagină deschisă:

„2” - adăugaţi fişierul DjVu în lista de alături„3” - selectaţi mapa pentru salvarea rezultatului„4” - alegeţi formatul grafic la ieşire „5” - indicaţi diapazonul de pagini spre decodificare„6” - alegeţi stratul care doriţi să-l izolaţi„7” - în cazul imaginilor negru-alb, bifaţi pentru bitonalizare automată„8” - daţi la execuţie

NOTĂ: Spre deosebire de programul DjView, DjVu Ocr salvează fişierele TIF unu per pagină, deci la ieşire veţi avea tot atâtea fişiere cât şi pagini în carte. Dacă planificaţi convertarea în PDF recomand folosirea primei metode (pentru că produce un fişier TIF unic, multipaginat).

Atenţie! Există un risc de a pierde din informaţia utilă dacă ea este omisă în stratul salvat! Această eroare poate fi evitată previzualizînd stratul de înlăturat înainte de ştergerea lui definitivă, pentru excluderea oricăror elemente utile (litere, linii etc) precipitate „din greşeală” în cursul codificării. Spre ex., la salvarea stratului „foreground” se va previzualiza stratul profund „background” şi viceversa.

Page 7: Lecţia 3 - zona4.arhiva-ortodoxa.infozona4.arhiva-ortodoxa.info/.../Soft/...despre-DjVu.pdf · A N E X A 1 * s e c r e t u l D J V U Anexa 1: Secretul formatului DjVu (înapoi la

ANEXA

2

*compresia

DJVU

Anexa 2: Compresia DjVu (înapoi la text)

Procedeu: compresia DjVu negru-alb

DjVu Small 0.3.3 profil „user b/w 300” ( +/- trucuri) fişier DjVu negru-alb

1. Deschideţi fişierele sau mapa cu imagini

2. Indicaţi mapa pentru salvarea rezultatului

3. Bifaţi operaţiunea

4. Alegeţi profilul

*5. Treceţi la opţiunile avansate

6. Alegeţi tabla: Document->DjVu (2)

7. Bifaţi căsuţa: „Text quality”, alegeţi din lista regimul „lossy”

8. Bifaţi căsuţa: „Pages per dict”, indicaţi un număr

9. Treceţi la fereastra principală

10. Daţi la execuţie tastând butonul „Convert”

NOTĂ: Opţiunile 5-8 (trucuri facultative) asigură un cîştig în „greutate” de până la 25% (cu un efect neglijabil asupra calităţii imaginilor, dar cu o posibilă încetinire a procesului de lecturare a cărţii astfel comprimate)

Page 8: Lecţia 3 - zona4.arhiva-ortodoxa.infozona4.arhiva-ortodoxa.info/.../Soft/...despre-DjVu.pdf · A N E X A 1 * s e c r e t u l D J V U Anexa 1: Secretul formatului DjVu (înapoi la

ANEXA

3

*copertarea

Anexa 3: Copertarea color a cărţilor DjVu (înapoi la text)

Procedeu: copertarea cărţilor DjVu

Scanare în regim color („true color”) Fast Stone Photo Resizer 2.8 DjVu Small 0.3.3 („Photo 300”) DjVu Merger

1. Scanarea repetată în culori:

canarea obişnuită a cărţilor nu se face în culori (ci în „grayscale”), pe de altă parte, coperta este aproape întotdeauna colorată. Prin urmare, se vor scana în prealabil, şi separat de restul cărţii, cele două coperte (fronte şi retro) în regim color („true color”

sau „milions of colors”). Se va avea grijă de a poziţiona perfect cartea pe geamul scanner-ului şi de a o decupa imediat, în timpul scanării (se va salva în JPEG).

S2. Redimensionarea:

maginile copertelor se vor adapta dimensional după valorile înălţime-lăţime din cartea DjVu gata comprimată (valorile pot fi citite în STDU Viewer, intrînd în meniul „File”--> ”Properties”-->panoul ”List pages”). Recomandabil este programul gratuit Fast Stone

Photo Resizer 2.8, pe care îl vom folosi nu rareori în continuare. I

Page 9: Lecţia 3 - zona4.arhiva-ortodoxa.infozona4.arhiva-ortodoxa.info/.../Soft/...despre-DjVu.pdf · A N E X A 1 * s e c r e t u l D J V U Anexa 1: Secretul formatului DjVu (înapoi la

ANEXA

3

*copertarea

„1” - deschideţi mapa cu imaginile pentru modificare„2” - adăugaţi-le în lista de lucru„3” - indicaţi formatul la ieşire şi mapa pentru salvarea rezultatului„4” - bifaţi căsuţa „Use Advanced Options” şi tastaţi butonul corespunzător

„5” - activaţi tabla „Resize” bifând căsuţa„6” - bifaţi în dreptul unităţilor de măsură „In Pixels”„7” - indicaţi valorile exacte pentru înălţime („Height”) şi lăţime („Width”), identice cu cele din imaginile gata din cartea comprimată„8” - alegeţi metoda de compresie „Bicubic”„9” - dezactivaţi opţiunea pentru păstrarea proporţiilor la redimensionare„10” - salvaţi modificările şi treceţi la fereastra principală.

Daţi la execuţie tastând butonul „Convert”.

3. Compresia DjVu:

entru compresie folosim DjVu Small 0.3.3 în regim „Photo 300”. Puteţi apela la un truc (descris în continuare) pentru a controla „greutatea” fişierului rezultat (în mod normal – în regim „Photo” - comprimat la o rată joasă). P

Page 10: Lecţia 3 - zona4.arhiva-ortodoxa.infozona4.arhiva-ortodoxa.info/.../Soft/...despre-DjVu.pdf · A N E X A 1 * s e c r e t u l D J V U Anexa 1: Secretul formatului DjVu (înapoi la

ANEXA

3

*copertarea

Schemă: Un truc pentru reducerea „greutăţii” unui fişier tip „foto”

1. Accesând opţiunile avansate, intraţi în tabla „Document->DjVu (2)” şi activaţi căsuţa „Sizes”.

2. În drept cu ea indicaţi, în ordine crescătoare, valorile în „bytes” ale imaginii DjVu aşa cum doriţi să rezulte după compresie.

În exemplul din schemă: 20000+40000+150000 = 210000 bytes = 205 Kb, adică fişierul DjVu va avea o greutate de cca 205 Kb). Aceste valori sunt arbitrare şi se vor selecta în funcţie de calitatea finală dorită.

Atenţie: Nu uitaţi să dezactivaţi manual căsuţa „Sizes” după utilizare, mai ales dacă planificaţi o compresie DjVu în regim „Photo” într-un moment secund.

4. Anexarea copertei la cartea DjVu:

operta astfel comprimată poate fi anexată la fişierul principal folosind programul DjVu merger. Lucrează fără interfaţă, după procedeul ce urmează:C

1. Plasaţi cele două fişiere DjVu (coperta şi cartea) în mapa cu programul.2. Redenumiţi fişierele: pentru copertă schimbaţi în „0000.djvu”, pentru cartea de bază –

în „0001.djvu”

NOTĂ: La unirea mai multor părţi cu ajutorul programului DjVu merger, redenumiţi fiecare fişier în ordine succesivă, după cum urmează: coperta = „0000.djvu”; blocul de pagini 1-200 = ”0001.djvu”; blocul 201-400 = „0002.djvu” etc.

3. Indicaţi diapazonul exact de pagini în fişierul „list.txt” din aceiaşi mapă4. Daţi la execuţie programul merger5. Fişierul „Book.djvu” din aceiaşi mapă este cel rezultat după unire.

Atenţie: Programul prezintă un defect de funcţionare în cazul fişierelor mai mari de 2-3 megabaiţi – în acest caz, puteţi scinda în prealabil fişierul de bază în bucăţi convenabile (folosind programul DjView – vezi în continuare).

Page 11: Lecţia 3 - zona4.arhiva-ortodoxa.infozona4.arhiva-ortodoxa.info/.../Soft/...despre-DjVu.pdf · A N E X A 1 * s e c r e t u l D J V U Anexa 1: Secretul formatului DjVu (înapoi la

ANEXA

3

*copertarea

Schemă: Scindarea în blocuri a fişierelor DjVu cu ajutorul programului DjView 4.3

1. Accesaţi meniul: „File--> Save as..”. Indicaţi diapazonul de pagini „Pages” pentru fiecare bloc de scindat: de ex. 1-200, 201-400 etc.

2. Alegeţi formatul: „Bundled DjVu Document”.

3. Indicaţi mapa pentru salvarea rezultatului.

4. Daţi la execuţie („Ok”).

NOTĂ: Pentru a nu face confuzie în privinţa diapazonului, recomand să numiţi fiecare bloc salvat cu numărul „de la...până la” corespunzător: de ex., „1-200.djvu”, „201-400.djvu” etc.

Page 12: Lecţia 3 - zona4.arhiva-ortodoxa.infozona4.arhiva-ortodoxa.info/.../Soft/...despre-DjVu.pdf · A N E X A 1 * s e c r e t u l D J V U Anexa 1: Secretul formatului DjVu (înapoi la

ANEXA

4*finalizarea

Anexa 4: Indexarea şi textualizarea, DjView 4.3 (înapoi la text)

„1” - arborele cărţii („outline” - în DjView 4.3, „content” - în STDU Viewer)„2” - motorul de căutare („find” - în DjView 4.3, „search” - în STDU Viewer)