Documentverwerking P01 Logische en Fysische Structuur
Prof.Dr.ir. Patrick P. Bergmans Faculteit F lt it I IngenieursWetenschappen i W t h Universiteit Gent
Documenten (1) z z
Wat is een document? E Een collectie ll i grafische fi h objecten bj en teksttekst k objecten (= inhoud), geschikt volgens een bepaalde structuur, voorgesteld in een bepaald f formaat, t en b bestemd t d voor menselijke lijk communicatie
z
Grafische objecten j zijn j figuren, g illustraties, beelden Tekstobjecten zijn titels, koppen, teksttekstparagrafen p g en tabellen
Traditioneel was papier het medium voor documenten
2
Documenten (2) z
De geschiedenis van “traditionele” documenten is zeer lang (is de bijbel een document?)
z
Recent (sedert 2020-25 jaren) worden documenten elektronisch of digitaal opgeslagen
z z
Dit is geen cursus in de geschiedenis van het document
In verschillende vormen
Zij worden ook op een meer interactieve manier, op een computerscherm gevisualiseerd Men verwacht zeer grote evoluties in het begrip “document” in komende jaren
3
Papier & Digitale Documenten
Structured St t d Styled PDL Bitmap The Paper Document
The Digital Document
4
Digitale Documenten z z
Digitale documenten bestaan in verschillende vormen en formaten Deze formaten onderscheiden is bijzonder belangrijk
z z
In functie van de toepassing In functie van opslagcapaciteit, verwerkingsverwerkingsmogelijkheden, enz.
Een vraag: welke vorm is de “referentievorm” Inleiding g tot Documentclassificatie
5
Het Document als “Bitmap” Bitmap z z z z z z
Document opgeslagen als een rij pixels (net zoals een beeld) Eenvoudige 11-op op-1 voorstelling van het fysische document Voorbeelden: .jpg, .tif, .bmp, .gif bestanden (Zeer) grote opslagcapaciteit Beperkte verwerking nodig voor reproductie op een fysich medium (zpals papier) Zo goed als niet wijzigbaar ((“editeerbaar”) editeerbaar ) voor wat tekst betreft; wel als “beeld”
6
Het Document als bladzijdebeschrijving z
Bevat “objecten” zoals karakters, beelden en illustraties en een beschrijving van hun positie op het blad
z z z z z
Tekst is niet verwerkbaar
Voorbeeld : PostScript (.ps), PDF (.pdf) Redelijk compacte voorstelling Verwerking V ki nodig di voor reproductie d i (d (door een “RIP” = “raster image processor”) Toestelonafhankelijk Zeer beperkt editeerbaar: objecten kunnen verplaatst worden, en hun parameters gewijzigd
7
Het “Gestileerde” Gestileerde Document z
Document bevat gestileerde en elkaar opvolgende rijen grafische elementen en tekst, tekst en een beperkte vorm van structuur
z z z z z
Tekst blijft verwerkbaar
Voorbeeld : Document in MS Word (.doc), een speciaal geval van (.rtf) Redelijk compacte voorstelling Vereist toestelafhankelijke verwerking (driver) Volledig editeerbaar Maar niet “structuurgecontroleerd”; m.a.w., de structuur kan vernietigd worden bij wijzigingen
8
Het “Gestructureerde” Gestructureerde Document z
Document bevat een hoge graad van structuur
z
Voorbeelden: SGML, XML, HTML
z z z
z
T k is Tekst i verwerkbaar kb HTML heeft ook bepaalde eigenschappen van gestileerd document
Structuurgecontroleerde editeerbaarheid Opslagcapaciteit iets groter dan gestileerde documenten Vereist dikwijls ingewikkeld verwerkingsverwerkingstoepassingen; fysische reproductie volgens verschillende formaten mogelijk V l gebruikt Veel b ikt in i technische t h i h documentatie d t ti 9
Van Digitale Documenten naar Papier XML Editors, FrameMaker
Structured Content XML Editors, Various programs
MS Word, Quark Xpress,Wordperfect Postscript or PDF Driver Adobe Acrobat Professional RIP, Printer Driver Adobe Photoshop Marking engine, Printer, Screen
Style
Presentation Format
Styled Content Compose
Resources
SGML, XML, HTML Style sheet, DTD
DOC, WPF, RTF Fonts
Output Representation
PDF, PS, PCL
Render
Page size, Screen Resolution
Media Properties
Raw Digital g Image g Playback
Device Properties
Physical Representation
TIFF, GIF, BMP
Toner, Ink
Paper, Video
10
Vertrekkend van Papier z z
Wat gebeurt er wanneer men met papier begint? Scan (digitaliseren) naar een Digitaal Document
z z z
Maar tot welk niveau?
Digitaal-naarDigitaalnaar-papier is “many “many-to to-one” PapierPapier -naar naar-digitaal is “one “one-to to-many” Niveau waarnaar gescand moet worden is afhankelijk van de toepassing
Voor opslag is een bitmap waarschijnlijk voldoende Voor tekstverwerking moet men praktisch steeds tot op het “gestileerd” gestileerd document niveau terug 11
Van Papier naar Digitaal Structured Content Presentation Format
ReStructure
Styled Content Resources
Recognize
Output Representation Media Properties
Segment
Raw Digital g Image g Device Properties
Capture
Physical Representation
12
Logische & Fysische Structuur (1) z
Beschouw een eenvoudig document
z
Logische structuurelementen
z z
B een roman, een rapport Bv. Indeling Indeling Indeling g Indeling
in in in in
hoofdstukken paragrafen (alinea’s) zinnen woorden
Die indeling blijft ongewijzigd ongewijzigd,, en is niet afhankelijk van de uiteindelijke vormgeving Zij vormen de logische structuur van een document 13
Logische & Fysische Structuur (2) z
Fysische structuurelementen
z
z
z
I d li iin bl Indeling bladzijden d ijd Indeling in kolommen Indeling in tekstregels
Deze indeling wordt wel degelijk gewijzigd door de vormgeving, de afmetingen van het document de gebruikte letterstijlen document, letterstijlen, enz enz. NietNiet -interactieve (“batch”) tekstverwerking (zoals TEX) zet de logische g structuur in f fysische h structuur, en produceert d een bladzijdebladzijde -beschrijving; ook “formatteren” genoemd Soms gaat men rechtstreeks (met en driver) naar de bitmap output
14
Logische & Fysische Structuur (3) z
In interactieve toepassingen (zoals bv. MS Word, Quark Xpress)
z
Indien vanuit een interactieve toepassing, een document afgedrukt wordt op twee verschillende printers kan de output (fysische structuur) er printers, anders uit zien
z
Wordt de tekst inwendig “gestileerd” opgeslagen Wordt continu, en interactief, de tekst (her)verwerkt en op het scherm getoond (her)verwerkt,
Dit heeft te maken met “lettersoort” metriek ((zie later))
Men verwart dikwijls logische en fysische structuur bij het invoeren van een document ((meer bepaald p wanneer een document opgemaakt pg wordt) d ) 15
Logische & Fysische Structuur (4) z
z
Bij de meeste tekstverwerkers wordt de “return” return toets gebruikt als “einde einde paragraaf” paragraaf (EOP, logisch), niet “einde tekstregel” (EOL, fysisch). Wordt soms gevisualiseerd als ¶. G b ik dan Gebruik d nooit it d de ““return” t ” toets t t om zelf lf een paragraaf in tekstregels te verdelen
z
z
Dit verhindert herverwerking g met andere parameters
Extra wit tussen paragrafen zou het resultaat van an de verwerking rw r ng moeten mo t n z zijn, jn, n niett van an een n extra “return”, of “lege” paragraaf Inspringen van de eerste regel van een paragraaf heeft dezelfde eigenschap; gebruik geen spaties in het begin van een paragraaf 16
Logische & Fysische Structuur (5) z
z
z z
De spatiebalk is normaal de logische afbakening van woorden; gebruik die niet voor extra spatiëring. Daarom “vreten” goede tekstverwerkers spaties i h in hett b begin i en het h t einde i d van paragrafen f op (zij ( ij hebben op die plaatsen geen nut) Voor dezelfde reden worden meervoudige g spaties als één spatie geïnterpreteerd Tabelwerk is zeer sterk structuurgebonden; maak geen tabellen met spaties (en evenmin met herhaalde “tabs” die dikwijls onvoorspelbaar uitgevoerd worden)
17