Co jsou METS a ALTO soubory?
V digitalizaci kulturního dědictví se často setkáváme s pojmy METS a ALTO. Jedná se o standardy vyjádřené pomocí XML spravované Kongresovou knihovnou (Library of Congres). Standard METS (některé zdroj jej nazývají jako vůdce nebo dirigent) je flexibilní schéma pro popis složitého digitálního objektu (např.(jako je digitalizované vydání novin). METS zná vše, co je třeba vědět o každé stránce.
Co jsou XML METS soubory
METS (zkratka pro Metadata Encoding and Transmission Standard) je vysoce flexibilní schéma pro kódování popisných, administrativních a strukturálních metadat ke komplexnímu popisu digitálních objektů. V souboru METS nalezneme informace (název, autor, vydavatel, datum původního díla, a také informace o samotném digitálním objektu, včetně procesu digitalizace a fyzické a logické struktury objektu).
- Část 1 – Popisná metadata
- Část 2 – Administrativní metadata
- Část 3 – Sekce souboru
- Část 4 – Fyzická struktura
- Část 5 – Logická struktura
K popisu samotného objektu používá MODS nebo podobná metadata. Zde najdete název objektu a další informace, jako je autor, vydavatel a datum.
Zde najdete informace o procesu skenování, hardwaru, softwaru pro digitalizaci, kompresi, typech souborů a další.
Uvádí, popisuje a odkazuje na soubory, které tvoří komplexní digitální objekt popsaný souborem METS. U novinového čísla tyto soubory obvykle zahrnují obrázky na úrovni stránky (ve formátu TIFF a/nebo JPEG 2000), soubory ALTO XML popisující rozvržení a obsah každé jednotlivé stránky a soubory PDF na úrovni stránky a/nebo na úrovni vydání.
Popisuje fyzickou strukturu složitého digitálního objektu. U digitalizovaných novin tato část „ukazuje“ a popisuje stránky, které tvoří novinové číslo. Zahrnuje metadata spojená s fyzickými stránkami (např. čísla stránek a/nebo informace o objednávce) a odkazy na soubory (např. obrázky a soubory XML ALTO), které popisují každou stránku.
Popisuje „logickou“ strukturu složitého digitálního objektu. U novin, pokud byly články identifikovány během digitalizace, je v této části uveden „obsah“ článků v novinovém čísle a také veškerá metadata (např. titulky a vedlejší řádky) spojená s jednotlivými články.
Co jsou ALTO soubory
ALTO (zkratka pro Analyzed Layout and Text Object) je schéma pro zachycení obsahu slova, stylů a prvků rozložení na digitalizované textové stránce, včetně prostorových souřadnic textových prvků, jako jsou sloupce a řádky. Často se používá v tandemu s METS XML, který poskytuje popisná a administrativní metadata o objektu, ke kterému soubor ALTO XML patří.
Dokument ALTO XML obsahuje fyzický popis, kompozici a obsah stránky digitálních objektů. Soubory ALTO mají obecně 3 sekce:
- Sekce 1 – popis: Obsahuje popisné informace týkající se samotného ALTO souboru
- Sekce 2 – styly: Obsahuje popisy písem a odstavců (font a velikost písma, zarovnání odstavců, řádkování)
- Sekce 3 – rozložení: Popisuje, kde se nachází skutečný obsah a rozměry. Každý blok textu popsaný od levého horního rohu stránky. Jednotlivé řádky a obsah stránky jsou podrobně popsány. Zároveň popisuje jakékoliv objekty umístěny na stránce, jako jsou např. obrázky a tabulky.
S pojmy METS a ALTO se setkáváme při přípravě PSP balíčků pro export do Národní digitální knihovny Kramerius. K tomu slouží specializované softwarové nástroje, např. KAITOS.
Autor článku: Petr PolanskýZdroje:
https://veridiansoftware.com/knowledge-base/metsalto/
https://www.bslw.com/mets-alto-introduction/
Mohlo by se vás také zajímat
Co je to VISK 7
Mezi knihovníky často používaný termín, ale co přesně znamená?
Co jsou to metadata
Většina lidí je používá a ani o tom není. Co to vlastně jsou metadata a k čemu se používají?
Více článků od společnosti EXON