Dariah-SI

Označevalni jezik XML–TEI v humanistiki

Uvodna delavnica o digitalni humanistiki

Predstavitev je potekala v sredo, 15. oktobra 2014, od 9. do 14. ure v Prešernovi dvorani SAZU.

 

Uvod v XML in TEI

Tomaž Erjavec

 

V predavanju smo spoznali osnove standarda za označevanje XML. Ogledali smo si zgradbo dokumentov in model označevanja v XML, na kratko pa obravnavali tudi kodiranje znakov s poudarkom na standardu Unikod. Nato so bile predstavljene sheme XML, ki omogočajo formalno definicijo gramatike in nabora oznak za določen tip dokumentov. V drugem delu predavanja smo spoznali Iniciativo za zapis besedil TEI (Text Encoding Initiative). Smernice definirajo sistem za izgradnjo shem XML in podrobno dokumentirajo preko 500 elementov, ki jih TEI predvideva za označevanje zelo raznorodnih tipov besedil in za raznovrstne analitične obravnave. Podali smo motivacijo za ustanovitev in zgodovinski pregled TEI ter glavne prednosti uporabe Smernic TEI za zapis in označevanje besedil.

 

Uvod v TEI

Matija Ogrin

Smernice konzorcija TEI  skušajo ustreči raznolikim potrebam humanistov, katerih glavni predmet preučevanja so besedila. Smernice določajo obsežen nabor oznak XML, s katerimi je moč označiti (kodirati) raznolike strukture humanističnih besedil. Oznake so združene v module za razna področja dela z besedili. V predavanju bomo spoznali splošno strukturo, predpisano za dokumente TEI, in najpomembnejše module, ki jih humanisti uporabljamo pri delu z besedili.

 

Primer uporabe: znanstvene izdaje primarnih virov

Matija Ogrin

Eno od temeljnih delovnih področij v vseh historičnih in filoloških vedah je izdajanje znanstvenih edicij primarnih virov (starejših tiskov, rokopisov). Temu delu je namenjen eden od modulov TEI in pripadajoče poglavje Smernic. V predavanju smo orisali najbolj pogoste strukture in označevalne prakse, relevantne za pripravo izdaje (starejših) besedil.

 

Primer uporabe: opis rokopisov

Matija Ogrin

Rokopisi predstavljajo enega najpomembnejših segmentov kulturne, zlasti slovstvene dediščine, zato po svetu in pri nas nastajajo elektronske zbirke, ki predstavljajo podrobne opise rokopisov skupaj z digitalnimi faksimili izvirnika. Smernice TEI so temu področju namenile poseben modul, ki je v predavanju predstavljen v raznih možnostih od manj do bolj kompleksnega označevanja.

 

Primer uporabe: biografski in prozopografski podatki 

Petra Vide Ogrin

Smernice TEI namenjajo poseben modul biografskim in prozopografskim podatkom, ki jih srečujemo v arhivskih regestah, prozopografijah in predvsem v leksikografskih publikacijah. Na te smernice je bilo oprto označevanje biografskih podatkov v spletnem portalu Slovenska biografija, ki obsega tri leksikone: Slovenski biografski leksikon (1925-1991), Primorski slovenski biografski leksikon (1974-1994) in Novi Slovenski biografski leksikon (2013). V predstavitvi smo nakazali, kako so nam oznake TEI omogočile podrobno označevanje osebnih in variantnih imen, nazivov in plemiških predikatov, krajevnih imen, datumov, poklicev oz. dejavnosti in sorodstvenih vezi ter njihovih posebnosti.

 

Primer uporabe: izvorno digitalni podatki in strukturirani podatki

Andrej Pančur

Smernice TEI so bile prvotno sicer narejene za označevanje digitaliziranih tiskanih besedil analognih besedil, toda v zadnjih letih se vedno pogosteje uporabljajo pri označevanju raznovrstnih izvorno digitalnih besedil, med drugim tudi znanstvenih publikacij. V predavanju smo obravnavali prednosti in pomanjkljivosti elektronskega založništva v humanistiki po Smernicah TEI v primerjavi z nekaterimi drugimi v založništvu splošno razširjenimi označevalnimi jeziki (DocBook, XHTML, HTML5). Poleg tega smo prikazali, kako je mogoče v izvorno digitalna besedila vključiti strukturirane podatke iz tabel in relacijskih baz podatkov.

Primer uporabe: jezikoslovno označeni korpusi in slovarji

Tomaž Erjavec

Računalniški korpusi besedil predstavljajo osnovo za empirične raziskave jezika, tako pri temeljnih jezikoslovnih raziskavah kot pri uporabnem jezikoslovju, predvsem slovaropisju. Smernice TEI imajo poseben modul za zapis korpusov, dodaten modul pa za jezikoslovne oznake, ki jih lahko dodajamo besedilom, s čimer naredimo korpus bistveno bolj uporaben. V predavanju bomo pogledali nekaj primerov jezikoslovno označenih korpusov slovenskega jezika, nato pa še primere zapisa slovarskih podatkov, za katere Smernice tudi ponujajo samostojen modul.