Slovenski prevodoslovni korpus SPOOK
V okviru projekta bomo zgradili velik večjezični korpus, ki bo sestavljen iz dveh delov. Prvi del bodo sestavljali štirje vzporedni podkorpusi, angleško-slovenski, nemško-slovenski, francosko-slovenski in italijansko slovenski; v vseh štirih bo ciljni jezik slovenščina. Podkorpusi bodo med seboj primerljivi v smislu besedilnih tipov, žanrov, časovnega nastanka itd.
Drugi del korpusa bo sestavljen iz izvirnih slovenskih besedil; ta del bo primerljiv s slovenskim delom vzporednega multi-korpusa (glej sliko spodaj).
Korpus bo za vseh pet jezikov oblikoskladenjsko označen, vsi vzporedni podkorpusi pa bodo stavčno poravnani.
Sestava korpusa
Vsak podkorpus bo sestavljen iz naslednjih žanrov:
- leposlovja,
- medijskih besedil,
- tehničnih besedil,
- neleposlovnih strokovnih monografij.
Pravni in tehnični vidiki zbiranja besedil
Za namene projekta zbiramo besedila iz različnih virov. Z vsakim besedilodajalcem podpišemo pogodbo, v kateri so določene medsebojne obveznosti in pravice, predvsem v smislu varovanja pred kršitvami avtorskega prava.
Besedila so v korpusu označena z bibliografskimi podatki. Kdor želi prispevati besedilo v korpus SPOOK, mora za vsako besedilo pripraviti spremno bibliografsko datoteko z naslednjo strukturo:
<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE enota SYSTEM "http://nl.ijs.si/et/spook/spook.dtd">
<enota jezik="fra_slv">
<bibl>
<naslovIzvirnika jezik="fra">Comment la question sociale est dénaturée </naslovIzvirnika>
<naslovPrevoda jezik="slv">Kako je družbeno vprašanje popačeno </naslovPrevoda>
<avtor>Sylvie Tissot</avtor>
<prevajalec></prevajalec>
<datumIzvirnika>2007-10</datumIzvirnika>
<datumPrevoda>2007-10</datumPrevoda>
<zalozbaIzvirnika></zalozbaIzvirnika>
<zalozbaPrevoda></zalozbaPrevoda>
<cobissIzvirnika></cobissIzvirnika>
<cobissPrevoda></cobissPrevoda>
<pripravil>Adriana Mezeg</pripravil>
<datumObdelave>2009-07-18</datumObdelave>
</bibl>
<besedilo jezik="fra">
COMMENT LA QUESTION SOCIALE EST DENATUREE...
Linvention des 'quartiers sensibles'
</besedilo>
<besedilo jezik="slv">
Kako je drubeno vprašanje popačeno ...
Iznajdba 'občutljivih četrti'
</besedilo>
</enota>
Korpusne datoteke morajo biti v obliki .xml (kodiranje utf-8), ime datoteke pa naj vsebuje le znake [a-z0-9_]. Primer korpusne datoteke si lahko ogledate tule.
Podrobneja tehnična navodila so tule.