novice

08-05-09

Prvi sestanek projektne skupine.

Partnerji


Univerza v Ljubljani, Filozofska fakulteta


Institut Jožef Stefan

Slovenski prevodoslovni korpus SPOOK

V okviru projekta bomo zgradili velik večjezični korpus, ki bo sestavljen iz dveh delov. Prvi del bodo sestavljali štirje vzporedni podkorpusi, angleško-slovenski, nemško-slovenski, francosko-slovenski in italijansko slovenski; v vseh štirih bo ciljni jezik slovenščina. Podkorpusi bodo med seboj primerljivi v smislu besedilnih tipov, žanrov, časovnega nastanka itd.

Drugi del korpusa bo sestavljen iz izvirnih slovenskih besedil; ta del bo primerljiv s slovenskim delom vzporednega multi-korpusa (glej sliko spodaj).

Korpus bo za vseh pet jezikov oblikoskladenjsko označen, vsi vzporedni podkorpusi pa bodo stavčno poravnani.

Sestava korpusa

Vsak podkorpus bo sestavljen iz naslednjih žanrov:

  • leposlovja,
  • medijskih besedil,
  • tehničnih besedil,
  • neleposlovnih strokovnih monografij.

Pravni in tehnični vidiki zbiranja besedil

Za namene projekta zbiramo besedila iz različnih virov. Z vsakim besedilodajalcem podpišemo pogodbo, v kateri so določene medsebojne obveznosti in pravice, predvsem v smislu varovanja pred kršitvami avtorskega prava.

Pogodba o prispevanju besedil

Besedila so v korpusu označena z bibliografskimi podatki. Kdor želi prispevati besedilo v korpus SPOOK, mora za vsako besedilo pripraviti spremno bibliografsko datoteko z naslednjo strukturo:

<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE enota SYSTEM "http://nl.ijs.si/et/spook/spook.dtd">
<enota jezik="fra_slv">
<bibl>
<naslovIzvirnika jezik="fra">Comment la question sociale est dénaturée…</naslovIzvirnika>
<naslovPrevoda jezik="slv">Kako je družbeno vprašanje popačeno …</naslovPrevoda>
<avtor>Sylvie Tissot</avtor>
<prevajalec></prevajalec>
<datumIzvirnika>2007-10</datumIzvirnika>
<datumPrevoda>2007-10</datumPrevoda>
<zalozbaIzvirnika></zalozbaIzvirnika>
<zalozbaPrevoda></zalozbaPrevoda>
<cobissIzvirnika></cobissIzvirnika>
<cobissPrevoda></cobissPrevoda>
<pripravil>Adriana Mezeg</pripravil>
<datumObdelave>2009-07-18</datumObdelave>
</bibl>
<besedilo jezik="fra">
COMMENT LA QUESTION SOCIALE EST DENATUREE...
L’invention des 'quartiers sensibles'
</besedilo>
<besedilo jezik="slv">
Kako je družbeno vprašanje popačeno ...
Iznajdba 'občutljivih četrti'
</besedilo>
</enota>

Korpusne datoteke morajo biti v obliki .xml (kodiranje utf-8), ime datoteke pa naj vsebuje le znake [a-z0-9_]. Primer korpusne datoteke si lahko ogledate tule.

Podrobnejša tehnična navodila so tule.