novice

12. 2. 2013

JOTA po zombijevsko vstaja od mrtvih z gostjo z Japonske. Glej program...

JOTA@FF

JOTA se običajno dogaja enkrat mesečno oziroma po potrebi na Filozofski fakulteti Univerze v Ljubljani, Aškerčeva 2, Ljubljana. Za organizacijo skrbiva Špela Vintar in Darja Fišer. Če bi želeli gostovati na Joti oziroma želite, da vas obveščamo o Jotinih dejavnostih, pišite na spela.vintar at ff.uni-lj.si.

JOTA

2012/2013

Datum
 
Predavanje
 
19. februar 2013 ob 15.30
učilnica R2, FF
prof. dr. Kikuko Nishina, zaslužna profesorica Tokijskega tehnološkega inštituta

Concept and recent developments of the Japanese writing support system Natsume
Koncept in razvoj sistema Natsume za podporo pisanja v japonščini
povzetek

2011/2012

Datum
 
Predavanje
 
23. november 2011 ob 16.00
učilnica 05, FF
Thomas Hanke (IDGS, Univerza v Hamburgu):

Language Resources for German Sign Language
povzetek

2010/2011

Datum
 
Predavanje
 
1. marec 2011 ob 17.00
učilnica 03, FF
Aljoša Vrščaj (Oddelek za prevajalstvo):

Evalvacija strojnih prevajalnikov
povzetek
1. december 2010 ob 16.00
učilnica 05, FF
Benoit Sagot (INRIA):

Freely available lexcal resources for French
povzetek
28. oktober 2010 ob 16.00
učilnica 31, FF
Nikola Ljubešić (Odsjek informacijskih znanosti, Filozofski fakultet Sveučilišta u Zagrebu):

Pronalaženje događaja u novinskim tekstovima
povzetek

Bivše JOTE

22. april 2010
učilnica 30a, FF
Judit Kuti (Research Institute for Linguistics, Hungarian Academy of Sciences):

Sense Disambiguation - “Ambiguous Sensation”? Evaluating Sense Inventories for verbal WSD in Hungarian povzetek
december 2009
učilnica X, FF
Senja Pollak (Oddelek za prevajalstvo, FF UL):
Samodejno razvrščanje besedil na primeru korpusa medijskih poročil o volitvah v Keniji
povzetek
sreda, 25.11.2009 ob 17.00
učilnica 024, FF
Simon Krek (Amebis, IJS, Trojina):
Projekt "Sporazumevanje v slovenskem jeziku" - leto ena: standardi in orodja
povzetek
četrtek, 2.7.2009 ob 14.00
soba 30, FF
Ruprecht von Waldenfels (Universität Bern):
ParaSol: A Parallel Corpus of Slavic Languages and what it's good for.
torek, 6.5.2008 ob 17.00
soba 30, FF
Boštjan Jerko (Japina):
Znakovni jezik - kaj pa je to?
povzetek
četrtek, 13.3.2008 ob 17.10
učilnica R2B, FF (prizidek)
Primož Jakopin (Inštitut za slovenski jezik Frana Ramovša ZRC SAZU, Korpusni laboratorij):
Oblikoslovni označevalnik pri korpusu Beseda
povzetek               prezentacija
torek, 18.12.2007 ob 17.00
soba 30, FF
Darja Fišer (Oddelek za prevajalstvo, Filozofska fakulteta UL):
Izraba večjezičnih virov za izgradnjo slovenskega wordneta
povzetek               prezentacija
četrtek, 22.11.2007 ob 17.10
učilinca 018, FF
Dimitar Hristovski (Inštitut za biomedicinsko informatiko UL):
Literature-Based Knowledge Discovery using Natural Language Processing
povzetek prezentacija
četrtek, 12.4.2007 ob 17.10
učilnica 018, FF
Gašper Cankar (Državni izpitni center):
Uvod v R: mogočni programski paket za statistično obdelavo podatkov
povzetek       prezentacija
četrtek, 29.3.2007 ob 17.00
učilnica 325, FF
Damir Ćavar (Sveučilište u Zadru):
Dynamic Language Models
povzetek         prezentacija
sreda, 28.2.2007 ob 17.00
učilnica 527, FF (sejna soba)
Špela Vintar (Filozofska fakulteta Univerze v Ljubljani):
Samodejno luščenje terminologije iz korpusov: od osnov do umazanih podrobnosti     povzetek         prezentacija in primeri
ponedeljek, 18.12.2006 ob 17.00
učilnica 325, FF
Peter Holozan (Amebis):
Strojno prevajanje: krasni novi svet?    povzetek          prezentacija
ponedeljek, 4.12.2006 ob 17.00
učilnica 325, FF
Špela Arhar (Filozofska fakulteta Univerze v Ljubljani, Amebis):
Kaj početi s FIDOplus: horuk v nove čase povzetek       prezentacija
ponedeljek, 20.11.2006 ob 17.00
učilnica 325, FF
Ljupčo Todorovski (Fakulteta za upravo Univerze v Ljubljani):
Uvod v rudarjenje podatkov         povzetek          prezentacija
četrtek, 18.11.2004 ob 18.00
Gaël Harry Dias (Univerza Beira Interior, Covilha, Portugalska):
Topic Segmentation Using Statistical Measures     povzetek            prezentacija
torek, 14.12.2004 ob 18.00
Marko Tadić (Oddelek za jezikoslovje, Filozofska fakulteta Univerze v Zagrebu):
Jezične tehnologije i hrvatski jezik    povzetek             prezentacija
torek, 4.1.2005 ob 18.00
Jure Leskovec (IJS in CMU):
Text Summarization        povzetek          prezentacija
četrtek, 24.2.2005 ob 18.00
Zdravko Kačič (Laboratorij za digitalno procesiranje signalov, Univerza v Mariboru):
Govorne tehnologije v telekomunikacijah     povzetek           prezentacija
torek, 15.3.2005 ob 18.00
Jana Zemljarič Miklavčič (Center za slovenščino, Filozofska fakulteta Univerze v Ljubljani):
Korpus govorjene slovenščine      povzetek                    prezentacija
torek, 19.4.2005 ob 18.00
Jernej Vičič (Univerza na Primorskem, Pedagoška fakulteta):
Uvod v strojno prevajanje in statistično strojno prevajanje          povzetek  
četrtek, 17.11.2005 ob 18.00
 
Božo Bekavac (Oddelek za jezikoslovje, Filozofska fakulteta Univerze v Zagrebu):
Sustav za prepoznavanje i klasifikaciju naziva za hrvatski     povzetek

Povzetki / Abstracts

Gael Dias: Topic Segmentation

In this presentation, after a review of the state of the art of Topic Segmentation Techniques, we will present an innovative topic segmentation system based on a new informative similarity measure that takes into account word co-occurrence in order to avoid the accessibility to existing linguistic resources such as electronic dictionaries or lexico-semantic databases such as thesauri or ontology. Topic Segmentation is the task of breaking documents into topically coherent multi-paragraph subparts. Topic Segmentation has extensively been used in Information Retrieval and Text Summarization. In particular, our architecture proposes a language-independent Topic Segmentation system that solves three main problems evidenced by previous research: systems based uniquely on lexical repetition that show reliability problems, systems based on lexical cohesion using existing linguistic resources that are usually available only for dominating languages and as a consequence do not apply to less favored languages and finally systems that need previously existing harvesting training data.

Marko Tadić: Jezične tehnologije i hrvatski jezikSažetak

Izložit će se kratak i pregledan sadržaj knjige "Jezične tehnologije i hrvatski jezik". Ideja je knjige bila problematizirati ulogu jezičnih tehnologija u društvu, njihovo stvaranje, izgradnju i potporu te dati kratak pregled do tada postignutih rezultata tj. primjena JT na hrvatski jezik. Dat će se pregled trenutačnoga stanja jezičnih tehnologija za hrvatski jezik tj. ukratko će se izložiti dosezi nekih završenih i postojećih projekata te osvrnuti na planirane projekte.

Jure Leskovec: Učenje povzemanja besedil s pretvorbo v semantično mrežo

Pri avtomatski izdelavi povzetkov iz besedil (sumarizaciji) želimo iz vhodnega besedila pridobiti krajše besedilo, ki bi pa ohranilo čim več pomembne informacije iz vhodnega besedila. Na trgu je trenutno več produktov za sumarizacijo, ki pa vsi delujejo na osnovi rangiranja in selekcije stavkov iz osnovnega besedila - povzetek je torej predstavljen kot množica izbranih stavkov iz originalnega besedila. V našem pristopu smo ubrali drugačno pot. Dokument smo s pomočjo kompleksne lingvistične analize predelali v semantično mrežo (sestavljeno iz relacij tipa osebek-povedek-predmet), ki skuša "razumeti" besedilo na globjem nivoju. Na taki "semantični" predstavitvi dokumentov smo uporabili metode strojnega učenja za modeliranje postopka, ki ga ljudje uporabljajo za izdelavo povzetkov. Rezultati so se izkazali kot zelo dobri - z modelom se zelo približamo ročno narejenim povzetkom besedil.

Zdravko Kačič: Govorne tehnologije v telekomunikacijah

Uporaba govornih tehnologij v telekomunikacijskih sistemih bo omogočila razvoj telekomunikacijskih storitev z visoko stopnjo dodane vrednosti. To bo mogoče le ob pogoju, da bodo vgrajeni sistemi avtomatskega razpoznavanja govora zagotavljali dovolj veliko uspešnost razpoznavanja govora in sistemi sinteze govora sintezo razumljivega in naravnega govora. Predstavljeni bodo kriteriji uporabe govorne komunikacije v govorno vodenih storitvah, osnovne komponente sistemov avtomatskega razpoznavanja in sinteze govora, kratek pregled pomembnejših področij uporabe govornih tehnologij v telekomunikacijah ter smeri razvoja govornih tehnologij v okviru multimodalnih komunikacij. Ker so sodobni sistemi avtomatskega razpoznavanja govora zasnovani na statističnih postopkih, je pri zagotavljanju visoke uspešnosti razpoznavanja govora bistvenega pomena razpoložljivost ustreznih jezikovnih virov. Podan bo pregled pisnih in govorjenih jezikovnih virov za slovenski jezik, ki jih je za potrebe razvoja sistemov govornih tehnologij razvila oziroma jih razvija raziskovalna skupina na FERI (govorjeni viri: SNABI, SpeechDat II, Polidat, Broadcast News SI, Interface (emocionalni govor), Platos (korpus za sintezo), Speco (otroški govor), TURDIS (govorni korpus spontanega govora); pisni viri: besedilna korpusa Večer in BN SI iNEWS, fonetični in oblikoslovni slovarji Onomastica, SIflex in SImlex ter LC-STAR).

Jana Zemljarič Miklavčič: Korpus govorjene slovenščine 

Predstavljen bo prvi delujoči govorni korpus spontanega govora slovenskega jezika. Za pilotski korpus so bili digitalni posnetki transkribirani po načelih razširjene ortografske transkripcije, nato pa je bil korpus označen po priporočilih TEI, prilagojenih za slovenščino. Korpus je dostopen znotraj korpusne mreže na Univerzi v Bergnu, kjer je tudi nastal, posamezni transkribirani izseki pa so povezani z ustreznimi zvočnimi signali, tudi znotraj konkordančnika. Pilotski korpus z izdelanim transkripcijskim standardom in naborom kriterijev za zajem besedil lahko predstavlja izhodišče za gradnjo govorne komponente referenčnega korpusa za slovenski jezik. Videli bomo, kakšne so možnosti uporabe tako zgrajenega in označenega korpusa, poleg tega pa bomo z rezultati iskanja že lahko nakazali nekatere specifične lastnosti govorjene slovenščine.

Jernej Vičič: Uvod v strojno prevajanje in statistično strojno prevajanje

Kaj je strojno prevajanje? Strojno prevajanje (Machine translation) je proces, ki uporablja računalniško programsko opremo za prevajanje besedil iz enega naravnega jezika v drugi. Predstavljene bodo značilnosti najpomembnejših področij te zanimive in hitro razvijajoče se veje. Posebej bo izpostavljeno statistično strojno prevajanje. V zaključku bo prikazan prevajalni sistem "Menola", ki predstavlja prvi poskus uporabe opisanih metod na nam bližjih jezikovnih parih. Sistem je prvenstveno namenjen preizkušanju novih idej, iskanju napak ter tudi zabavi ob uspešnih in manj uspešnih prevodih.

Božo Bekavac: Sustav za prepoznavanje i klasifikaciju naziva za hrvatski

U izlaganju se iznosi problematika prepoznavanja i klasifikacije naziva (PKN) i opisuje sustav za PKN  za hrvatski jezik nazvan OZANA (OZnAcivac NAziva). Sustav se sastoji od modula za segmentaciju na recenice, opceg leksikona, specijaliziranih popisa imena i konacnih transduktora za automatsko prepoznavanje brojeva i nekih oblika pridjeva. Nakon segmentacije teksta na recenice, obiljezavaju se pojavnice teksta (leme i morfosintakticke osobine opcih rijeci, te potencijalne kategorije naziva s pomocu specijaliziranih popisa imena) bez razrjesenja mogucih viseznacnosti. Sama srz sustava su regularne gramatike (pravila) za prepoznavanje i klasifikaciju naziva koje se izvode nad obiljezenim tekstovima. Pravila se zasnivaju na opisanim strategijama (poput unutarnjih i vanjskih dokaza), a primjenjuju se kaskadno odredenim redoslijedom. Rezultat su obrade obiljezeni nazivi u tekstovima u XML obliku prema specifikaciji s konferencije MUC-7. Pravila sustava primijenjena su na novinske i prozne tekstove, a zatim su usporedene razlike i uzroci odstupanja. F-mjera sustava izmjerena na tekstovima novinskog korpusa iznosi 90 %.

Ljupčo Todorovski: Uvod v rudarjenje podatkov

Rudarjenje podatkov je znanstveno področje na preseku statistike in umetne inteligence. Tako kot statistične metode omogoča analizo velike množice podatkov s ciljem preverjanja hipotez, ki bi veljali v podatkih iz opazovanj in merjenj . Za razliko od statističnih pristopov, ki omogočajo preverjanje hipotez postavljenih s strani znanstvenikov oz. zbiralcev opazovanj in meritev, metode za rudarjenje podatkov omogočajo avtomatsko iskanje po prostoru možnih hipotez in znanstveniku pomagajo ugotoviti katere hipoteze imajo statistično veljavo na podatkih. Na predavanju bomo na enostavnih primerih ilustrirali osnovne pojme s področja rudarjenja podatkov, kot so podatki, vzorec, hipoteza, model in kvaliteta modela. Na primerih bomo tudi pokazali kako uporabljamo metode za rudarjenje podatkov na realnih problemih iz različnih področij znanosti.

Špela Arhar: Kaj početi s FidoPLUS: horuk v nove čase

Referenčni korpusi so zaradi svoje splošne uporabnosti nepogrešljivo orodje za raznovrstno raziskovanje jezika - zavest o tem se pocasi prebija tudi v naš prostor in vse vec je zainteresiranih raziskovalcev, ki si z obstoječima korpusoma FIDA ter Nova beseda ne morejo dovolj pomagati. Namen gradnje korpusa FidaPLUS, ki se te dni zaključuje, je zagotoviti prosto dostopen, povsem sodoben slovenski referenčni korpus velikega obsega, ki je podprt z ustrezno zmogljivim konkordančnikom, pa tudi vso informacijsko infrastrukturo, ki jo uporabnik potrebuje, da se dela s korpusom nauči. Na predavanju bo predstavljen projekt FidaPLUS, predvsem seveda končni (in skoraj končani) rezultat - referenčni korpus za slovenščino.

Peter Holozan: Strojno prevajanje - krasni novi svet

Strojno prevajanje je prevajanje, ko računalnik samostojno prevaja besedila. Predstavljena bo kratka zgodovina področja, nekateri osnovni pristopi, izdelki in uporabnost strojnega prevajanja. Posebej bodo opisane nekatere značilnosti prevajalnika Presis.

Špela Vintar: Samodejno luščenje terminologije iz korpusov: od osnov do umazanih podrobnosti

Luščenje terminologije iz strokovnih besedil velja v računalniškem jezikoslovju za "dolgočasno" temo, o kateri so vsi že vse povedali. Funkcijo luščenja terminologije ponujajo že številna komercialna orodja, z raziskovalnega vidika pa se zdi problem v zadostni meri obvladan, da ne podžiga več gorečega zanimanja. Kljub temu pa uspešnega prenosa te tehnologije v prakso - denimo v slovaropisne ali prevajalske namene - ne najdemo pogosto. Predavanje nazorno opiše glavne metode luščenja izrazja v eno- in dvojezičnem kontekstu, kjer najprej prek primerov razložimo znane statistične formule za računanje zlepljenosti kolokacij, potem pa pristanemo pri hibridnem luščenju s pomočjo besednovrstnih vzorcev. Za konec pokažemo številne primere na različne načine izluščenih terminoloških kandidatov in se predamo razpravi.

Damir Ćavar: Dynamic Language Models

The last decades of computational linguistics were characterized by a shift from rule-based and linguistically motivated language modeling for various types of applications towards a statistical paradigm, a paradigm that might be said to have its significant foundations in the empiricist linguistic in the 50's and 60's.
The main motivation for the paradigm shift seems to have been a lack of coverage, the complexity of the models (rules and grammars), and the expert effort that is required to generate wide coverage rule- based models with enough robustness and efficiency. The apparent advantage of statistical models appeared to be elegancy, efficiency, and the independents of linguistic experts in the development of natural language processing applications. However, looking at the performance of rule-based and statistical models, there does not seem to be a serious advantage in any of those.
Furthermore, while statistical models can usually better cope with deviations from rules or grammars, rule- or grammar-based models could contain rare, but peculiar constraints of natural language, that statistical models could not cope with, or they had to make use of e.g. sophisticated smoothing techniques that model events outside the scope of the available language data. Statistical models rely on large corpora that need to be annotated and checked by experts, so the apparent reduction of effort is also rather relative. 
Furthermore, probably less than 1% of all natural languages are documented sufficiently enough in form of language corpora (textual or acoustic), so they appear outside the scope of plain statistical methods that rely on training on enriched linguistic data.
There seems to be a general problem with both approach types. It seems that they both presuppose a static language model, i.e. static sets of rules or grammars, or once trained and maybe adapted and smoothed statistical models that do not extend or (automatically) adjust to specific applications and potential changes of natural language data over time, domain, or scenario.
In this talk we will discuss possibilities to make rule-based or statistical language models adaptive, and in fact incrementally extensible, using machine learning strategies. We will discuss such approaches, their psycholinguistic and cognitive grounding, applied to different linguistic levels, e.g. morphology, syntax, and (lexical) semantics, and their potential for real NLP applications, as well as their relation to psycholinguistic models of language acquisition and change.

Dimitar Hristovski: Literature-Based Knowledge Discovery using Natural Language Processing

Literature-based discovery (LBD) is an emerging methodology for uncovering implicit relationships in the online research literature. Making such relationships explicit supports hypothesis generation and discovery. Currently LBD systems depend exclusively on co-occurrence of words or concepts in target documents, regardless of whether relations actually exist between the words or concepts. We describe a method to enhance LBD through capture of semantic relations from the literature via use of natural language processing (NLP). This paper reports on an application of LBD that combines two NLP systems: BioMedLEE and SemRep, which are coupled with an LBD system called BITOLA. The two NLP systems complement each other to increase the types of information utilized by BITOLA. We also discuss issues associated with combining heterogeneous systems. Initial experiments suggest this approach can uncover new associations that were not possible using previous methods.

Darja Fišer: Izraba večjezičnih virov za izgradnjo slovenskega wordneta

Semantični leksikoni so nepogrešljivi vir za številna področja računalniške obdelave naravnega jezika, vendar za slovenščino še ne obstajajo. Ker je izdelava obsežnih semantičnih podatkovnih zbirk, ki pokrivajo tudi splošno besedišče, zelo dolgotrajna in draga, v predavanju predlagamo model, s katerim je postopek mogoče avtomatizirati in pospešiti. Pristop temelji na tujejezičnih semantičnih leksikonih tipa wordnet in vzporednih korpusih za pet jezikov: angleščino, bolgarščino, češčino, romunščino in slovenščino. Predpostavka, iz katere smo pri delu izhajali, je ta, da se posamezni pomeni večpomenskih besed v izvornem jeziku v drug jezik načeloma prevajajo z različnimi besedami in da imajo različne besede, ki imajo v drugem jeziku isti prevod, pogosto skupno pomensko komponento. Na podlagi tega smo torej predvidevali, da bodo pri večjezičnem pristopu z vzporejanjem besedil na ravni besed do izraza prišle razlike med posameznimi pomeni večpomenskih besed na eni in podobnosti različnih besed z istim pomenom na drugi strani. Dobljene množice sinonimov smo primerjali z referenčnim, ročno izdelanim prototipnim wordnetom za slovenščino in tako izmerili priklic in natančnost metode. Vsebinsko ustreznost generiranih sinsetov smo na manjšem vzorcu preverili tudi ročno in klasificirali napake. Predavanje bomo sklenili z načrti za prihodnje delo in razpravo.

Primož Jakopin: Oblikoslovno označevanje korpusa Beseda

Besedilni korpus Beseda obsega 3 milijone besed slovenskega leposlovja; zbran in urejen je bil kot gradivo za doktorsko disertacijo. Dober milijon besed, ki vključuje Zbrana dela Cirila Kosmača in tudi vzorec iz časopisa DELO, je bilo na Inštitutu za slovenski jezik Frana Ramovša ZRC SAZU oblikoslovno označenih (Primož Jakopin in Aleksandra Bizjak). Predstavljen je nabor oznak, ki so bile uporabljene pri tem ter postopek označevanja s pripadajočo programsko opremo.

Boštjan Jerko: Znakovni jezik - kaj pa je to?

Glede na to, da je pri nas slovenski znakovni jezik premalo strokovno obravnavan, bom na tem predavanju naredil pregled znakovnega jezika oz. jezikov.Na kratko bom predstavil zgodovino gluhote oz. kako je potekala iniciativa za učenje in razvoj znakovnega jezika. Razložil bom tudi  nekaj pojmov, ki so pomembni za razumevanje nastajanja znakovnega jezika.Nato bom obravnavo obrnil in najprej predstavil mednarodno kretnjo in preko nje še slovenski znakovni jezik (SZJ). Pri slednjem bom prikazal nekaj posebnosti v primerjavi s slovenskim jezikom. Na kaj je potrebno biti pozoren? Kako so nastajale nekatere kretnje? Predstavil bom tudi nekaj projektov, ki so potekali za zapis znakovnega jezika in zadnji projekt Zveze društev gluhih in naglušnih za standardizacijo in razvoj znakovnega jezika. V zvezi s tem bom prikazal tudi težave, ki se pojavljajo pri gradnji slovarja in nakazal možne rešitve. Glede na moje tehnično ozadje se bom malce dlje ustavil pri idejah za tehnične rešitve obravnave znakovnega jezika, ki zahteva precej drugačno obravnavo v primerjavi s pisano besedo.

Judit Kuti: Sense Disambiguation - “Ambiguous Sensation”? Evaluating Sense Inventories for verbal WSD in Hungarian
The case study to be presented is a first attempt to evaluate the applicability of three resources used as sense inventories in machine-performed WSD in Hungarian. For this purpose we conducted an experiment focusing on inter-annotator agreement (ITA) among human annotators relying on these databases when determining verb senses in context. The chosen resources, one of which is language-independent in its construction method, represent three points in the spectrum ranging from introspection-based to distribution-based databases. Our goal was on the one hand to see whether a reliable ceiling for machine-performed WSD (in terms of an acceptably high ITA-value) can be obtained using any of the databases, on the other hand to test Véronis' claim that the distribution-based construction of sense inventories proves to be more consistent and thus, more reliable than the introspection-based one. Our results show that none of the available databases for Hungarian can in its present stage form the basis of an ITA-value that could serve as ceiling for machine-performed WSD. Our results do not confirm Véronis' claim (but do not refute it, either), which might be due to the restricted capability of our distribution-based database to handle meanings, since it is not specifically designed for WSD-purposes, and needs further targeted improvement.

Nikola Ljubešić: Pronalaženje događaja u novinskim tekstovima

U izlaganju se prikazuje problem pronalaženja događaja u skupini dokumenata - članaka objavljenih na novinskim portalima. Kako se u ovom slučaju informacijskom jedinicom smatra pojedini dokument, radi se o problemu klasifikacije dokumenata s nepoznatim popisom i brojem kategorija. Taj se problem rješava metodom klasteriranja bez prethodno poznatog broja kategorija kao jednom od oblika nenadzirane klasifikacije. Istražuju se sva tri važna koraka u tehnikama klasteriranja - formalizacija dokumenta, računanje matrice udaljenosti te samo klasteriranje. Pri formalizaciji dokumenta pozornost se posvećuje odabiru značajki za prikaz dokumenta (uklanjanje funkcijskih riječi, hapax legomena), ekstrakciji značajki (morfološka normalizacija, višečlani izrazi) te mjerama težina značajki. U koraku računanja matrice udaljenosti istražuje se više metrika udaljenosti iz područja geometrije, teorije skupova te teorije informacija. Kod algoritama za klasteriranje odabire se između jednostavnijih algoritama jednim prolazom i kompleksnijih hijerarhijskih algoritama. Krajnje oblikovani algoritam koristi pretežno statističke, jezično nezavisne metode te postiže F0.5 vrijednost od ~ 0.8.

Benoit Sagot: Freely available lexical resources for French

Abstract: We shall describe ongoing efforts towards the development of freely available lexical resources for French that cover the morphological, syntactic and semantic levels. In particular, the morphological and syntactic lexicon Lefff, developed within the Alexina framework, and the semantic lexicon WOLF (wordnet), developed in collaboration with the University of Ljubljana. A particular attention will be drawn towards the importance of semi-automatic approaches for lexical resource development, i.e., approaches that combine manual effort (careful design of linguistically motivated models, manual validation steps) and automatic techniques (typically, machine learning techniques). The importance of providing free access to lexical resources shall also be stressed.

Aljoša Vrščaj: Evalvacija strojnih prevajalnikov

Povzetek: V raziskavi sem obravnaval razvoj strojnega prevajanja in metode za evalvacijo strojnih prevajalnikov. Poleg preizkušenih metod za ročno evalvacijo, ki so jih uporabljali v raziskavah ALPAC in ARPA, sem predstavil najpogosteje citirane metrike za samodejno evalvacijo strojnih prevodov: WER, BLEU, GTM, ROUGE, METEOR, TER in nekatere njihove izpeljanke. V eksperimentu je zajeta tako ročna kot samodejna evalvacija ob uporabi štirih metrik in trije strojni prevajalniki, ki so trenutno razpoložljivi za jezikovni par angleščina-slovenščina: Presis, Bing in Google. S primerjavo ročne in samodejne evalvacije sem s pomočjo Pearsonovega koeficienta korelacije izračunal, katera metrika se najbolj ujema z rezultati ročne evalvacije, za katero sem predpostavil, da je merilo za verodostojno evalvacijo. Rezultati so pokazali zanesljivost metrik pri rangiranju prevajalskih sistemov, hkrati pa tudi dvom v dovoljšnjo objektivnost ročne evalvacije.

Thomas Hanke: Language Resources for German Sign Language

Abstract: German Sign Language (DGS) is the 'native' language of approx. 80000 Deaf people in Germany. Its visual modality and the fact that DGS - like other sign languages - has no established writing system have major implications on how language technologies can be applied to DGS. E.g. many processes in corpus annotation considered relatively straightforward for many spoken languages, such as lemmatisation, currently need to be done manually for sign languages and are most time-consuming. In our current projects, we make use of video recognition and avatar technology to go the first steps towards automatisation of these processes. In the first phase of the DGS-Korpus project, corpus data of substantial size (750 hours session length from 330 informants resulting in an expected video footage of about 7000 hours) are being collected. The corpus will form the basis upon which a dictionary will be compiled. However, such a data basis is not only an invaluable resource for the linguistic research on DGS, but also a contribution to preserving the cultural heritage of the Deaf community. It is therefore essential that data not only become available to the linguistic community, but also the DGS language community at large. This has substantial ramifications on the data collection phase which is the focus of our talk.

Kikuko Nishina: Abstract
The Hinoki project set out to develop web-based Computer-Assisted Language Learning (CALL) systems for Japanese language learners more than a decade ago. Utilizing Natural Language Processing technologies and other linguistic resources, the project has come to encompass three systems, two corpora and many other resources. Beginning with the reading assistance system Asunaro, we describe the construction of Asunaro’s multilingual dictionary and its dependency grammar-based approach to reading assistance. The second system, Natsume, is a writing assistance system that uses large-scale corpora to provide an easy to use collocation search feature that is interesting for its inclusion of the concept of genre. The final system, Nutmeg, is an extension of Natsume and the Natane learner corpus. It provides automatic correction of learners errors in compositions by using Natsume for its large corpus and genre-aware collocation data and Natane for its data on learner errors.