Keel ja tehnoloogia (IFI6223.DT)
Õppeaine kood
IFI6223.DT
vana ainekood
Õppeaine nimetus eesti k
Keel ja tehnoloogia
Õppeaine nimetus inglise k
Language and Technology
Õppeaine maht EAP
6.0
Orienteeruv kontakttundide maht
28
Õpetamise semester
kevad
Kontrollivorm
eksam
2019/2020 sügissemestri õppejõud
Pille Eslon (eesti keel) tavaline kursus
2019/2020 kevadsemestri õppejõud
õppejõud on määramata
Õppeaine eesmärgid
Kujundada
a) alusteadmised ja praktilised oskused suurte tekstiliste andmemahtude töötlemiseks, võrdlemiseks ja tulemuste visualiseerimiseks;
b) valmidus leidmaks optimaalsed analüüsimeetodid ja automaatanalüüsi vahendid ning põhjendada oma eelistusi seoses lähteülesande lahendamisega
c) oskus keelemustrite kvalitatiivseks interpreteerimiseks lähteülesandest tulenevalt.
d) teadmised suulise kõne tehnoloogilisest analüüsivõimalustest.
Õppeaine sisu lühikirjeldus
Tutvutakse loomuliku keele automaatse analüüsi võimalustega ja eesti keele alusel töötavate tarkvararakendustega (nt TreeTagger, morfo- ja süntaksianalüsaator, Klastrileidja, WordSmith Tools, Sketch Engine).
Antakse ülevaade eesti keelega seotud tehnoloogilisest arendustööst, vabavaralistest rakendustest, mida saab kasutada suulise kõne (tekst-kõne süntees, kõnetuvastus) ja kirjalike tekstide analüüsimiseks, samuti digiteeritud arhiivimaterjalide jm töötlemiseks.
Õpitakse kasutama andmekaeve põhimõttel töötavaid rakendusi, mis toovad tekstist esile keelekasutusmustreid ja on seotud teksti sisuga. Õpitakse saadud infot kvalitatiivselt interpreteerima, et määrata kindlaks olulised sündmused, tegijad, nende hoiakud ja hinnangud, teha järeldusi individuaalsete, sotsiokultuuriliste, poliitiliste jm seisukohtade osas erinevat liiki (autori)tekstides.
Õpitakse kasutama põhilisi statistilisi meetodeid, et võrrelda mahukaid andmekogusid, hinnata keelekasutusmustrite (ka konkordantsid, kollokatsioonid, idioomid, võtmesõnad) alusel nt erinevate ajastute diskursuse sarnasust ja erinemist.
Õpitakse erinevate lähteülesannete lahendamisel rakendama analüüse mõne temaatilise paketi abil, nt Natural Language Toolkit (http://www.nltk.org/) või Pandas (http://pandas.pydata.org/).
Arutatakse läbi kursusetöö probleemsed küsimused (nt lähteülesannete aktuaalsus), hinnatakse nende lahendamiseks valitud meetodite ja analüüsivahendite optimaalsust, vaieldakse hüpoteeside paikapidavuse üle, põhjendades oma seisukohti rakenduslike ja teoreetiliste argumentidega.
Iseseisev töö
Kursusetöö teema valik, probleemi sõnastamine, ülesanded, tegevuskava koostamine. Kursusetöö kaitsmine rühmas.
Töö allikmaterjalide ja teadusliku kirjandusega (lugemispäevik).
Õppeaine õpiväljundid
Omab ülevaadet õpingutes ja tulevases töös rakendatavatest põhilistest statistilistest meetoditest ja keeletarkvarast.
Oskab neid teadlikult ja eesmärgipäraselt kasutada, valides konkreetse (kultuurilise, sotsiaalse, lingvistilise, keeletehnoloogilise vm) uurimusliku või rakendusliku ülesande lahendamiseks optimaalsed meetodid ja rakendused.
Suudab kvalitatiivselt interpreteerida loomuliku keele automaatanalüüsi tulemusi, seostab need allkeelte, individuaalse keelekasutuse, meediasündmuste, sotsiaalajaloolise diskursusega jm.
Hindamismeetodid
Kursusetöö (maht 20 000 tähemärki).
Kursusetöö kaitsmine: slaidid + esinemine 10 min + arutelu 15 min.
Esinemine lugemispäeviku alusel vabalt valitud teemal (slaidid + 10-15 min).
Õppejõud
Pille Eslon
Kohustuslik kirjandus
Liin, K., Muischnek, K., Müürisep, K., Vider, K. (2012). The Estonian Language in the Digital Age / Eesti keel digiajastul. Berlin, Heidelberg: Springer. (https://books.google.ee/books?id=h3FsD47LEjIC&lpg=PA11&dq=keeletehnoloogia%20areng%20Eestis&pg=PA11#v=onepage&q&f=false )
Õim, H., Koit, M. (2017). Suundumusi inimsuhtluse keelelises analüüsis ja modelleerimises (I) ja (II). - Keel ja Kirjandus, 1 (71-80) ja 2 (143-150).
Mihkla, M., Hein, I., Kalvik, M.-L., Kiissel, I., Sirts, R., Tamuri, K. (2012). Estonian speech synthesis: applications and challenges/Синтез речи эстонского языка: применение и вызовы. A. E. Kibrik (Toim.). Computational Linguistics and Intellectual Technologies, Papers from the Annual International Conference "Dialogue" 2012. Moskva: РГГУ, 443 - 453.
Kaalep, H.-J., Koit, M. (2010). Kuidas masin tõlgib? - Keel ja Kirjandus, 10, 724-738.
Mautner, G. (2007). Mining large corpora for social information: The case
Asenduskirjandus
Groom, N. et al (eds.) (2015). Corpora, Grammar and Discourse. Amsterdam: Benjamins.
Baker, P. (2006). Using corpora in discourse analysis. London, New York: Continuum.
Mihkla, M. (2009). Eesti keel tehnoloogiate mõjutuses. - Õiguskeel, 4.
Meister, E., Penjam, J., Tõugu, E. Rakendusi reaal- ja humanitaarteaduste sümbioosist.
Eesti keele tekst-kõne süntees. Vt http://www.eki.ee/keeletehnoloogia/projektid/syntees/tks.html
Tekst-kõne sünteesi veebileht, vt http://synt.think.ee/
Kõnetöötlusvahendid, vt https://keeleressursid.ee/et/keeleressursid/konetootlusvahendid
Meister, E. Keeletehnoloogiatest. Vt https://www.youtube.com/watch?v=iwcahAD4cdw
Kõnetuvastus, vt http://veebiakadeemia.ee/puramiidi-tipus/konetuvastus/