Unustasid parooli?



     
Sisseloginud kasutajatele märgistatakse automaatselt teksti piirkonnad, mis on muutunud alates viimasest lugemisest. Lisandunud osa on roheline, eemaldatud osa punane.
Lisaks märgistatakse sisseloginud kasutajatele menüüs täiendavate värvide abil artiklid, mis on kasutajal loetud (hall), ning artiklid, mis on peale lugemist täienenud (roheline).

   

     

Pealkiri :
Id (lühend aadressiribale) :
Autor ja viimase muudatuse autor :
Loomise aeg ja viimane muudatus :
Teksti pikkus :
Luba ligipääs ainult kasutajanimedele (eralda komadega). Autoril on alati ligipääs. :




Kernel Canonical Correlation Analysis
 
Kes mõistab võluväge, kuidas selgeks saada lindude ja loomade keelt, kivide ja taimede keelt?
 
KCCA on meetod erinevates keeltes tekstide "tõlkimiseks" universaalsesse semantilisse keelde ning seejärel näiteks teistes keeltes sama sisuga paariliste leidmiseks.
 
TODO: lähipäevil lisan siia viite failile, kus tutvustan-selgitan arvutusprotsessi ja süsteemi häid omadusi detailsemalt. Kui huvitab, tule siia lehele mõne aja pärast tagasi.
 
Asja saab kasutada muusika otsimiseks; piltide otsimiseks, sest pildi või muusika sisu mõistavad inimesed  ühtmoodi sõltumata selle nimest; saad "googeldada" nõnda, et saad vastused kõigis keeltes, mida oskad lugeda, sõltumata Sinu valitud otsisõnadest; isegi kui otsid vaid ühe keele piires, saad vastused, mis sisaldavad Sinu otsingusõnade sünonüüme jne - või leiad pigem isegi lausete "sünonüüme", mis väljendavad sama mõtet või teemat erineval moel.
 
Korpuse, Matlabi failid, juhendi koos katsetulemustega, originaalartikli, minu kokkuvõtte ja slideshow leiad siit:
Matlabi kood, juhend ja katsetulemused on minu looming. Palun viidata. 
 
Eesti Vabariigi Põhiseaduse eesti-inglise paralleelkorpusel testides andis süsteem kuni 99% täpseid tulemusi.
 
Kuigi juhendis viidatud optsionaalne abimoodul EstCGParser ei ole avalikult saada, on avalikult kasutatav sarnane teenus veebis. Nende väljundid on võrdlemisi samal kujul, võibolla tuleb õige veidi muuta Matlabi koodi.
Kui on soov kasutada süsteemi muudes keeltes kui eesti (keeltes, mille sõnadel ei ole käändelõppe), siis pole morfoanalüsaatori osa kindlasti tarvis.
 
EstCGParser-i alternatiivina sobib vast ka järgnev avatud koodiga Pascalis tehtud morfoloogia analüsaator:
Võimalik et kirjutan selle mingi hetk C++ või Matlab-i keelde ringi.
Paistab, et selle tööks on vaja veel laadida:
+ litsents :) http://www.eki.ee/eki/licence.html
 
 
 
Korpused
 
* Eesti (eesti-inglise):
http://www.cl.ut.ee/korpused/paralleel/olemid - ülal oleva korpuse HTML kodeeringu märgid. Morfoanalüüsiks on vaja need ASCII kujule teisendada.
 
* Mitmed
http://www.cl.ut.ee/viited/ - Inglismaa, Ameerika, Saksamaa, Sloveeni, Tsehhi, Leedu
 
* Europarlament (palju keeli):
 
* Kanada parlament (inglise-prantsuse):
http://www.isi.edu/natural-language/download/hansard/
 
 
 
Muu tarkvara
 
 
 
 
Uurida
 
 
 
 

kommentaarium spämmi tõttu ajutiselt välja lülitatud





Teised tekstid samas jaotuses:  ||  Bakalaureusetöö  ||  Baka arendus  ||  



  Saada kiri