Kernel Canonical Correlation Analysis
Kes mõistab võluväge, kuidas selgeks saada lindude ja loomade keelt, kivide ja taimede keelt?
KCCA on meetod erinevates keeltes tekstide "tõlkimiseks" universaalsesse semantilisse keelde ning seejärel näiteks teistes keeltes sama sisuga paariliste leidmiseks.
TODO: lähipäevil lisan siia viite failile, kus tutvustan-selgitan arvutusprotsessi ja süsteemi häid omadusi detailsemalt. Kui huvitab, tule siia lehele mõne aja pärast tagasi.
Asja saab kasutada muusika otsimiseks; piltide otsimiseks, sest pildi või muusika sisu mõistavad inimesed ühtmoodi sõltumata selle nimest; saad "googeldada" nõnda, et saad vastused kõigis keeltes, mida oskad lugeda, sõltumata Sinu valitud otsisõnadest; isegi kui otsid vaid ühe keele piires, saad vastused, mis sisaldavad Sinu otsingusõnade sünonüüme jne - või leiad pigem isegi lausete "sünonüüme", mis väljendavad sama mõtet või teemat erineval moel.
Korpuse, Matlabi failid, juhendi koos katsetulemustega, originaalartikli, minu kokkuvõtte ja slideshow leiad siit:
Matlabi kood, juhend ja katsetulemused on minu looming. Palun viidata.
Eesti Vabariigi Põhiseaduse eesti-inglise paralleelkorpusel testides andis süsteem kuni 99% täpseid tulemusi.
Kuigi juhendis viidatud optsionaalne abimoodul EstCGParser ei ole avalikult saada, on avalikult kasutatav sarnane teenus veebis. Nende väljundid on võrdlemisi samal kujul, võibolla tuleb õige veidi muuta Matlabi koodi.
Kui on soov kasutada süsteemi muudes keeltes kui eesti (keeltes, mille sõnadel ei ole käändelõppe), siis pole morfoanalüsaatori osa kindlasti tarvis.
EstCGParser-i alternatiivina sobib vast ka järgnev avatud koodiga Pascalis tehtud morfoloogia analüsaator:
Võimalik et kirjutan selle mingi hetk C++ või Matlab-i keelde ringi.
Paistab, et selle tööks on vaja veel laadida: