Ali Caka, Vehbi Neziri
Publication year: 2011

ABSTRACT

Përmbledhje: Njeriu e ka vështirë me kompjuterët, por kompjuterët e kanë shumë më vështirë me njeriun. Përkundër përdorimit të teknologjive gjuhësore, që në fakt janë teknologji të informacionit të specializuara për t’u marrë me mediumin më kompleks të botës sonë: gjuhën e njeriut (gjuhën natyrale), prapë se prapë ende nuk është arritur një nivel i kënaqshëm i procedimit (përpunimit) të gjuhës së njeriut (gjuhës natyrale) dhe shumë larg është realizimi i ëndrrës së kamotshme e përherë të parealizuar të njeriut – për të bërë një model njeriu – robot që mund të flas dhe të kuptojë të folurin, të gjykojë dhe të nxjerrë përfundime nga një tekst i dëgjuar ose i shkruar. Qëllim i këtij punimi është zhvillimi i algoritmit të modelit kompjuterik të etiketimit (tagimit) të pjesës së ligjëratës (part-of-speech-tagging) në korpuset tekstore dhe të zgjidh problemin e dykuptimësisë – ambiguitetit (ambiguity] morfologjik. Modeli kompjuterik do të përdoret për zhvillimin e programit të Etiketimit (tagimit) automatik të shqipes me përdorimin e teknologjisë së programit dot net bazuar në Modelin e fshehur të Markovit (hidden Markov model – HMM) i cili do të ketë “njohuri” të mjaftueshme për të dalluar kategorinë gramatikore të pjesës së ligjëratës. Programi kompjuterik do të testohet në Korpusin njëmilionfjalësh të gjuhës shqipe të përpiluar nga N. Caka dhe A. Caka më 2006, për të parë saktësinë e etiketimit automatik (vënies së etiketave secilës pjesë të ligjëratës) dhe rezultatet do të krahasohen me rezultatet e përftuara gjatë etiketimit manual të korpusit.

Fjalët çelës: etiketim, gjuhë-natyrale, algoritëm, model-kompjuterik, program-kompjuterik, korpus-tesktor
Key-words: tagging, natural-language, algorithm, computer-model, computer-program, test-corpus