Teme pentru lucrări de
licenţă 2007
1. Sistem de întrebare-răspuns în limba
română în domenii largi
2 studenţi –
conducere codirijată cu prep. drd. Adi Iftene
Lucrarea se
înscrie în linia Open Domain Question-Answering Systems,
preocupări activate de competiţiile TREC (http://trec.nist.gov/) şi CLEF (http://clef-qa.itc.it/). Lucrarea îşi
propune să dezvolte un sistem capabil să primească
întrebări în limba română şi să caute răspunsuri
într-o colecţie de documente româneşti/englezeşti.
Un astfel de sistem are în alcătuire, cel puţin: un modul de
interpretare a întrebării, a cărui ieşire constă dintr-o
expresie logică de cuvinte cheie generate din întrebare, un motor de
căutare care e responsabil de aducerea documentelor celor mai probabile în
care s-ar putea afla răspunsul şi un modul de generare a
răspunsului, capabil să decupeze din pasajele întoarse de motor
secvenţe de text coerente care să se constituie în răspunsuri.
Articole şi
cărţi recomandate: semnate de Marius
Paşca (open domain question answering), Sanda
Harabagiu, Dan Moldovan etc. V. şi
conferinţa lui Marius Paşca (Google Inc.) de vineri 14 aprilie 2006, ora 12:00, sala
309, sediul Facultăţii din str. Berthelot
16, Iaşi.
2. Textual entailment
1 student –
conducere codirijată cu prep. drd. Adi Iftene
Domeniul
implicaţiilor textuale s-a dezvoltat în ultimul timp în cadrul Tehnologiilor
Limbajului Uman, în eforturile de a elucida maniera în care oamenii sunt în stare
să descopere sensul adânc al exprimărilor în limbaj natural.
Dacă A şi B sunt două enunţuri, spunem că A
implică B (entails)
dacă înţelegerea lui B este condiţionată de
înţelegerea lui A. Astfel, A şi B, mai jos, formează un
lanţ inferenţial în primul exemplu dar nu şi în cel de al
doilea:
A. Maria a scăpat un ou din mână. B. Ea
a şters pardoseala cu mopsul.
A. Maria a scăpat un ou din mână. B. Ea
a plecat de urgenţă la serviciu.
Caută pe web competiţia Pascal http://www.pascal-network.org/Challenges/RTE/
şi autori precum Ido Dagan, Bernardo
Magnini etc.
3. Inteligent
time tracking
1-2 studenţi
– conducere codirijată cu asistent drd. Corina Forăscu
Timpul e foarte
important în înţelegerea textelor. Textele descriu evenimente care,
adesea, se petrec în anumite secvenţe, iar recuperarea acestora poate
însemna diferenţa dintre a prinse sensul unui text sau a-l scăpa.
Preocupările de a descrie logica textelor din perspectiva temporalităţii cât şi cele mai orientate
spre aplicaţii, de a găsi lanţurile temporale în texte prin
mijloace de prelucrare aplicate limbajului, sunt extrem de active. Cele mai
atractive aplicaţii se înscriu în sfera extragerii informaţiilor din
texte, rezumării automate şi web-ului
semantic.
Cercetările
din această direcţie fac, de regulă, uz de corpusuri adnotate la
temporalitate pentru a „învăţa” din ele cum
se pot descoperi evenimentele temporale şi lanţurile temporale. Tema
vă propune o analiză de acest gen, în care, având la dispoziţie
corpusuri adnotate la temporalitate în limbile
engleză şi română, să scrieţi programe care să
ducă la descoperirea automată a evenimentelor şi a
relaţiilor temporale dintre ele.
V. standarde de
adnotare la temporalitate utilizate în semantic web: TIME-ML (http://www.cs.brandeis.edu/~jamesp/arda/time/),
ontologii asupra timpului ca OWL-Time (http://www.isi.edu/~pan/OWL-Time.html).
V. autori ca I.Manni, Pustejovski
V. corpusuri
adnotate de C. Forăscu et
al. şi abordările de la FII de recuperare a adnotărilor prin
aliniere (http://www.info.uaic.ro/~dcristea/papers/Temporality
versus discourse.pdf).
4. Animaţie facială (cap vorbitor)
2 studenţi
Domeniul
interfeţelor care să arate cât mai umane într-un dialog cu un
utilizator este în continuă dezvoltare. Proiectul va trebui să
facă o trecere în revistă a celor mai reprezentative tehnici de
reproducere în plan a feţelor umane, inclusiv a celor vorbitoare.
Proiectul va trebui să realizeze o faţă umană (ideal,
reproductibilă de pe o fotografie sau un film) care să mişte
buzele în ritmul pronunţiei unui text, care să fie capabilă
să zâmbească, să arate tristeţe, bucurie sau furie.
Se va realiza o
tehnologie de filmare a unei feţe umane, prin care să se studieze
mişcarea unui număr semnificativ de puncte de control ataşate pielii feţei, în directă legătură cu
modificarea de expresivitate şi cu pronunţia. Se va formula o
gramatică capabilă să anime faţa în conformitate cu frazele
pe care le rosteşte şi cu sentimentele care se doresc afişate.
Cercetarea va
urma următoarele etape:
- informare,
finalizată printr-un raport state-of-the-art asupra domeniului
- punerea la
punct a tehnologiei de experimentare
- culegerea
corpusului de materiale filmate
- analiza acestor
materiale pentru găsirea familiei de puncte optime şi a dinamicilor
acestor puncte în corespondenţă cu sentimentele afişate
- sinteza unei
feţe şi mişcarea ei prin deplasarea punctelor de reper
- mişcarea
controlată a feţei prin intermediul unei „gramatici a sentimentelor”.
V. o prezentare: http://www.w3.org/2004/02/mmi-workshop/balci-itc.pdf
V. seria de Multimodal Interfaces http://icmi05.itc.it/wiki/ICMI.php/
V.
cercetările de la IRST-ITC Trento, Massimo Zancanara et al.
5. Obiectivarea emoţiilor comunicate prin text
2 studenţi
Un roman
abundă în exprimări care provoacă emoţii unui cititor. Un
dialog încărcat de stres este unul neplăcut. Dimpotrivă unul
relaxat, care nu vexează pe nici unul dintre interlocutori este unul
plăcut, care poate aduce mai repede la rezultatul scontat. De aceea
obiectivarea acestor trăiri proprii interlocutorului, în cursul
dialogului, poate provoca decizii importante privind maniera de conducere a
dialogului în continuare. Lucrarea îşi propune să realizez un program
capabil să semnaleze astfel de mesaje, uneori subliminale, într-un text
ori dialog.
Cercetarea va
urma următoarele etape:
- informare,
finalizată printr-un raport state-of-the-art asupra domeniului
- inventarierea
tipurilor de emoţii exprimate prin text
- adnotarea unui
text sau dialog la emoţii
- elaborarea unui
metode de recunoaştere a emoţiilor în text
Aplicaţia
avută în vedere poate însemna o cuplare cu tema 3 (cap vorbitor), astfel:
interfaţa umană a temei 3 primeşte un text, îl
pronunţă prin simularea mişcării buzelor, iar emoţiile
obiectivate în text de programul vostru sunt afişate explicit pe faţa
umanoidă.
6. Recunoaşterea sensurilor cuvintelor
1 student
Semcor (http://multisemcor.itc.it/semcor.php)
reprezintă o colecţie de texte în engleză în care fiecare cuvânt
are adnotat un sens, în conformitate cu un inventar de sensuri, cum este
dicţionarul tezaur WordNet (http://wordnet.princeton.edu/, http://wordnet.brainsip.com/). Recent o
parte din aceste texte au fost traduse în româneşte. Traducerile paralele
au fost apoi aliniate la nivel de propoziţie şi cuvânt (unu la unu,
unu la mai multe, sau unu la nici un cuvânt) cu un program realizat de
Institutul de Inteligenţă Artificială al Academiei Române (http://www.racai.ro). În felul acesta s-a
realizat un corpus românesc, deocamdată redus ca întindere, adnotat la
sensurile cuvintelor. Proiectul urmăreşte utilizarea acestui corpus
pentru crearea unui instrument capabil să recunoască sensul unui
cuvânt ambiguu în context.
V. Senseval(http://www.itri.brighton.ac.uk/events/senseval/,
http://www.senseval.org/senseval3/workshop.html),
lucrările Radei Mihalcea şi proiectul SenseLearner la http://mira.csci.unt.edu/~senselearner/,
bibliografia domeniului Word sense disambiguation.
7. GATE on-line
1 student –
conducere codirijată cu drd.
Ionuţ Pistol
Gate (http://gate.ac.uk/) este un sistem, realizat la
Universitatea din Sheffield, de configurare manuală
a lanţurilor de procese pentru prelucrarea limbajului natural. Un
număr considerabil de instrumente de prelucrare (module care
realizează etichetarea la parte de vorbire, care recunosc nume de
entităţi, care determină structuri sintactice şi multe
altele) pot fi conectate de un programator pentru configurarea de
aplicaţii dedicate. Un studiu recent (http://www.info.uaic.ro/~dcristea/papers/NLUCS-submission-authored.pdf)
arată cum aceste configuraţii pot fi realizate automat cunoscând pattern-urile de
intrare-ieşire ale modulelor componente şi cele ale sistemului ce se
are în vedere a fi realizat.
Proiectul
urmăreşte implementarea acestei tehnologii ca serviciu web. Utilizatorul va putea astfel configura propriile
sisteme de prelucrare a limbajului, utilizând o colecţie de module
disponibile on-line
sau proprii.
Aplicaţie
imediată: în proiectul FP6 LT4eL (http://www.let.uu.nl/lt4el/)
în care FII este partener.
V.
documentaţia GATE, v. pe web lucrări
semnate de Cuningham, Tablan
et al.
8. Recunoaşterea umorului în texte (computational humor)
1 student
Este vorba de o
cercetare inovativă care îşi propune
să recunoască contexte în care se evidenţiază umorul. Vor
trebui inventariate tipuri de umor ce se manifestă în texte, de adnotat
exprimări cu încărcătură umoristică într-un corpus de
texte şi de elaborat un program capabil să recunoască astfel de
exprimări şi, de ce nu?, eventual chiar de
generat automat astfel de exprimări.
V. Oliviero Stock (http://hmi.ewi.utwente.nl/Conferences/chi2003-workshop/contributions/Stock.pdf)
Dan Cristea