AFLR


SOFTWIN anunţă demararea proiectului Analiza fonetică a limbii române: studiu şi aplicaţii informatice (AFLR), contract: 332/2014, Cod Depunere: PN-II-PT-PCCA-2013-4-1451.

SOFTWIN este una dintre instituţiile din România care se ocupă de prelucrarea limbajelor naturale. Proiectul Analiza fonetică a limbii române: studiu şi aplicaţii informatice (AFLR) îşi propune ca, pe baza acumulărilor de până acum realizate de SOFTWIN şi partenerii săi (baze de cunoştinţe lingvistice, instrumente lingvistice, aplicaţii lingvistice) să realizeze mai multe produse cu valabilitate ştiinţifică sau comercială: un Studiu privind fonetica limbii române, pornind de la un ansamblu semnificativ de cunoştinţe lingvistice formalizate în metalimbajul GRAALAN (circa 100.000 de leme, 12.500.000 de forme flexionate analitice, 1.250.000 de forme flexionate sintetice, etc.), un Dicţionar morfologic şi fonetic al limbii române, un Dicţionar fonetic al silabelor limbii române şi o Aplicaţie de recunoaştere a vorbirii pentru limba română.

Proiectul va demonstra posibilitatea unui tratament exhaustiv formal al foneticii limbii române, peste un lexicon foarte cuprinzător ce va acoperi circa 90.000-100.000 de leme din cele 120.000 leme (respectiv cele 170.000 de leme plus variante) ce se află în Dicţionarul explicativ a al limbii române, Micul Dicţionar al Academiei (4 volume) şi Marele Dicţionar al Academiei (19 volume) ). Ne propunem să realizăm în premieră, o analiză consistentă a silabelor limbii române sub forma unor baze de cunoştinţe lingvistice corespunzătoare.

Obiectivele proiectului 
  1. Actualizarea, completarea şi dezvoltarea bazelor de cunoştinţe lingvistice privind limba română pentru a se ajunge la un volum de 90.000-100.000 de cuvinte. Aspectul avut în vedere este cel fonetic dar trebuie să fie dezvoltate şi toate acele mijloace care să permită această actualizare, completare şi dezvoltare (lexicon, reguli de flexiune, reguli de silabificare, reguli de reprezentare fonetică).
  2. Dezvoltarea pentru volumul de cuvinte acoperit a primului dicţionar morfologic şi fonetic consistent al limbii române. Vor trebui acoperite atât cele 90.000-100.000 de leme cât şi toate paradigmele corespunzătoare, respectiv formele flexionate monocuvânt (circa 1.250.000 forme distincte corespunzând la circa 2.500.000 situaţii de flexiune) şi formele flexionate multicuvânt (circa 12.500.000 forme distincte corespunzând la circa 18.750.000 situaţii de flexiune).
  3. Dezvoltarea unei aplicaţii informatice care să furnizeze toate formele flexionate monocuvânt şi multicuvânt cu transcrierea lor fonetică.
  4. Dezvoltarea unui dicţionar fonetic al tuturor silabelor limbii române şi al cuvintelor ce acoperă aceste silabe.
  5. Dezvoltarea unei aplicaţii de recunoaştere a vorbirii pentru limba română bazată pe analiza fonetică a silabelor cuvintelor.