Conferințele Centrului de Lingvistică Teoretică și Aplicată: Verginica BARBU MITITELU, „CoRoLa. Accesul la textele scrise și la cele orale” (online, 21 ianuarie 2021) – Facultatea de Litere, Universitatea din București

Departamentul de Lingvistică al Facultății de Litere continuă ciclul Conferințelor Centrului de Lingvistică Teoretică și Aplicată. Din pricina situației epidemiologice, conferințele se vor desfășura în continuare online, pe platforma Google Meet.

Primul vorbitor din 2021 este dr. Verginica Barbu Mititelu, cercetător științific la Research Institute for Artificial Intelligence (Academia Română) care va prezenta conferința „CoRoLa. Accesul la textele scrise și la cele orale”.

Data: joi, 21 ianuarie 2021

Ora: 18.00

Link de acces: https://meet.google.com/tzf-gqci-awb

Despre CoRoLa (preluat din https://corola.racai.ro/)

Proiectul CoRoLa (Corpusul de referință pentru limba română contemporană) a debutat în 2014 ca program prioritar al Academiei Române și a fost încredințat Institutului de Cercetări pentru Inteligență Artificială „Mihai Drăgănescu” din București (ICIA) și Institutului de Informatică Teoretică din Iași (IIT). Corpusul conține texte diverse, datând din 1989 și până astăzi, scopul creării acestuia fiind să ofere o imagine obiectivă a limbii române actuale scrise și vorbite. Corpusul este deschis utilizării publice prin intermediul a două interfețe pentru căutare în date de tip text și una pentru căutare în date de tip audio. Domeniile principale de utilizare a corpusului CoRoLa sunt: studii lingvistice; modelarea limbajului pentru procesarea automată a limbii române; dezvoltarea de modele de traducere; învățarea limbii; indexare și recuperare inteligentă și multi-criterială de informație textuală și orală; clasificare semantică de volume mari de date (text și audio); extragere de cunoștințe din date (text și audio); rezumare automată de documente; sisteme de întrebare-răspuns; recunoaștere și sinteza automată a vorbirii; etc.

Dezvoltarea corpusului a urmat standardele și bunele practici internaționale și reflectă toate stilurile funcționale ale limbii (cu denumirile în engleză, conform metadatelor textelor, Imaginative, Science, Journalistic, Law, Administrative, Memoirs, Blogpost), acoperă patru domenii generale (Arts&Culture, Nature, Science, Society). Acestea din urmă sunt clasificate în 70 de subdomenii.

Colectarea datelor s-a făcut în baza unor protocoale semnate cu furnizorii de texte, deținători ai drepturilor de proprietate intelectuală asupra textelor la care ne-au oferit acces (vezi secțiunea Parteneri).

Textele sunt însoțite de metadate și au fost supuse unui lanț de prelucrare ce combină preprocesare manuală asistată de computer și procesare complet automată.

Curățarea (eliminarea elementelor ce nu aparțin textului – antete, note, titluri, cuprins etc. – din documente), verificarea utilizării corecte a diacriticelor și introducerea lor automată atunci când a fost nevoie, precum și crearea metadatelor pentru fiecare document s-au realizat folosind instrumente de procesare dezvoltate intern. Ulterior, datele au fost segmentate la nivel de propoziție și de cuvânt, adnotate morfosintactic, lematizate, grupurile sintactice au fost identificate. În plus, fișierele audio și traducerile lor au fost aliniate (la nivel de fonem, silabă și cuvânt).