Els projectes de corpus i base de dades lèxica de la llengua de signes catalana (LSC)

per Eulàlia Ribera

IEC

Enregistraments a la parella de joves a la FESOCA
Enregistraments a la parella de joves a la FESOCA | Gemma Barberà

La llavor del nostre projecte la va plantar el Parlament de Catalunya quan, l’any 2010, va aprovar la Llei 17/2010, de 3 de juny, de la llengua de signes catalana (LSC). L’article desè d’aquesta llei estableix que l’Institut d’Estudis Catalans (IEC) és la institució acadèmica que en determina les normes lingüístiques i n’impulsa la recerca i la sistematització. I és que l’LSC és la llengua natural de la comunitat sorda i sordcega de Catalunya i, com qualsevol altra llengua natural, té la seva pròpia gramàtica, és a dir, la seva pròpia morfologia, fonologia, sintaxi i semàntica, i el seu propi lèxic.

Amb la llei a la mà, l’any 2012, l’IEC va iniciar la creació del corpus de referència, un dels dos pilars bàsics per a la sistematització i la normalització de la llengua. Des d’aleshores, un equip integrat per persones nadiues de l’LSC, tècnics lingüistes i investigadors han estat enregistrant signants nadius o aprenents precoços a tot el domini lingüístic. Per a fer-ho possible, han contactat amb les associacions de persones sordes de les diferents localitats i han escollit un home i una dona de tres grups d’edat diferents: 18-30 anys, 31-50 anys i +51 anys. Se’ls han proposat 9 activitats dirigides, amb l’objectiu d’aconseguir, a partir de dades semiespontànies i induïdes, el màxim ventall de signes i variants possibles.

Però amb els enregistraments no n’hi ha prou. Les especificats de l’LSC, com a llengua de signes, planteja molts més reptes. Per exemple, encara no existeixen processadors d’imatge que segmentin de forma automàtica els signes. Per aquest motiu, cal fer de forma manual el trasllat de les seves tres dimensions a dues dimensions. Això vol dir que els enregistraments no es tradueixen, sinó que s’anoten de tal manera que es recullin les especificitats tridimensionals rellevants des d’una perspectiva lingüística. I també vol dir que les anotacions s’han de revisar minuciosament, per garantir el màxim nivell d’homogeneïtat en la informació, per tal de poder processar-la.

Paral·lelament, l’any 2016 l’IEC va iniciar el segon pilar del projecte: la creació de la base de dades lèxica. Com que ja hi havia enregistraments anotats i revisats, es va poder iniciar la tasca de buidatge de signes del corpus i la comparativa amb els signes que apareixen en els materials lexicogràfics existents, dels quals també s’ha fet un buidatge. El treball d’anàlisi lingüística de cada un d’aquests signes permet identificar-ne les diferents variants, els diversos matisos semàntics i la seva distribució territorial o generacional, entre molts altres aspectes importantíssims per al procés de descripció de la llengua.

Actualment, encara estem duent a terme enregistraments, anotacions i revisions de les gravacions i estem elaborant fitxes lexicogràfiques de cada un dels signes identificats. Però esperem poder fer públic el projecte del corpus ben aviat i que en un futur no gaire llunyà puguem publicar la base de dades lèxica.

Josep Quer Villanueva. Director del projecte

Gemma Barberà Altimira. Coordinadora del corpus

Eulàlia Ribera i Llonc. Coordinadora base de dades lèxica