Un cant de sirenes? Les expectatives de la transcripció automàtica de textos manuscrits

La recerca documental, d’una o altra manera, ja s’ha digitalitzat i és esperable que, en un futur molt proper, aquesta tendència s’intensifiqui

Les formes de treball i d’investigació dels historiadors han canviat molt en les darreres dècades. Ara, quan anem a l’arxiu, és perquè la documentació no està digitalitzada o penjada d’un servidor web, i ho fem amb una càmera a la mà —o equivalent— per endur-nos a casa tantes imatges com ens convingui, sense les restriccions econòmiques que abans teníem per fer-ne còpies en paper o en fotogrames. No compartim el criteri d’alguns arxius que posen restriccions a aquesta pràctica d’autoreproducció documental, i per això mateix els evitem tant com podem. L’ accessibilitat digital apunta a l’aparició d’un efecte Mateu en aquest àmbit. La recerca documental, d’una o altra manera, ja s’ha digitalitzat i és esperable que, en un futur molt proper, aquesta tendència s’intensifiqui. A pocs treballs d’investigació encara se’ls pot dir estrictament, com a mèrit, que tenen al darrere ‘llargues hores d’arxiu’, per bé que ens hàgim acostumat a llegir documents a tota hora, fora dels limitats i estrictes horaris d’apertura dels centres que els custodien, i que la massa documental manejada probablement sigui superior.

Si la mera digitalització ja ha modificat de manera substancial la forma de treballar amb documentació d’arxiu, a la propera cantonada s’està gestant un salt tecnològic que impactarà encara més. Em refereixo al desenvolupament de les tècniques de reconeixement de text manuscrit, basades en algorismes probabilístics vinculats a això que ara en diem ‘intel·ligència artificial’. Aquestes tecnologies permetran la transcripció automàtica de tot tipus de documentació escrita i, segurament, la pèrdua d’un dels pocs sabers específics que encara qualifiquen i distingeixen els historiadors.

Aparentment, el reconeixement de text manuscrit no hauria de ser més que una expansió de les conegudes tècniques de reconeixement òptic de caràcters (OCR), que tantes facilitats ens posen per consultar la premsa escrita i les obres impreses. Tanmateix, la continuïtat dels símbols gràfics en la lletra manuscrita impedeix l’aplicació d’aquestes eines, i exigeix el desenvolupament d’altres procediments similars als que s’estan utilitzant en reconeixement de la parla. Des de fa temps, diversos equips d’enginyers informàtics treballen en aquest camp específic de la visió artificial. Alguns havien col·laborat, juntament amb arxivers, en un projecte europeu (READ) que ha donat lloc a una iniciativa comercial, el programa Transkribus, que s’utilitza com a plataforma d’entrenament i de supervisió del procés de transcripció (https://readcoop.eu/transkribus).

El Centre de Recerca d’Història Rural de la UdG ja té molt avançat un projecte de transcripció de tots els llibres de l’Ofici d’Hipoteques de Girona

A hores d’ara hi ha dues grans opcions tecnològiques, amb un cost substancialment diferent. La més senzilla i econòmica consisteix a indexar patrons gràfics amb criteris probabilístics. El resultat no és un text transcrit, sinó una eina de cerca que permet buscar una cadena de caràcters directament sobre les imatges digitals. L’usuari pot decidir el grau de confiança que està disposat a acceptar. Per entendre’ns, el que obtenim s’assembla a una cerca amb Google: una llista de documents que, probablement, contenen les paraules que busquem. Un exemple d’aquest procediment el trobem en el projecte Carabela, que permet consultar una col·lecció de 150.000 imatges de documents procedents de l’Archivo General de Indias i de l’Archivo Histórico Provincial de Cádiz, amb l’objectiu d’identificar i protegir les restes de naufragi subjectes a espoli (http://carabela.prhlt.upv.es/); o també la transcripció de la col·lecció d’obres manuscrites de teatre del Segle d’Or de la Biblioteca Nacional. Aquest darrer projecte permet una consulta oberta que pot il·lustrar perfectament les possibilitats d’aquesta opció (http://prhlt-carabela.prhlt.upv.es/tso/).

L’alternativa és la transcripció completa de tot el document. El procés té dues grans fases. En la primera es detecten les àrees de text i les línies (layout). En la segona es procedeix a la transcripció literal de cadascuna de les línies identificades. Aquí l’esforç humà encara és considerable, especialment en la primera fase, atès que requereix una atenta supervisió humana. Amb l’entrenament adequat del sistema, però, el resultat pot ser espectacular, no només per uns marges d’error força assumibles, sinó també per la possibilitat d’identificar i etiquetar en el mateix procés els termes que tinguin un contingut semàntic d’interès: les dates, els antropònims, els topònims... El Centre de Recerca d’Història Rural de la UdG ja té molt avançat un projecte de transcripció de tots els llibres de l’Ofici d’Hipoteques de Girona des de la seva creació, el 1768, fins l’any 1805 (https://rh.udg.edu/), que segueix aquest segon procediment. Quan finalitzi, disposarem d’un conjunt de 105.000 imatges plenament transcrites i amb un contingut reconstruït i integrat dins d’una base de dades.

En la mesura que aquestes tecnologies es generalitzin als historiadors se’ns obriran nous reptes per gestionar les grans masses documentals disponibles i per aprofitar-ho per ampliar les nostres capacitats analítiques. També caldrà esperar que l’encant ‘sirènic’ de les tecnologies no ens desviï de les rutes correctes.

 

Enric Saguer

Universitat de Girona / Associació d'Història Rural