Apocalipsi de l’escaneig

Amb la intenció d’evitar perdre informació per la degradació del paper i per estalviar espai, la humanitat ha estat digitalitzant el seu saber, acumulat durant segles en la tecnologia del llibre, de manera que qualsevol obra impresa està essent arxivada i conservada en el núvol, i esdevé més accessible i analitzable, i és editable i transformable a diversos formats (fins i tot àudio), i podem compatibilitzar-la amb les eines de la nostra vida d’Homo digitalis.

Però la tasca d’escanejar les produccions escrites ha topat amb algunes dificultats, com la impossibilitat de les computadores per identificar determinats caràcters, no només de llibres antics sinó també d’edicions posteriors a 1850. Durant una llarga temporada, els usuaris d’internet vam fer-los la feina bruta, resolent la comprovació de caràcters torts i rebregats gràcies als captchas on ens afirmàvem com a “no-robots”.

Malgrat tot, les lletres d’impremta sempre han tingut aquella bellesa imperfecta, per osques o deformacions dels tipus mòbils, per taques, enfosquiments… Això fa que els motors de reconeixement òptic de caràcters (coneguts com OCR), que substitueixen aquest tipus d’errors, encara tinguin escletxes per on s’esmuny la perfecta transcripció digital. Hi ha una vida que afecta les condicions de la font: la qualitat i color del paper, la resolució de la imatge, les mides, l’espaiat, les lligadures… I hi ha errades en ajuntar o separar lletres que són molt semblants, com n i ri. En aquests casos, el cervellet de l’aparell, si és capaç de detectar una possible substitució, resol el problema cercant en diccionaris un mot que li quadri, de manera que entre canari i cariari, opta pel primer.

Les lletres d’impremta sempre han tingut aquella bellesa imperfecta, per taques, enfosquiments...

Font: EL PAÍS