Els noms de les fotos i dels documents

Tots sabem que si posem noms clars a les fotos i als documents quan els guardem al nostre ordinador, després ens serà més fàcil trobar-los. Si més no, si ens fa mandra posar nom a totes i cada una de les fotos, sabem que el que sí és recomanable és repartir-les en carpetes o directoris que tinguin noms ben clars i informatius.

Però no tots els noms són bons. Alguns poden ser problemàtics. A molts llocs veureu avisos com aquest, que podeu trobar en una web de la Generalitat: “Es recomana evitar donar noms llargs als fitxers. També és important tenir en compte que els noms dels fitxers no han de contenir accents, caràcters especials (ç, %,…) o espais en blanc”. El problema dels espais en blanc és que no tots els Sistemes Operatius els tracten de la mateixa manera, i quan enviem fotos a d’altres persones (o si ens comprem un nou ordinador) pot ser que aquest nom esdevingui invàlid. I el mateix passa amb les vocals accentuades i amb els caràcters especials (vegeu nota al final).

Podem escriure amb molts caràcters o amb molts pocs, i podem fer-ho amb teclats senzills o complexes. Els primers ordinadors només entenien els dígits numèrics del 0 al 9, les lletres majúscules sense accent i molt pocs caràcters especials. I quasi no ho recordem, però nosaltres, quan només fa deu anys enviàvem missatges de text amb el telèfon mòbil, escrivíem amb teclats molt limitats. Aquí teniu un dels anomenats teclats “t9” que utilitzàvem. Ho recordeu? Havíem de prémer diverses vegades una mateixa tecla, i així podíem anar seleccionant les lletres una a una. No sé vosaltres, però els meus primers missatges de text van ser en majúscules i sense accents.

La riquesa de caràcters en el conjunt de totes les llengües del món és immensa. Per això, els teclats dels dispositius mòbils es poden adaptar i personalitzar, com podeu veure a la imatge de dalt. En tot cas, és clar que els ordinadors han de poder codificar en bits tots i cada un dels caràcters i símbols que s’escriuen al món. No és una tasca fàcil. Des de l’any 1991 s’ha acordat internacionalment utilitzar la norma Unicode, que actualment ja permet codificar més de cinquanta mil símbols que inclouen tots els alfabets europeus i els ideogrames xinesos, japonesos i coreans junt amb moltes altres formes d’escriptura, així com més d’un miler de símbols especials. L’objectiu final d’Unicode és codificar tots els caràcters utilitzats al món. El Consorci Unicode inclou, amb diferent grau d’implicació, empreses com Microsoft, Apple, Adobe, IBM, Oracle, SAP, Google o Yahoo, institucions com la Universitat de Berkeley, i professionals i acadèmics a títol individual.

Tornem a la nostra pregunta. Per què no podem posar accents als noms de les fotos i documents? El cert és que tot va començar fa quasi cinquanta anys, l’any 1967. Inicialment els ordinadors treballaven només amb les majúscules de l’alfabet llatí més uns quants símbols auxiliars. Posteriorment s’hi van afegir les minúscules. L’any 1967 tot plegat es va normalitzar en un conjunt de 128 caràcters amb el nom d’American Standard Code for Information Interchange (ASCII), que és el que encara sobreviu. El codi ASCII és el nucli bàsic de caràcters que entenen i saben codificar tots els ordinadors i plataformes informàtiques. Només admet 128 caràcters perquè utilitza un octet o Byte per caràcter, vegeu la nota del final. Per això, si voleu tenir noms de fitxers que pugui entendre i descodificar bé qualsevol ordinador o telèfon mòbil, millor que només utilitzeu caràcters ASCII, aquest subconjunt bàsic de 128 símbols diferents.

Ara bé, fixeu-vos que el nom ja ho diu tot. ASCII són les sigles de “American Standard Code for Information Interchange“. El van implantar els americans, i s’ho van fer a mida. ASCII no codifica vocals accentuades perquè en anglès no hi ha accents. Els 128 caràcters ASCII són suficients per a les majúscules i minúscules de l’alfabet anglès, i més inclouen xifres, signes de puntuació i alguns caràcters de control. Però com podeu veure en aquesta web, ASCII no inclou ni els caràcters accentuats ni el punt volat que s’usa en català, ni molts altres símbols com els signes matemàtics i les lletres gregues.

En resum, és recomanable que els noms dels fitxers no continguin accents, espais en blanc o caràcters especials com els que teniu a la nota del final. De fet, ens ho diu ben clar la lletra “A” de les sigles ASCII. Pel que fa als espais en blanc, una solució pot ser separar les paraules amb el caràcter “_”, tot i que també podeu anar alternant majúscules i minúscules. Així, una foto de l’aniversari de la nostra filla Núria la podem anomenar Nuria_Aniversari_2014.jpg o NuriaAniversari2014.png, però millor que us oblideu de l’accent i dels espais en blanc.

Pot semblar sorprenent, però les nostres fotos i documents porten encara el rastre de l’hegemonia anglosaxona durant les primeres dècades de la història de la informàtica…

Per cert, Zygmunt Bauman diu que, per assolir una convivència pacífica, has de dialogar amb les persones que divergeixen de les teves idees, fins i tot amb les que odies. Continua dientque l’alternativa són les bales.

 

——

NOTA: A més de les lletres amb accent i dels espais en blanc, els caràcters no recomanables són bàsicament aquests: “ç”, “ñ”, “%”, “[“, “]”, “=”, “$”, “+”, “,”, “;”, “<“, “>”, “:”,  “\”, “/”, “|”, “*”, “?”, a més de les mateixes cometes “.

En la codificació ASCII, tots els caràcters ocupen un octet (vuit bits) i això facilita molt la seva manipulació. ASCII no pot codificar més de 128 símbols diferents perquè 128 és el nombre total de diferents configuracions que es poden aconseguir amb 7 dígits binaris o digitals. Això és perquè en ASCII, el vuitè dígit de cada octet, anomenat bit de paritat, es reservava per detectar possibles errors de transmissió.

En canvi, Unicode defineix tres formes de codificació amb el nom UTF (Format de Transformació Unicode, com podeu veure en aquesta web). El problema és que cada caràcter ja no ocupa un sol octet. En la codificació UTF-8, la majoria de caràcters ocupen un octet, però alguns necessiten dos, tres o més octets correlatius (la informació de si el caràcter en qüestió que estem analitzant ocupa només un octet o n’ocupa més d’un, és en el vuitè bit, en el bit que sobra quan codifiquem els 128 possibles caràcters en 7 bits). En la codificació UTF-16, els caràcters ocupen en general dos octets (16 bits) tot permetent representar l’anomenat pla bàsic multilingüe (BMP). Finalment, la UTF-32 codifica cada caràcter en 4 octets (32 bits) de longitud fixa. És la més senzilla de les tres, però qualsevol text acaba ocupant 4 vegades més memòria que la que ocuparia en codificació ASCII.