Els núvols canvien com els paisatges. Quan ens movem, la perspectiva els renova. Sota el núvol de la foto només veiem la seva grisor i la manca de llum del Sol. Però si ens allunyem fins veure’l de perfil com a la imatge d’aquí al costat, podem apreciar la seva forma prima i allargada, que va seguint el pendent de la muntanya i els corrents d’aire ascendents. En aquesta web de les Getty Images podeu veure una imatge semblant. Hi ha núvols de tota mena, de prims i de gruixuts. Els prims ens donen informació sobre els corrents i les capes d’aire, però els hem de saber mirar. Els hem de mirar de perfil perquè si no, ni tan sols ens adonarem que són prims.
Hi ha molts tipus de núvols. Tenim els nimbus que porten aigua i tempestes, d’altres com els cirrus que són fets de petits cristalls de gel, els núvols de contaminació que alguns cops s’instal·len a les nostres ciutats gràcies a nosaltres, els ciclons i els pacífics cúmuls. Però també tenim els núvols de dades. Mireu aquest vídeo didàctic fet al KVL, a Dinamarca. Hi veiem algunes dades de cinc persones, de cognom Smith, Johnson, Williams, Jones i Davis: la seva càrrega de treball, la distància entre casa seva i el lloc de treball i el seu salari. Les dades han estat transformades i escalades per a que els valors siguin similars, vegeu la nota al final. El que el vídeo ens mostra és que cada persona es pot representar com un punt tridimensional de manera que les seves coordenades són justament els tres valors de les seves dades, tot mostrant-nos a més que la configuració dels cinc punts és molt diferent segons la perspectiva. En general veurem punts dispersos a l’espai però, com mostra el vídeo, si encertem bé el punt de vista ens adonarem que el conjunt de punts és ben prim, quasi pla.
Imaginem ara que volem estudiar aquestes mateixes tres dades, però de tota la gent d’un país. Comencem a representar cada persona amb un punt igual que en el vídeo, i al final tindrem milions de punts. És el que s’anomena un núvol de dades: un núvol de molts i molts punts que acaben perdent la seva individualitat a la vegada que ens mostren algunes característiques del grup social. En aquesta web, per exemple, podeu veure l’aspecte que té un núvol de dades musicals, on els punts ara són cançons i melodies.
Si de cada persona (o cançó) tenim dues dades, podem pintar punts en un gràfic 2D, pla, i tindrem un núvol bidimensional, senzill i fàcil d’interpretar. En canvi, si per cada persona tenim tres dades, podrem formar un núvol 3D com en el vídeo, però el seu anàlisi ja serà molt més complex perquè haurem d’encertar la perspectiva (el punt de vista) correcta. És com fer una foto. Podem fer moltes fotos d’un núvol, però algunes seran millors que altres. Les que el capten de perfil deixen veure la seva part esvelta i acaben donant molta més informació, perquè els núvols prims mostren determinades correlacions entre les dades. No deixa de ser curiós: els humans, que vivim en un Univers clarament tridimensional, no podem percebre directament la semàntica dels núvols 3D i els hem de projectar (una foto és una projecció) en un paper bidimensional per poder captar bé el seu significat. Hem d’anar girant, trobar la direcció correcta, fer la foto, i llavors ho podem veure clar. Doncs bé, la cosa és encara més complicada perquè si volem analitzar comportaments socials, necessitem analitzar moltes variables de cada persona (N per exemple) i no només tres. Els núvols de dades tenen moltíssims punts, i a més cada un d’ells té informació de moltes dades, amb N valors diferents. En llenguatge matemàtic, són núvols de punts en un espai de dimensió N. Això sona a molt complicat, oi? Doncs no ho és, i aquesta és una de les meravelles de les matemàtiques: l’eina que troba la direcció òptima per a fer la foto, que és la que calcula els valors i vectors propis d’una matriu, és la mateixa tant si som a l’espai 3-D com en un espai N-D de moltes més dimensions.
L’anàlisi de components principals (conegut per les seves sigles PCA, en anglès), és una de les tècniques actuals més potents per interpretar grans quantitats de dades, els anomenats “Big Data“. És una eina essencial per a les ciències socials. L’algorisme PCA ens ajuda a entendre aquestes dades i a descobrir correlacions de les que després podrem inferir determinades relacions causals, perquè calcula les anomenades direccions principals del núvol. De fet, calcula el gir que cal fer per arribar a aquestes direccions i poder tenir unes bones perspectives del núvol. Cal tenir en compte que les direccions principals inclouen la direcció des de la qual el núvol es veu en la seva màxima extensió i la direcció en la que es veu el màxim de prim, vegeu la nota al final (aquesta és la direcció en que el pla del vídeo es veu de costat). El seu ús és ben senzill: calculem la matriu de les nostres dades N-dimensionals, calculem els valors i vectors propis d’aquesta matriu amb algorismes coneguts i fàcils d’usar, projectem les dades, i ja les podem analitzar en 2D o en un espai adient de dimensió molt més reduïda que l’original N. L’algorisme PCA projecta per reduir la complexitat, però ho fa de la millor manera, preservant allò que ha trobat significatiu a les dades i suprimint el superflu.
La forma dels núvols de dades és fonamental per entendre els comportaments socials, les causalitats i fins i tot les relacions de poder i les injustícies. I tenim eines, com el PCA, que automàticament ens dóna la perspectiva òptima per observar-los. Però els punts dels núvols no tenen identitat. L’estadística treballa amb les dades, pot treballar amb grans volums d’aquestes dades, però aquestes han de ser sempre anònimes per tal de preservar el dret de les persones individuals a la seva intimitat i al control de les seves dades. El problema de certes pràctiques actuals i de determinats encreuaments que es fan entre molts núvols de dades complementaris és que poden arribar a identificar i “marcar” persones concretes. Si l’únic que saben de mí és la meva edat, el meu salari i si he estat hospitalitzat o no, ben poca cosa podran esbrinar. Però si a més saben on visc (és un dels llocs on més temps tinc el meu telèfon mòbil, per exemple) i tenen accés al cens de població, llavors tot esdevé més fosc, relliscós i perillós. El que es èticament incorrecte és convertir núvols anònims de dades en núvols etiquetats amb noms de persones, perquè utilitzar les dades personals sense permís és (o hauria de ser) un delicte. Podem mirar i gaudir de les infinites formes dels núvols, però no podem trencar, amb una lupa, la intimitat de les seves gotes d’aigua.
Per cert, l’Emilio Lledó diu que una de les més grans indecències actuals a Espanya és la corrupció de la gent. Diu que és una desvergonya i un engany, i que no només és la indecència de corrompre béns, sinó també la de la de la corrupció de la ment de la gent.
———
NOTA: Veureu que a la taula de valors del vídeo, hi ha valors negatius. Això és degut, en el cas de la càrrega de treball i del salari, a que s’ha restat el seu valor mitjà. Posem-nos en el cas de la càrrega de treball i suposem que els valors reals, respectivament per Smith, Johnson, Williams, Jones i Davis, són 0,8 , 1 , 0,4 , 0,2 i 0,6 (estem fent la hipòtesi que la màxima càrrega de treball és la unitat). La suma dels cinc valors és 3, i per tant el valor mitjà és 0,6. Si restem aquesta mitjana a tots els valors obtenim 0,2 , 0,4 , -0,2, -0,4, 0. Un escalat de tots els valors multiplicant per 5 dóna finalment els resultats que veiem a la taula del vídeo: 1, 2, -1, -2, 0. En el cas del salari el procediment és idèntic, mentre que en el cas de la distància a la feina, la diferència és que al final s’han arrodonit els resultats.
L’algorisme PCA treballa calculant els valors i vectors propis d’una matriu de dimensió N x N que habitualment és la matriu d’autocorrelació de les dades. Si la calculem, per exemple, amb les coordenades de tots els ocells d’un estol d’estornells, els vectors propis que obtindrem ens donaran en general la direcció d’avanç, la direcció (quasi vertical) perpendicular al pla que conté la majoria dels ocells i una tercera direcció transversal que és la que ens permet d’observar l’estol de perfil i veure la seva primesa.