Les correlacions i les divisions

Molts estudis científics mostren que hi ha una forta relació entre la vegetació i la pluja. A les regions de la Terra més verdes i amb més boscos, hi plou força. En canvi, als deserts quasi no hi plou. Aquí teniu per exemple un article publicat a la revista Geophysical Research Letters, que demostra que hi ha un fort grau de connexió entre el clima (en aquest cas, mesurat pel grau de pluviositat) i la quantitat de vegetació que hi ha a cada regió de la biosfera. Els autors mesuren la pluviositat amb l’índex SPI (en fan una mitjana al llarg de cinc mesos per evitar l’estacionalitat) i analitzen la quantitat de vegetació amb l’índex NDVI. Demostren que hi ha una forta correlació entre aquestes dues variables.

La paraula correlació és un concepte estadístic subtil i bonic. Diem que dues variables estan correlacionades quan el valor d’una d’elles varia sistemàticament mentre anem modificant el valor de l’altra. Per exemple, quan anem en cotxe per una carretera, hi ha correlació, en aquest cas positiva, entre els quilòmetres que fem i el temps que portem conduint. De fet, si mantenim una velocitat constant (per exemple, de 120 Km/h) sabem que als 5 minuts haurem fet 10 Km. i que al cap de 13 minuts serem a 26 Km. de la sortida. A mesura que passa el temps, som més lluny, òbviament. El cas de les correlacions negatives, en canvi, es dona quan el creixement d’una implica un decreixement de l’altra, com per exemple el grau de càrrega de la bateria del nostre mòbil: van passant les hores, i la bateria cada cop és menys carregada. Per cert, tant el cas del cotxe com el de la bateria del mòbil són dos exemples de correlació lineal (vegeu la nota al final), que és la més senzilla i la que tractaré en el que segueix.

Però l’interessant del concepte de correlació és que no implica, per si mateixa, cap relació de causalitat entre les variables que estem analitzant. Per això parlem de “co” relació, i no de relació. Això és estrany, a la nostra cultura occidental que ens ha acostumat a voler trobar les causes de tot i a investigar fins determinar qui és el presumpte responsable i culpable del que passa. Quan descobrim una correlació entre dos fenòmens, sabem que hi ha un co-lligam, però ningú ens diu si hi ha relació causal. Quan una regió es va desertitzant, és la manca de vegetació la que fa que hi plogui poc o és l’absència de pluges el que fa que no hi creixi res?

En tot cas, tornem al problema inicial. Deixeu-me que us proposi un petit problema, que si voleu podeu provar de plantejar als vostres amics. A la correlació entre el grau de vegetació (NDVI) i la pluviositat mitjana (SDI), observem que quan NDVI val 0,2 el valor del SDI és de 0,82, mentre que quan NDVI val 0,3, tenim un valor del SDI de 1.5. Com podem calcular el SDI per qualsevol altre NDVI, per exemple NDVI=0,47? . O també aquest altre, que és semblant però amb xifres ficticies i més senzilles: si per 3 Kwh d’electricitat he de pagar 2 cèntims i en canvi, per un total de 16 Kwh em toca pagar 7 cèntims, quin és el preu que hauré de pagar per 11 Kwh?

Aquests són problemes que podríem anomenar “de dos valors”, perquè per trobar la solució, hem de saber què passa a dues regions amb diferents tipus de vegetació. És com, per exemple, la relació entre el PIB i l’índex Gini de desigualtat o com molts altres fenòmens econòmics i socials que es correlacionen. Les matemàtiques ens diuen que, si el problema només té dues variables i la seva gràfica és una linea recta (vegeu un cop més la nota al final), només necessito dos valors per poder entendre el comportament del fenomen (o sigui, la correlació) i fer prediccions per qualsevol altre valor de les dues variables. Però aquí ensopeguem amb una pedra que algú ens ha posat al camí. Molta gent no té massa dificultats per resoldre problemes de proporcionalitat (que només necessiten un valor) mentre que es veuen incapaços de resoldre problemes “de dos valors” com els que he comentat. Anem al mercat. El quilo de mandarines és a 2 euros el quilo. És clar que mig quilo val un euro i que un quilo i mig ens costarà tres euros. Però, si em donen el PIB i l’índex Gini de dos països, sabré donar una estimació de l’índex de Gini d’un tercer país del que conec el PIB?  Les proporcions, que depenen d’un únic valor, són fàcils. Però quan passem d’un a dos valors, tot se’ns fa una muntanya. I és una pena, perquè molts dels fenòmens que passen cada dia al món només es poden entendre com problemes “de dos valors” (o més).

De fet, i tal com deia l’Steven Strogatz en el seu blog del New York Times, el desinterès per les matemàtiques pot venir, en molts casos, com a conseqüència directa de dificultats a l’hora d’haver de fer divisions. Perquè comptar, sumar i multiplicar no és difícil, però dividir té la seva gràcia. Per exemple, en un estudi fet per Annamaria Lusardi i Olivia Mitchell es veu que el grau d’ignorància financera és molt alt i preocupant, i el problema sembla que són les divisions. Lusardi i Mitchell diuen que és fonamental lluitar contra l’analfabetisme financer si volem defensar-nos i no ser enganyats, perquè l’analfabetisme financer és de fet un analfabetisme matemàtic que fa difícil aplicar correctament les operacions aritmètiques necessàries per a resoldre les preguntes quotidians.

Per cert, Manuel Toharia explica que la ciència es basa en les evidències. Parla d’aquells que diuen que Galileu o Copèrnic no tenien totes les proves del que afirmaven, i es pregunta si és que l’Església tenia proves que la Terra era al centre de l’Univers. Tot plegat sona a broma, diu.

———————-
NOTA: A les correlacions lineals, el valor esperat es pot representar al pla x-y amb una gràfica que és una recta. De fet, hauríem de parlar de correlacions afins, perquè les funcions afins es defineixen en matemàtiques com funcions polinòmiques de grau 1 tals que la seva gràfica al pla x-y és una recta. Tenen la coneguda expressió f(x) = y = ax+b, on a és el pendent (inclinació) de la recta i b és l’ordenada a l’origen (el valor de y quan x=0). Si b = 0, la recta passa per l’origen de coordenades, i la funció es denomina lineal. Les funcions lineals només depenen d’un paràmetre (el pendent de la recta f(x) = y = ax), però en canvi les funcions afins depenen dels dos paràmetres a i b que defineixen f(x). Les funcions lineals expliquen tots els fenòmens que segueixen una llei proporcional, com per exemple el que valdrà la bossa de fruita que hem comprat i estem pesant. En canvi, per determinar bé l’equació d’una funció afí calen dues dades, perquè una recta només queda determinada si donem dos punts. Suposem ara que ens diuen que la recta que representa la funció afí passa pels dos punts (x1, y1) i (x2, y2). En d’altres paraules, ens diuen que f(x1)=y1 i que f(x2)=y2. Cóm podrem calcular l’expressió de la funció f(x)?. Una primera idea pot ser plantejar un sistema de dues equacions amb dues incògnites a i b, perquè sabem que y1 = a*x1+b i que y2 = a*x2+b. Però hi ha una manera més senzilla, que es basa en aquella propietat que diu que donada una recta i dos punts arbitraris P i Q de la mateixa, el triangle rectangle que té com hipotenusa el segment PQ i com a catets els dos segments vertical i horitzontal que surten de P i Q i es tallen, és semblant al triangle rectangle que defineixen dos altres punts qualssevol S i T d’aquesta recta. Quan escrivim això com una formula, obtenim que, per qualsevol altre punt (x, y) de la recta, (x-x1)/(x2-x1) és igual a (y-y1)/(y2-y1) (de fet, si plantegeu aquesta igualtat i aïlleu la variable y en funció de x, veureu que surt una equació del tipus y = a*x+b i que esteu calculant, de manera indirecta, els valors de a i b. La formula (x-x1)/(x2-x1) = (y-y1)/(y2-y1) és la que, donades dues dades inicials vegetació-precipitació (x1, y1) i (x2, y2), ens donarà l’índex de precipitació SDI esperat per qualsevol valor de l’índex de vegetació NDVI. Podeu comprovar que tot es redueix a fer tres restes, una divisió, una multiplicació i una suma. Tampoc és tan complicat, oi?

Per cert, cal tenir en compte que totes les correlacions es poden considerar lineals quan analitzem un rang prou petit de variació de les variables, mentre que quasi totes deixen de ser lineals (i caldria representar-les amb funcions més complicades que els polinomis de grau 1) quan fem més i més gran el rang de variació de les variables que estudiem.