Les mitjanes de les mitjanes i l’escalfament del planeta

GlobalWarming.png Tots parlem de valors mitjans. La renda per càpita, el creixement, el cost de la vida, l’esperança de vida, la temperatura mitjana del planeta, la contaminació i tants d’altres indicadors. Les mitjanes són senzilles i ben clares. Ens permeten entendre una mica el que ens envolta. Però cal anar molt en compte, perquè són enganyoses. El problema, com ja hem comentat d’altres vegades, és que simplifiquen massa la realitat.

Imaginem un exemple senzill. Tenim un grup de 100 persones, i volem saber quants viatges fan a la setmana en transport públic. Per simplificar, suposem que només hi ha dos tipus de persones, les que fan dos viatges al dia de dilluns a divendres en transport públic, i les que sempre agafen el cotxe. Les primeres, un total de 70 persones, utilitzen el transport públic 10 cops a la setmana. Les segones 30 persones, no l’utilitzen. Si calculem la mitjana del que fan les 100 persones, haurem de sumar tots els viatges i el resultat serà 700. Si ara dividim per 100, obtindrem una mitjana de 7 viatges per persona. Però suposem ara que les persones viuen en dues ciutats diferents: tota la gent de la primera ciutat (60 persones), que té un molt bon servei de transport, fa els seus 10 viatges setmanals en transport públic, mentre que els qui viuen a la segona ciutat es reparteixen entre 30 persones que van en cotxe i 10 que agafen l’autobús. És fàcil veure que la mitjana de la primera ciutat és de 10, mentre que la de la segona és de 2,5 (10*10/40). La mitjana de les dues ciutats és la meitat de 10+2,5, que és 6,25. Quin és el resultat correcte, 7 o 6,25? De fet, tots dos són correctes, el que passa és que mesuren coses diferents. En el primer cas estem barrejant tothom mentre que en el segon cas tenim en compte les ciutats. El primer resultat és la mitjana clàssica, el segon és una mitjana ponderada (vegeu la nota al final). En les mitjanes ponderades, el resultat depèn dels coeficients de ponderació, i canvia si modifiquem aquests coeficients. El resultat de calcular mitjanes de mitjanes és en general diferent de si calculem la mitjana habitual, i això es presta a tot tipus d’interpretacions i discussions. Sempre podem trobar uns coeficients de ponderació adequats segons els nostres interessos. Tot plegat no és massa diferent del que passa en les anàlisis dels resultats de les eleccions (encara que en aquest cas no són mitjanes sinó recomptes). Els percentatges globals de vots en tot el país no coincideixen amb el nombre d’escons de cada partit ni amb la mitjana dels percentatges obtinguts a les diferents circumscripcions, perquè els sistemes electorals ni són lineals ni donen el mateix valor als vots de persones de diferents districtes electorals. El vot d’una persona que viu en un poble no té el mateix valor que el vot d’una altra que vota en una ciutat. Els seus vots es ponderen de manera diferent i no tenen la mateixa importància. Per això és tan complicat canviar les lleis electorals, i per això ens trobem moltes vegades amb la paradoxa que diversos partits polítics s’atribueixen la victòria.

Fa algunes setmanes, en Dick Lipton i en Ken Regan, al seu blog, analitzaven el problema del càlcul de mitjanes en el context de l’escalfament global i de l’increment de temperatura de la Terra. En Dick Lipton es preguntava per l’aparent contradicció entre l’escalfament del planeta i el fet insòlit que hi hagués hagut una fortíssima nevada a Atlanta. Dick Lipton es preguntava si el concepte de temperatura global és un concepte ben definit, i si, en els càlculs, s’estava fent un ús correcte de les mitjanes. Una de les seves conclusions és que el concepte de temperatura global no és un concepte ben definit. No puc negar que vaig quedar una mica sorprès per aquesta afirmació. Però, després de llegir més documents, ara tendeixo a pensar que té raó. Fins ara, els experts no han estat capaços de consensuar una única definició de temperatura global que tingui un model computacional associat. La prova és que existeixen diversos models i que els seus resultats, encara que semblants, són diferents. No sé si ens hem de preguntar, com feia en Dick Lipton, si aquests models fan un ús correcte de les mitjanes. Però sí que ens podem preguntar per què les utilitzen de maneres diferents.

En Dick Lipton proposa una possible definició de temperatura global. Diu que es podria calcular fent una integral de la temperatura local en tota la superfície del planeta. És una definició precisa i, a primer cop d’ull, clara. En Dick parla d’integrals, però això no ens ha pas de fer por, perquè sabem que una integral no és més que una suma. Imaginem que dividim la superfície del nostre planeta en trossets petits, per exemple d’un quilòmetre quadrat. Tindrem uns 510 milions de trossets, les tres quartes parts dels quals seran d’aigua dels mars i oceans. Una bona aproximació a la integral d’en Dick Lipton és mesurar la temperatura a cada un d’aquests trossets i fer la mitjana de tots aquests 510 milions de temperatures. Sumem tots els valors de les temperatures i dividim el resultat pel nombre total de trossets. És com sumar vots. Teòricament tot funciona, però a la pràctica, el problema és evident: ningú sap amb precisió la temperatura en cada trosset d’un quilòmetre quadrat. La mesurem i la sabem molt bé a les zones habitades de la Terra, però tenim molta menys informació en zones del Pacífic o del mig de Groenlàndia. I aquí és on difereixen els models existents (a més de les correccions que fan). Podem estimar les temperatures en els punts que no sabem en base a fer una interpolació de les temperatures de punts coneguts i més o menys propers, o bé podem considerar que els trossets de superfície del nostre planeta no són tots iguals en extensió, fent una mitjana ponderada en la què unes temperatures valen més que unes altres. En tots dos casos, el mètode de càlcul deixa de tenir una justificació teòrica clara, i passa a incloure aspectes heurístics. Les temperatures són totes iguals, però unes són més iguals que les altres.

Entenc la critica d’en Dick Lipton, i potser hagués estat bé arribar a un model únic de càlcul de la temperatura global, consensuat a nivell internacional. En d’altres camps s’ha fet, i així tenim per exemple el model CIE per als colors. El càlcul de la temperatura global depèn de moltes hipòtesis, que haurien pogut ser definides i acordades. Però en tot cas anem a parar altre cop al problema de les mitjanes de les mitjanes, perquè el fet de concretar aquestes hipòtesis és equivalent a concretar els valors dels coeficients de ponderació de totes i cada una de les temperatures que anem mesurant en diferents punts de la terra i dels oceans (vegeu nota al final). El fet és que no hi ha hagut consens, i el que tenim són diferents models de càlcul de la temperatura global, tots ben definits i documentats. La imatge de dalt mostra l’evolució temporal de la temperatura global entre l’any 1900 i el 2010 segons vuit models de càlcul diferents. Cada model pondera de manera diferent les temperatures locals, i a més ens dona una estimació dels intervals d’incertesa, com podeu veure aquí pel cas del model NCDC, per a que puguem saber la fiabilitat de les seves estimacions. El cert és que quan miro les gràfiques d’aquesta imatge (que podeu trobar aquí), dubto del que diu en Dick Lipton i penso que tal vegada sí que és bo tenir diversos models enlloc d’una única definició. I és bo perquè els seus resultats, encara que diferents, són molt concordants. Podem adoptar diferents coeficients de ponderació, però la temperatura global sempre oscil·la de la mateixa manera i sempre puja. És un bon resultat.

Sabem que les mitjanes són enganyoses i que simplifiquen massa la realitat. Si diem que la mitjana de viatges setmanals en transport públic és de 7, estem amagant el fet que un 30% de la gent va en cotxe i no utilitza l’autobús. I quan diem que la temperatura global ha pujat un grau des de fa un segle, no estem explicant que en alguns llocs fa fins i tot més fred i neva. Això ho podem veure en les distribucions estadístiques i en els histogrames, però són informacions que les mitjanes ens amaguen. Les mitjanes ens parlen de tendències però no de diversitat. Per això es bo que quasi tots els models d’escalfament global ens donin els intervals d’incertesa a més dels valors de les temperatures mitjanes. Els intervals d’incertesa són una mesura indirecta de la diversitat i de la dispersió de les dades i constitueixen un complement imprescindible de les mitjanes ponderades i de les mitjanes de mitjanes, perquè la sensibilitat de la mitjana als coeficients de ponderació depèn del grau de dispersió de les dades. Si les dades tenen molt poca diversitat, podem canviar el valor dels coeficients de ponderació i la mitjana serà quasi sempre la mateixa. Però si tenen una gran dispersió, qualsevol petita variació d’aquests coeficients afectarà de manera significativa el valor final de la mitjana.

El tema de les nevades a Atlanta (i a casa nostra el mes de maig) és però tot un altre tema, independent del que dèiem. Quan un sistema deixa l’equilibri i es comença a moure, és molt possible que experimenti oscil·lacions i variacions locals. Les inestabilitats locals, les nevades, les inundacions i les sequeres són com les oscil·lacions i les onades de l’aigua d’un estany, que deixa d’estar tranquil·la i reposada quan obren les comportes. De fet, el procés constant d’escalfament és quasi imperceptible, però el que sí veiem són les inestabilitats climàtiques. És probable que algunes d’elles siguin degudes a l’increment de temperatura global.

Per cert, Josep M. Espinàs diu que la gent que no té temps, no pensa. També ens dona un consell: com més pensem, més temps tindrem.

___________________________________
NOTA: Suposem que volem calcular la mitjana de dues quantitats A i B. Sabem que la mitjana és la suma de A i B, dividida per 2. Si tenim tres valors A, B i C, la seva mitjana és el resultat de dividir la seva suma per 3. Evidentment, arribarem al mateix resultat si la divisió la fem abans. En el cas dels tres valors, és clar que també podem escriure el càlcul de la mitjana com cA*A + cB*B + cC*C, on cA, cB i cC són els coeficients de ponderació, tots tres iguals a 1/3. En general, i si tenim N valors, la mitjana clàssica es pot calcular multiplicant cada un dels valors pel coeficient de ponderació 1/N i sumant tots els resultats d’aquests productes. En el cas de l’exemple de les 100 persones i el seu mitjà de transport, tots els coeficients de ponderació valen 0,01 = 1/100. Però si fem el càlcul separat per cada una de les dues ciutats, els coeficients de ponderació passen a ser diferents. El coeficient en el càlcul de la mitjana de la gent de la primera ciutat és de 1/60 i el que hem d’utilitzar per al càlcul a la segona ciutat és 1/40. Fer la mitjana de les dues mitjanes és el mateix que fer una única mitjana ponderada de tothom, amb coeficients de ponderació que valen 0,00833 = 1/120 per als habitants de la primera ciutat i 0,0125 = 1/80 per als de la segona (hem dividit per 2 perquè la mitjana final divideix tot per 2). En les mitjanes ponderades, el resultat depèn dels coeficients de ponderació, i canvia si modifiquem aquests coeficients. Fixeu-vos que, en fer la mitjana de les mitjanes, estem donant més pes als habitants de la segona ciutat que als de la primera. És per això que canvia, el resultat. Donem més importància als qui viuen en ciutats petites. En el càlcul de la temperatura global del planeta passa el mateix: hem d’ajustar els coeficients de ponderació de totes les temperatures, i cada model climàtic ho fa amb una heurística lleugerament diferent. Però en tot cas, les matemàtiques ens diuen que els coeficients de ponderació han de complir sempre dos requisits. Han de ser positius i la suma de tots ells ha de ser 1.