Les càmeres actuals de vídeo són hereves directes de la fotografia. Ara fa dos segles, Nicéphore Niépce va aconseguir les primeres fotografies tot experimentant amb l’efecte de la llum sobre les sals de plata. La fotografia més antiga que es conserva és de 1826, i la va captar el mateix Niépce des de la seva finestra. Després, al llarg del segle XIX es van anar succeint els experiments i els invents estrambòtics que mostraven els efectes de la persistència retiniana: el taumàtrop, el fenantiscopi, el zoòtrop, el praxinoscopi i molts d’altres. Tot plegat va cristal·litzar al segle XX en el cinema i desprès en el vídeo digital. El principi sempre és el mateix. Quan ens mostren una seqüència de fotogrames, el que veiem és un moviment suau i continu (sempre que la freqüència sigui superior a setze o vint imatges per segon). El cine, la televisió i els vídeos digitals es basen en aquest “defecte” perceptiu dels humans: quan els fotogrames canvien molt ràpidament, no som capaços de percebre el pas ràpid de diapositives, sinó que el nostre cervell omple els temps intermedis de manera que acabem percebent animacions que són tan plausibles com les del món real.
Però captar molts fotogrames, vint-i-quatre, trenta o més per segon, no és pas la millor manera possible de captar el moviment. Acabem tenint moltíssimes dades que són molt redundants. Si ho estem fent així no és més que per inèrcia històrica, perquè hem seguit amb els principis que van inspirar el naixement del cinema. Fixeu-vos en la foto del joc de tennis de dalt. Si miréssiu el vídeo fotograma a fotograma, veuríeu que tots són quasi iguals. Però en canvi no podem captar bé la posició de la pilota perquè va massa ràpida. Entre dos fotogrames consecutius, pràcticament només canvia la posició de la pilota i la de la jugadora. En cada moment hi ha molta informació que ja la sabíem d’abans i que no caldria tornar a captar. De fet, aquesta és la raó per la qual els vídeos digitals sense comprimir són tan grans, i la raó per la qual els algorismes de compressió de vídeos poden arribar a ser tan eficients.
El nostre sistema perceptiu no funciona pas així. Imagineu que esteu asseguts tranquil·lament a la vostra butaca, tot llegint un llibre. Si algú entra sense fer soroll, immediatament us n’adonareu i el veureu, de reüll. L’evolució ens ha preparat per reaccionar als canvis visuals i ens ha dotat de visió perifèrica per poder veure de reüll. Els nostres avantpassats havien de ser molt eficaços per no caure en mans dels depredadors. El nostre sistema perceptiu no està pas analitzant tot el que veiem (si ho fes, no ens podríem concentrar en res més). Detectem els canvis més que les imatges fixes. És una bona manera d’estalviar energia: es molt més eficient i econòmic concentrar-se en percebre els canvis que no pas voler percebre tot el que capten els nostres ulls al llarg del temps.
Doncs bé, els projectes actuals que ben segur inspiraran les càmeres de vídeo del futur es basen més en els principis funcionals de la retina i del nostre sistema perceptiu que en la captura d’una mera successió de fotogrames. Comencem a veure sistemes (com aquest de detecció de gestos) que utilitzen càmeres DVS de sensors dinàmics de visió. A la seva tesi doctoral, en Patrick Lichtsteiner va establir els principis de les anomenades retines de silici. El treball el va realitzar amb el seu grup a Zurich i va ser finançat pel programa Open FET de la Comunitat Europea. És una història amb èxit de la recerca que s’està fent a Europa.
Penseu en una càmera de vídeo de vigilància i seguretat. Captura milions de fotogrames, quasi tots idèntics. Genera quantitats ingents d’informació irrellevant. Enlloc de necessitar algorismes informàtics de tractament de la informació que separin el gra de la palla i acabin filtrant els pocs segons significatius, no és millor que el sistema de captació (la càmera de vídeo) ens proporcioni ja directament aquests pocs moments que poden ser rellevants? Que la càmera, enlloc de captar-ho tot, capturi els instants on es produeixen els canvis?
Les noves càmeres amb sensors DVS no generen fotogrames. Cada píxel del sensor és independent, és com una cèl·lula de la retina. Cada un d’aquests píxels adapta el seu temps d’exposició a la llum que rep. Els píxels de les zones fosques treballen automàticament amb un temps d’exposició més gran que els de les zones clares, i no es perden detalls (en termes més tècnics, podem dir que la imatge final té un rang dinàmic molt més alt). Si enfoquem la càmera a un paisatge, obtindrem una primera imatge i res més. Si l’entorn no canvia, la càmera DVS no enviarà res a l’ordinador. Si en algun moment alguna cosa canvia en alguna zona de l’escena, els píxels d’aquesta zona detectaran el canvi de color i cada un d’ells enviarà un missatge a l’ordinador. Cada missatge inclou informació sobre quin és el píxel (i,j) que l’envia, quin és el canvi de color i en quin instant de temps ha passat tot això (els píxels utilitzen un rellotge amb precisió de microsegons). No és massa diferent al funcionament del nostre sistema perceptiu, en el que cada cèl·lula de la retina envia senyals al cervell. Els vídeos de les càmeres DVS contenen missatges, no fotogrames (per sort, disposem d’un software lliure que ens permet processar tota aquesta informació i convertir-la a vídeos digitals en format estàndard). Però, com que disposem de tota la informació, podem reconstruir infinitat de vídeos diferents. Podem veure tot el joc de tennis, o bé podem generar un vídeo a càmera molt lenta que ens mostri el moviment de la pilota amb màxima precisió i nitidesa. El fitxer de missatges (events, en terminologia informàtica) que ens proporciona la càmera DVS és un metavídeo, més que un vídeo digital. És informació per a la generació i creació posterior de vídeos. Aquí teniu alguns exemples i aplicacions.