Uno de nuestros lectores, Mike Baker, me envió el siguiente correo electrónico hoy. Me pareció un gran e interesante análisis de por qué el desmuestreo de una imagen reduce el ruido, así que decidí compartirlo con vosotros (con su permiso, por supuesto). Tratar de digerir estas cosas hace que me dé vueltas la cabeza, pero es una gran lectura. Puede que tenga que leerlo varias veces para entender lo que quiere decir, especialmente con todas las fórmulas matemáticas (tuve que hacerlo):
Hace poco comentó acerca de la reducción del tamaño de una imagen de alta resolución a una de baja resolución para reducir el ruido aparente. Aunque sabía que esta es una forma eficaz de reducir el ruido visible en las imágenes, no había pensado con mucho detalle en las razones técnicas por las que esto funciona.
Después de una larga noche de reflexión sobre el tema, y de hacerle algunas preguntas a mi amigo y a mi colega ingeniero, creo que tengo un (¡razonable, aunque quizás no perfecto!) manejo del tema….
Si la señal de la imagen y el ruido de la imagen tuvieran propiedades similares, promediar los píxeles vecinos para reducir la resolución no mejoraría la relación señal/ruido. Sin embargo, la señal y el ruido tienen propiedades diferentes.
No hay (en general) ninguna relación entre el ruido en los píxeles vecinos. Los drogadictos técnicos llaman a esto “sin correlación”.
La correlación es la media a largo plazo del producto de dos señales N1 x N2. Si dos señales no tienen correlación, entonces la media de su producto es cero.
La señal en píxeles vecinos tiene un alto grado de correlación. Si se añaden señales no correlacionadas, se añade su “potencia”, lo que significa que la señal combinada es la raíz cuadrada de la potencia combinada.
N_comb = sqrt(N1^2+N2^2) y para N1 = N2 = N obtenemos N_comb = sqrt(2)*N, donde N1, N2 son valores RMS del ruido.
Sin embargo, si las señales están altamente correlacionadas, entonces su suma es efectivamente la suma de sus magnitudes:
S_comb = S1+S2 y para S1=S2=S obtenemos S_comb = 2*S
Así que, si añadimos el contenido de dos píxeles vecinos, obtenemos:
SNR_comb = S_comb/N_comb = sqrt(2)*(S/N)
Por lo tanto, la señal al ruido aumenta en la raíz cuadrada de dos, que es de alrededor del 40%.
Ahora bien, se puede decir que la señal en los píxeles vecinos no siempre está 100% correlacionada. La correlación entre las señales depende del contenido de la imagen. Si el contenido de la imagen es muy suave, la correlación es alta. Si el contenido de la imagen varía muy rápidamente, la correlación es baja. Por supuesto, el ruido será más notorio en las zonas lisas y el efecto de remuestreo de la imagen será más fuerte.
Los filtros adaptativos de ruido tienen en cuenta la relación señal/ruido absoluta y el contenido de la imagen. Reducen más la resolución en áreas que son suaves y tienen poca relación señal/ruido y mantienen la resolución original en áreas que tienen un contenido de imagen muy variable y una relación señal/ruido muy alta. Puede pensar en ello como una optimización conjunta de la SNR y la resolución.
Ahora, también tenemos que examinar las diferentes fuentes de ruido:
- La primera fuente de ruido es la corriente oscura que es causada por los electrones que se acumulan en el píxel individual, incluso si no hay fotones entrando (tapa de la lente puesta). La corriente oscura se vuelve dominante para exposiciones muy largas. Para exposiciones normales los errores de electrones atrapados son insignificantes.
- La segunda fuente de ruido es el ruido de lectura. Esto es esencialmente generado por dos fuentes: A) Ruido añadido por el amplificador y B) Ruido generado por el convertidor analógico-digital. Es una cantidad fija de ruido que se añade a cada imagen durante la lectura. Al elegir el ajuste ISO de la cámara, básicamente se ajusta la ganancia de lectura y, por lo tanto, el ruido de lectura. Cuanto mayor sea la ISO, mayor será la ganancia de lectura y menor el ruido de lectura. Por supuesto, si elige un ISO demasiado alto, obtendrá una saturación de señal. Por lo tanto, para situaciones de poca luz, elija siempre una ISO que no sea mayor que la necesaria para capturar la imagen que desea.
- La tercera fuente de ruido se llama “ruido de cuantización” y es un poco más difícil de entender. Tiene que ver con el hecho de que (en condiciones de poca luz) no tomamos muestras de un flujo continuo y suave de fotones, sino de grupos discretos de fotones. El problema es que una fuente de luz no produce un flujo de fotones que estén espaciados igualmente en el tiempo. Por lo tanto, si imaginas una fuente de luz baja que envía (en promedio) 100 fotones por segundo, puedes recibir 90 fotones por el primer segundo, 105 por el segundo, etc… El error promedio estará en el orden de la raíz cuadrada del número de fotones (o electrones en el pozo del sensor de píxeles). Un pozo sensor típico contiene entre 20.000 y 60.000 electrones cuando está completamente cargado. La cantidad máxima depende del tamaño del píxel. Un pozo con 20.000 electrones tiene un error de aproximadamente +/-141 electrones cuando está completamente cargado o +/-0,7%. Un pozo con 60.000 electrones tiene un error de aproximadamente +/-245 electrones cuando está completamente cargado o +/-0,4%. Aunque podemos reducir la corriente oscura y el ruido de lectura enfriando el sensor, esencialmente no hay nada que podamos hacer al respecto. Si seguimos reduciendo los píxeles, tendremos pozos de electrones cada vez más pequeños y menos electrones atrapados.
Los errores anteriores de 0,7% o 0,4% parecen bastante pequeños y no podríamos detectarlos. Sin embargo, en situaciones de poca luz, los pozos de los sensores sólo se llenarán parcialmente. Si sólo conseguimos atrapar 1000 electrones, el error es del 3%. Si sólo atrapamos 100 electrones, el error es del 10%.
Observe que el término “ruido de cuantización” no tiene nada que ver con la cuantización de la señal por parte del convertidor analógico-digital. Tiene que ver con el hecho de que su señal realmente llega en cuánticos de energía.
¿Qué opinan ustedes? ¿Alguien quiere desafiar el análisis de Mike?)