domingo, 18 de diciembre de 2016

I test de audio digital: WAV vs OGG ¿qué nos estamos perdiendo?



¿De qué va todo esto?

Hace unas semanas decidí organizar un pequeño experimento colectivo cuyo objetivo era el de analizar la calidad de audio que podemos conseguir utilizando el codec OGG/Vorbis de modo comparado con la de muestras de audio almacenadas sin compresión de ningún tipo, en formato WAV, a 16 bits y 44 Khz.

OGG/Vorbis (simplemente OGG en adelante) es un veterano codec de audio digital desarrollado por la Fundación Xiph.Org. Pertenece a la familia de codecs llamados perceptivos. Esto quiere decir que utiliza un modelo psicoacústico para reducir el tamaño del archivo resultante del proceso de codificación por lo que cuando se emplea se produce una pérdida en la fidelidad del audio de las muestras originales que se recodifican. Dicho de otro modo, su funcionamiento no es transparente puesto que opera bajo la premisa de descartar información que teóricamente no es audible, del mismo modo que los archiconocidos MP3 y AAC.

Lo que se pretendía tratar de determinar precisamente era en qué medida esa pérdida es audible o no, y bajo qué condiciones.

Aunque es posible que existan otros codecs más eficientes, escogí OGG por el hecho de ser de código abierto, por su popularidad (es el empleado por Spotify) y su buen rendimiento contrastado. En cualquier caso, OGG ofrece mejores resultados que MP3 a igual tasa de bits.

La sistemática de la prueba fue la siguiente:
  • Seleccioné 5 pistas de audio a partir de mis propios CDs y las extraje en formato WAV.
  • A continuación, escogí un fragmento de entre 30 y 50 segundos de cada una de ellas y generé 5 archivos en formato WAV.
  • Estos 5 archivos se recodificaron en formato OGG. En este punto se produjo una pérdida en la fidelidad del audio de las muestras originales.
  • Para evitar que el tamaño del archivo delatara el codec empleado en cada caso, las muestras en formato OGG se re-empaquetaron nuevamente como archivos WAV.
  • Los 5 pares de archivos resultantes (versión en WAV / versión en OGG, pero ambos conjuntos presentados en contenedores WAV) fueron renombrados de modo uniforme: Pista 1-A, Pista 1-B, Pista 2-A, Pista 2-B… asignando aleatoriamente los sufijos A y B a cada par de pistas.
  • Se construyó una página web (www.testaudiocomprimido.tk) en la que se publicaron todos los archivos, así como un cuestionario que contenía una serie de preguntas a responder por los participantes.
  • Este cuestionario estaba estructurado en 3 secciones. En la primera simplemente había que marcar qué versión de cada uno de los pares de pistas era percibida como de mayor calidad, existiendo también una tercera respuesta posible si no se apreciaban diferencias. Del mismo modo, los participantes tenían que indicar qué grado de confianza habían tenido en las elecciones realizadas. Las siguientes dos secciones contenían preguntas opcionales, pero que se incluyeron con el objetivo de recoger datos que permitieran segmentar los resultados para tratar de interpretarlos mejor.
  • El test se mantuvo abierto desde el sábado 22 de octubre hasta la medianoche del miércoles 30 de noviembre, invitando a que participasen usuarios de los foros de audio/vídeo más representativos del país. Para ello se abrieron hilos en Audio PlanetForoDVDAuriculares.org y Auriculares-hifi.com. Se animó a que los participantes realizaran el test en varias ocasiones, utilizando diferentes equipos, escuchando con altavoces o auriculares, descargando los archivos o escuchándolos en el propio navegador, etc. En total se recibieron 85 respuestas, 2 de ellas repetidas. Otro participante solicitó ser excluido del análisis tras enviar sus respuestas, por lo que finalmente quedaron 83 envíos únicos.
Durante el desarrollo de la prueba, y por supuesto tras la publicación de los resultados, que a continuación presento también aquí, se ha venido produciendo un animado e interesante debate en los foros anteriormente mencionados que os animo a que visitéis, pero no sin antes leer esta entrada, naturalmente.

Vamos pues con...


Los resultados de la prueba

A continuación os muestro una serie de gráficos  que detallan los resultados obtenidos. Si alguien desea analizar los datos en bruto, respuesta por respuesta, así como revisar detenidamente todas las tablas dinámicas y gráficos generados a partir de ellos, puede hacerlo en esta hoja de cálculo de Google:


Este documento es de solo lectura. No obstante podéis hacer una copia (es necesario para ello disponer de una cuenta de Google) haciendo Archivo > Crear una copia para obtener una versión propia, ya editable, en la que se pueden ver las fórmulas empleadas, editar los gráficos o realizar nuevos análisis. Por ejemplo, quizás sería interesante estudiar en qué modo las variables (tipo de escucha, perfil, nivel del equipo, etc.) determinan el número de aciertos en cada una de las pistas de modo específico e independiente. Yo he hecho el análisis que os presento de modo global, puesto que de lo contrario el trabajo se hubiera alargado mucho, y solo he descendido a este nivel de detalle para relacionar aciertos con confianza en la elección, que sí podréis encontrar más abajo representados pista a pista.

Esta es por tanto una prueba de código abierto :-), así que os animo a utilizar la hoja de cálculo con las respuestas para obtener más información y a compartir los resultados.

Vamos con los gráficos. Hay muchos y su carga puede demorarse, paciencia.


1. Información estadística de los participantes

1.1. Participantes


1.2. Edad Media


1.3. Sexo


1.4. Escucha con auriculares / altavoces


1.5. Nivel del equipo


1.6. Perfil de usuario


1.7. Modo de realización de la prueba


1.8. Uso de mejoras eléctricas


1.9. Sala acondicionada


1.10. Uso de corrección digital / EQ


2. Resultados generales

La secuencia de pistas que se corresponde con los archivos WAV era:

B A A A B

No había ninguna pista “trampa” (ambos archivos idénticos).

2.1. Porcentaje de aciertos generales


2.2. Respuestas por pista


2.3. Confianza por pista


Solo 4 personas de los 83 participantes han identificado correctamente las 5 pistas WAV (4,8%). Comparemos este porcentaje con la probabilidad de acierto fortuito echando mano del cálculo de probabilidades:
  • La probabilidad unitaria de identificar cada uno de los archivos WAV es de 1/3. Consecuentemente, la correspondiente a que un participante identifique las 5 muestras es de 1 / (3x3x3x3x3) = 0,004115. 
  • Puesto que cada suceso (intento de un participante) es independiente y tiene probabilidad constante, parece razonable suponer que la probabilidad de que 4 personas de entre los 83 participantes identifiquen las 5 pistas WAV puede aproximarse utilizando una distribución binomial B(83,4) en la que la probabilidad de acierto de cada ensayo es p = 0,004115. Eso nos permite calcular la probabilidad de que esto pase de chiripa, que resulta ser de un 0,038%.
En esta tabla se pueden ver los valores que toma la distribución binomial en este experimento:


Por otro lado, aunque solo un pequeño porcentaje de usuarios ha identificado las pistas WAV, lo que podríamos denominar la inteligencia audiófila colectiva ha optado claramente por las versiones WAV de las 5 pistas, lo que no deja de parecerme intrigante.

3. Aciertos en función del tipo de escucha

3.1. Aciertos por tipo de escucha


3.2. Porcentaje aciertos altavoces


3.3. Porcentaje aciertos auriculares


Contrariamente a la creencia popular los resultados apuntan a que resulta más fácil identificar las pistas WAV (4 o 5 pistas correctamente identificadas como WAV) con altavoces que con auriculares (37,5% frente a 12,2%).

4. Aciertos en función del perfil del usuario

4.1. Aciertos por perfil


4.2. Porcentaje aciertos novatos


4.3. Porcentaje aciertos aficionados


4.4. Porcentaje aciertos usuarios con experiencia


4.5. Porcentaje aciertos profesionales


4.6. Porcentaje aciertos músicos

  • El bajo número de muestras pertenecientes a determinados colectivos no permite extraer, en mi opinión, conclusiones claras (3 músicos, 3 usuarios que se consideran profesionales del sector) en determinados casos.
  • El porcentaje de usuarios que se consideran aficionados o usuarios con experiencia e identifican 4 o 5 de las pistas WAV es prácticamente idéntico (24,4% frente a 23,1%). Este factor por tanto no parece ser relevante.

5. Aciertos en función del nivel del equipo

5.1. Aciertos por nivel del equipo


5.2. Porcentaje aciertos equipos nivel bajo


5.3. Porcentaje aciertos equipos nivel medio


5.4. Porcentaje aciertos equipos nivel alto

  • Los participantes con equipos de nivel medio - alto han obtenido un porcentaje mayor de aciertos que los que empleaban equipos de nivel bajo. La calidad del equipo sí contribuye, aparentemente, a facilitar la detección de diferencias.
  • Ningún usuario con equipo de nivel bajo ha identificado las 5 pistas WAV.

6. Aciertos en función del modo en que se ha realizado la prueba

6.1. Aciertos por modo de realización de la prueba


6.2. Porcentaje aciertos archivos descargados


6.3. Porcentaje aciertos escucha desde el navegador


Las gráficas sugieren que los usuarios que han descargado los archivos para realizar la prueba han tenido más éxito a la hora de identificar las versiones WAV (29,4% frente a 15,6% a la hora de obtener 4 o 5 aciertos).

7. Aciertos en función del uso de mejoras en alimentación

7.1 Aciertos por uso de mejoras en alimentación


7.2. Porcentaje aciertos usuarios sin mejoras


7.3. Porcentaje aciertos usuarios con mejoras


Los resultados obtenidos no permiten vincular un mayor porcentaje de éxito a la hora de identificar los archivos WAV con el uso de mejoras en la alimentación eléctrica del equipo empleado (25,9% frente a 25% a la hora de obtener 4 o 5 aciertos).

8. Aciertos en función del acondicionamiento de la sala 

8.1 Aciertos por uso de acondicionamiento pasivo


8.2. Porcentaje aciertos usuarios sin acondicionamiento


8.3. Porcentaje aciertos usuarios con acondicionamiento

  • 2 usuarios han indicado que utilizaron auriculares para realizar la prueba pero también respondieron afirmativamente a la pregunta correspondiente al acondicionamiento acústico. Ambos no han sido tenidos en cuenta en las gráficas de (únicamente) este apartado.
  • En este caso, y paradójicamente, los usuarios que han realizado la prueba sin contar con una sala acondicionada han obtenido mejores resultados a la hora de identificar correctamente 4 o 5 de los archivos WAV que los que sí disponían de esta mejora (42,3% frente a 30%). Este resultado incongruente me hace pensar que el tamaño escaso de la muestra (solo 10 usuarios participantes que disfrutan de acondicionamiento pasivo) impide obtener conclusiones concluyentes.

9. Aciertos en función del uso de ecualización

9.1 Aciertos por uso de ecualización


9.2. Porcentaje aciertos usuarios sin ecualización


9.3. Porcentaje aciertos usuarios con ecualización


El uso de EQ y/o corrección digital de sala parece tener un impacto positivo en el índice de aciertos (45,5% frente a un 20,9% en el caso de los participantes que no disponían de esta mejora). No obstante, y nuevamente, el relativamente reducido número de usuarios que han indicado que empleaban EQ obliga a ser muy prudente a la hora de correlacionar estos factores.

10. Confianza en la elección: Pistas 1

10.1. Confianza personas que NO identifican el archivo WAV


10.2. Confianza personas que SÍ identifican el archivo WAV


En este caso los participantes que no identifican correctamente el archivo WAV demuestran más confianza en su elección que los que sí lo identifican (39,5% frente a 22,5%).

11. Confianza en la elección: Pista 2

11.1 Confianza personas que NO identifican el archivo WAV


11.2 Confianza personas que SÍ identifican el archivo WAV


En la pista 2, como podemos ver, el grado de confianza es similar en ambos grupos.

12. Confianza en la elección: Pista 3

12.1 Confianza personas que NO identifican el archivo WAV


12.2 Confianza personas que SÍ identifican el archivo WAV


En la pista 3 se obtienen resultados en lineas similares a los de la pista 2. La cosa está igualada, con una pequeña ventaja para los usuarios que no identifican correctamente el archivo WAV.

13. Confianza en la elección: Pista 4

13.1 Confianza personas que NO identifican el archivo WAV


13.2 Confianza personas que SÍ identifican el archivo WAV


En la pista 4 las tornas se invierten: los usuarios que identifican correctamente la versión WAV lo hacen con mayor confianza (37,5% frente a 25,6%).

14. Confianza en la elección: Pista 5

14.1 Confianza personas que NO identifican el archivo WAV


14.2 Confianza personas que SÍ identifican el archivo WAV


Finalmente, en la pista 5 se repite un resultado similar al evidenciado en la pista 3: porcentajes similares en ambos grupos, con una cierta ventaja para los usuarios que no identifican correctamente el archivo WAV.

Hasta aquí los resultados, vamos ahora con las...


Conclusiones personales

Y llegamos por fin al final de este experimento, pero antes de concluir me gustaría agradecer a todos los participantes su colaboración en este estudio informal.

Personalmente extraigo varias conclusiones:

La primera y principal es que el tamaño de la muestra me parece demasiado pequeño como para tomarse esto muy en serio. Mis expectativas iniciales eran, quizás, demasiado altas (cientos de muestras). Esto es especialmente cierto si tenemos en cuenta el reducido número de participantes pertenecientes a determinados colectivos:
  • Usuarios que identifican las 5 versiones WAV (4).
  • Participantes que se consideran novatos (6).
  • Músicos (3).
  • Usuarios profesionales (3).
  • Usuarios que disponen de salas acondicionadas (12).
  • Usuarios que emplean ecualización (11).

Esto invalida en gran medida cualquier análisis que pretenda correlacionar la influencia de estas variables entre ellas o con otras de las manejadas por esta prueba.

Por otro lado, me ha sorprendido enormemente que la respuesta colectiva a la hora de determinar qué pistas sonaban mejor ha convergido de un modo claro hacia los archivos WAV (BAAAB), a pesar de que solo 4 usuarios (4,8%) los han identificado correctamente a título individual.

Además, durante el tiempo en que la prueba ha estado abierta he podido comprobar en tiempo real cómo este comportamiento colectivo se iba perfilando y tendía progresivamente hacia esos 5 aciertos. De hecho, la tendencia ha sido muy clara desde los 20 - 30 primeros participantes en el caso de las pistas 1, 4 y 5, no tanto en las número 2 y 3. Especialmente la 3ª pista no ha tendido a su valor final (A) hasta prácticamente los últimos 10 días. Ha sido francamente curioso ver cómo, poco a poco, también en este caso las respuestas iban decantando la balanza en favor de la versión WAV. Aquí lo podéis comprobar en este time lapse:


Tampoco debemos perder de vista que aunque 10 participantes (12%), casi todos utilizando auriculares, no han identificado correctamente ninguna de las pistas WAV, esto no debe interpretarse como que han preferido de un modo consistente las versiones OGG, puesto que existía una 3ª respuesta posible (suenan igual). De hecho, tan solo se ha registrado 1 respuesta en la que el usuario ha preferido las 5 versiones OGG (secuencia ABBBA). Para que lo veáis claro he añadido varios filtros a la hoja de cálculo de respuestas:


Activad los filtros "5 OGG" y "0 aciertos" y entenderéis lo que digo.

Con respecto a las pistas de prueba, los espectrogramas de las versiones codificadas en OGG muestran una (muy sutil en algunos casos) disminución en su densidad de contenido espectral en la parte alta, quedando ligeramente desmochados, como se puede ver en estas imágenes. Creo que es innegable que el codec OGG hace un gran trabajo, al menos desde el punto de vista del análisis espectral.

Aquí podéis ver los espectros de las pistas de prueba, de la 1 a la 5, versión WAV a la izquierda, OGG a la derecha (los archivos de audio se pueden descargar aquí).


Estas imágenes no dicen gran cosa puesto que su tamaño no permite apreciar los detalles. No obstante podemos hacer un pequeño experimento adicional.

Vamos a invertir la forma de onda de una de las muestras en OGG y reproducirla al mismo tiempo que la original en WAV. Si ambas fueran idénticas se produciría una cancelación perfecta (silencio absoluto) al superponerlas (sumarlas digitalmente). En caso contrario lo que se escucharía es precisamente el audio que se ha perdido en la conversión de WAV a OGG.

Aquí un ejemplo con la pista 1 de la prueba:


Arriba la pista WAV. Abajo la versión OGG tras aplicar el filtro de inversión de Audacity.

Esta es la pinta que tiene la señal resultante de sumar (realmente restar, puesto que una de ellas está invertida) ambas pistas:


Y aquí tenemos un análisis espectral de la pista diferencia (recordemos, contiene la información descartada por el compresor OGG):


Como vemos, la transformación WAV > OGG se ha cepillado cosas en los extremos del espectro, estamos hablando de componentes que, como mucho, andan por los -60dB, aunque realmente el volumen medio es bastante inferior. Por ejemplo, en la parte alta del espectro la señal mutilada está por debajo de los -87dB. En resumen: que lo que se ha eliminado sonaba muy bajito.

¿Cómo de bajito? Pues aquí os muestro la pista cuyas gráficas se han representado más arriba en streaming para que podáis escucharla. Reproducidla en vuestros equipos y fijaos en cuánto hay que girar el pote de volumen para escuchar la "pérdida". Tened en cuenta, además, que la "ausencia" de lo que se escucha quedaría enmascarada, además, por el resto de la señal que sí se ha preservado en la versión comprimida.


Para finalizar, y tras reflexionar sobre los resultados que arroja esta prueba, me inclino a pensar que sí existen diferencias audibles, hablando en términos absolutos y bajo determinadas condiciones, perceptibles por ciertas personas, entre un archivo WAV y su homólogo codificado en OGG utilizando una compresión con pérdidas.

Ahora bien, creo que es procedente cuestionarse si en condiciones normales de escucha esto resulta relevante o no. Al fin y al cabo nadie se sienta en el sofá a disfrutar de su música preferida en estado de alerta mental permanente, repitiendo una y otra vez determinados fragmentos de cada pieza, para detectar deficiencias en lo que está oyendo. O al menos no debería hacerlo si en algo aprecia su cordura. Las diferencias, de ser significativas, deberían ser evidentes y aflorar per se en lugar de requerir una escucha activa y analítica.

Y me temo que la respuesta a esta pregunta es, en última instancia, personal e intransferible.

No hay comentarios :