Los macrodatos siguen apareciendo en los titulares, pero ¿qué son exactamente y por qué son a la vez un regalo y un impedimento potencial para la medición precisa de la audiencia? Analizamos los pros, los contras y las formas de hacerlos funcionar.
¿Qué son los macrodatos?
En el mundo de los medios lineales, los big data suelen referirse a dos tipos de flujos de datos producidos por los propios sistemas que ofrecen la programación a los usuarios finales: Los datos de retorno (RPD) de los descodificadores de cable o satélite (como Dish o DirecTV) y el reconocimiento automático de contenidos (ACR) de los televisores inteligentes conectados a Internet (como Samsung o Vizio).
Datos ACR
En lugar de un registro de los cambios de canal, la tecnología ACR controla las imágenes de la pantalla del televisor. Las imágenes actúan como huellas dactilares, que se comparan con una gran biblioteca de referencia para identificar de qué programa o anuncio se trata realmente. Las imágenes llevan un sello de tiempo para saber cuándo se está reproduciendo.
Datos RPD
Registra en qué canal está sintonizado el descodificador y a qué hora se producen los cambios de canal. Estos datos pueden compararse con la programación de televisión para determinar qué programa se emite a esa hora, y con los datos de los servidores publicitarios del proveedor o sus socios para averiguar a qué publicidad está expuesto el hogar.
En ambos casos, los usuarios finales permiten la recogida de datos en sus dispositivos. La cooperación es relativamente alta porque la recopilación de datos no sólo impulsa la medición, sino también funciones tan deseadas como las preferencias del usuario y las recomendaciones de contenidos. Un conjunto de datos RPD o ACR puede abarcar más de 30 millones de dispositivos.
¿Por qué son tan importantes los macrodatos?
Hubo un tiempo en que la gente sólo tenía un puñado de canales para elegir. Un índice de audiencia1 superior a 60 (como el final de M*A*S*H en 1983) o incluso a 40 (como el final de Seinfeld en 1998) es inimaginable hoy en día para un programa con guión. Vivimos en un mundo mucho más fragmentado, con una larguísima lista de opciones de programación.
Eso es estupendo para los telespectadores, pero complica las cosas para la investigación basada en paneles: En un panel nacional de 101.000 personas, un programa de televisión con un índice de audiencia de 0,2 lo verán 80 hogares, y quizá sólo uno en el área metropolitana de Atlanta o Dallas. Con decenas de millones de dispositivos bajo medición, el big data permite a las empresas de investigación informar sobre el uso de la televisión a un nivel mucho más granular, proporcionando cobertura para muchos más programas con audiencias pequeñas y a menudo diversas. Pero, por sí solo, el big data nunca se pensó para la medición de audiencias.
Reto nº 1: Los macrodatos no son representativos
Para realizar transacciones con confianza, los compradores y vendedores de medios necesitan una solución de medición que refleje la población en toda su diversidad: Todos los grupos de edad, razas, etnias y muchas otras características demográficas y de comportamiento clave deben estar presentes y ser proporcionales en los datos subyacentes.
Pero el tamaño no garantiza la representatividad. Al analizar los recuentos instalados en el panel de televisión nacional de Nielsen, hemos descubierto que los hogares con RPD son desproporcionadamente mayores y menos diversos racialmente que la población general. Los hogares hispanos, por ejemplo, están infrarrepresentados en cerca de un 30%, y los cabezas de familia menores de 25 años están casi totalmente ausentes de los conjuntos de datos RPD. Por otro lado, los conjuntos de datos de ACR son más jóvenes que la población general y también tienen más miembros en los hogares. El uso de la ponderación estadística en los macrodatos puede ocultar el problema, pero no puede compensar la ausencia de comportamientos de visionado únicos de las audiencias infrarrepresentadas.
Por si fuera poco, una solución de medición basada exclusivamente en los datos de RPD y ACR pasaría por alto los hogares que sólo ven televisión por aire2 y en streaming, que constituyen una parte cada vez mayor del pastel.
Reto nº 2: Puede que los macrodatos no recojan todos los comportamientos de los espectadores
Aunque incluyeran hogares representativos, los conjuntos de datos de RPD y ACR no recogen los visionados de todos los descodificadores del hogar ni de otros televisores que no sean inteligentes. Esos televisores adicionales pueden reproducir programas diferentes para distintos miembros de la familia (como programas de cocina en la cocina o programas infantiles en el cuarto de juegos), por lo que no solo los hogares con big data no son representativos de la población, sino que los big data en sí mismos no son representativos de todo lo que se ve en esos hogares.
Un problema frustrante para las empresas de investigación que recurren al RPD es que el descodificador suele permanecer encendido cuando el televisor conectado está apagado. Esa sintonización "fantasma" puede exagerar el visionado real entre un 145% y un 260%, según el proveedor. Existen modelos para compensarlo, pero sin un punto de referencia -como un panel informado por la audiencia real- puede ser difícil desarrollar la heurística adecuada.
ACR tampoco es inmune a los problemas de calidad de datos. Algunas aplicaciones de transmisión de televisión inteligente bloquean ACR para capturar el contenido en pantalla mientras la aplicación está en uso. Puede parecer que el televisor está apagado cuando en realidad el contenido ha sido bloqueado por una aplicación. Y la mayoría de los proveedores supervisan sólo una pequeña parte de toda la programación disponible. En un análisis reciente, descubrimos que los proveedores de ACR controlan actualmente sólo el 31% de todas las emisoras disponibles, y el 23% de los minutos grabados siguen procediendo de emisoras que no están controladas. Sin huellas dactilares de referencia con las que comparar, ese visionado no se registra.
Reto nº 3: A los macrodatos les faltan datos demográficos de los espectadores
Los proveedores de RPD y ACR captan los datos de sintonización de millones de dispositivos, pero no saben quién los ve, que es lo que en última instancia piden los anunciantes.
Una forma de compensar esta carencia es asociarse con terceros proveedores de datos demográficos. Estas empresas mantienen un registro de la composición demográfica de cada hogar del país, y una empresa de investigación podría intentar modelar quién ve qué simplemente a partir de la suma total de los datos de sintonización en un hogar determinado y la composición demográfica de ese hogar.
¿Un programa para niños? Debe ser de un niño de la casa. ¿Un combate de lucha libre? Debe ser de un espectador masculino. Sin un punto de referencia de la vida real para ayudar al algoritmo de aprendizaje automático, se puede ver fácilmente dónde puede fallar este tipo de modelado. Como era de esperar, la fiabilidad disminuye progresivamente a medida que aumenta el tamaño de la familia, lo que acaba perjudicando la exactitud de los datos en el caso de las familias numerosas, con niños, no blancas y jóvenes.
El valor persistente de los datos de panel
Para las marcas y los medios de comunicación que buscan una solución de medición de audiencias estable y fiable, los retos descritos anteriormente son insuperables. Los datos de panel son fundamentales para superar esas limitaciones.
En Nielsen, cuando analizamos los datos de RPD o ACR, podemos identificar qué hogares y dispositivos forman parte de nuestros paneles y comparar los datos de sintonización en esos hogares con el comportamiento de visualización capturado por nuestros medidores. Al utilizar nuestros paneles como fuente de veracidad en esos hogares, podemos identificar dónde se desvían los big data de la verdad y desarrollar modelos sólidos para ajustar esas anomalías.
Por ejemplo, desarrollamos una metodología para averiguar dónde se encuentra un aparato dentro de una casa y hacer coincidir sus datos de sintonización con espectadores concretos. Otro modelo nos ayuda a determinar si un televisor está apagado mientras el descodificador está encendido. Otro modelo puede distinguir las actualizaciones del aparato que se registran como sintonización adicional, así como las situaciones en las que un aparato devuelve más de un evento de sintonización al mismo tiempo.
Personas, no aparatos
No hay duda de que los macrodatos son una gran adición al arsenal del investigador de medios de comunicación. Abre la puerta a una información más detallada de lo que era posible en el pasado. Pero es intrínsecamente defectuoso, sesgado y, fundamentalmente, miope: Recoge datos de sintonía, no de audiencia.
Para aprovechar todo su potencial, hay que depurarlos, rellenarlos, calibrarlos y enriquecerlos con datos demográficos pertinentes. Ahí es donde entran en juego los datos de panel. El aprendizaje automático funciona mejor con datos de entrenamiento y validación sólidos, y no hay mejores datos de entrenamiento en el sector que los datos de panel representativos a nivel nacional que constituyen el núcleo del negocio actual de investigación de medios.
Nielsen Need to Know repasa los fundamentos de la medición de audiencias y desmitifica los temas más candentes de la industria de los medios de comunicación.
Nota
1 La audiencia doméstica es el porcentaje de todos los hogares del país que sintonizan un programa determinado.
2 Programación disponible a través de una "señal" procedente de una antena. Las emisiones por aire (OTA) fueron el primer tipo de televisión disponible.