Synergos

Por: Ignacio Barros

Aluminum and Data

Días atrás, leí un artículo de Data In Formation, una revista especializada en temas tecnológicos, con un tema que me pareció muy interesante y que se podría resumir así: si estás en una conversación sobre análisis y ciencia de datos, ¿piensas en algún momento en el aluminio? Lo más probable es que tu respuesta sea no. ¿Qué tiene que ver el aluminio con la data?, te preguntarás. Eso respondería la gran mayoría. Hasta ahora.

El aluminio tiene muchas aplicaciones. Viene en una amplia gama de tamaños. Puede ser flexible o muy rígido. Puede reciclarse infinitamente y convertirse en cualquier cantidad de objetos nuevos cuando el original haya cumplido su propósito. Cuando se descubrió por primera vez, el aluminio no tenía mucho valor práctico. Sin embargo, hoy en día es una parte esencial de nuestras vidas y su valor ha aumentado en consecuencia.

¿Te suena familiar esta descripción? Reemplaza "aluminio" por "datos" en el párrafo anterior y léelo nuevamente. Hay un paralelo aún más importante. En su estado natural (un material llamado bauxita), el aluminio se parece a cualquier otra roca con la que te puedas encontrar e ignorar. Pero oculta en esa piedra que a primera vista parece no valer nada, se escode algo sin lo cual no tendríamos aviones de pasajeros, naves espaciales, automóviles de bajo consumo ni cientos de otros productos esenciales para la vida moderna.

Como sea que lo llames, camuflaje perfecto, esconderse a plena vista o ir de incógnito, el problema es que una gran cantidad de valor suele pasarse por alto fácilmente.

Y ahora viene la sorprendente revelación: lo mismo ocurre con los datos no estructurados de tu organización. Algunos ejemplos: imágenes, videos, grabaciones de llamadas, documentos escaneados, registro de chats, archivos PDF y todos esos otros tipos de archivos que no están en un formato ordenado de filas y columnas. De hecho, se calcula que el 80% de todos los datos nuevos creados en las organizaciones cada día son del tipo "no estructurado". Sin embargo, los analistas y otros científicos de datos suelen pasarlo por alto porque no está disponible en un formato fácil de usar.

Históricamente, este tipo de datos no se ha incluido en conjuntos analíticos ni en catálogos. Incluso aquellas empresas que venden plataformas de malla de datos y estructuras, que afirman hacer visibles y accesibles "todos" los datos de una organización, excluyen inevitablemente los datos no estructurados, porque prefieren no lidiar con un animal de ese tamaño.

Pero si ese es el caso, ¿entonces por qué debería preocuparme por mis datos no estructurados? Simplemente los dejo perderse y ya.

El punto es que los datos estructurados tradicionales son buenos para responder preguntas de "qué": ¿Cuáles fueron las ventas de ayer? ¿Cuál es nuestro nivel actual de satisfacción del cliente? ¿Cuál es la producción promedio de la Unidad #3? Pero esos datos estructurados tienden a mirar hacia atrás y no pueden responder preguntas de "por qué": ¿Por qué las ventas de ayer estuvieron un 10% por encima de lo planeado? ¿Por qué la satisfacción del cliente ha caído 5 puntos porcentuales esta semana? ¿Por qué la Unidad #3 produce a la mitad del nivel de las otras unidades?

Los datos no estructurados, en cambio, representan lecturas actuales en tiempo real: fuentes de noticias, archivos de audio del centro de llamadas, salidas de sensores. En los tres ejemplos anteriores, podríamos entender qué pasó: un análisis de las noticias mostró que una repentina ráfaga de clima frío provocó un aumento en las compras de abrigos, lo que impulsó las ventas de ayer; un análisis de las llamadas de servicio al cliente descubrió un problema recurrente que continúa afectando los resultados de las encuestas de satisfacción; un análisis de los parámetros operativos de una máquina de producción específica indicó que necesita mantenimiento, lo que explica su menor rendimiento.

Todas estas ideas y respuestas sólo son posibles si se incluyen datos no estructurados en modelos y análisis. Si bien la mayoría de las organizaciones dirán que ya están capturando este tipo de datos, e incluso almacenándolos en un data mart (un almacén de datos), en realidad no los están utilizando. Quizá los tienen, pero no los usan.

Los datos no estructurados no se introducen habitualmente en los modelos de IA y no forman parte de la mayoría de los análisis de BI, principalmente porque hacerlo requiere trabajo. Los datos no estructurados deben etiquetarse, anotarse o transcribirse antes de que puedan ser absorbidos por cualquier plataforma tecnológica avanzada. Desafortunadamente, la mayoría de las organizaciones no están preparadas para hacer ese tipo de trabajo: no hay nadie cuyo título de trabajo sea "Etiquetador de datos" y no hay nadie con experiencia en reclutar y administrar etiquetadores de datos.

Entonces, para aquellos líderes con visión de futuro, conscientes del valor encerrado en sus datos no estructurados, la solución es encontrar a alguien en la organización con "datos" en su título. Y así es como el etiquetado de datos suele terminar asignándose a los ingenieros de datos. Lo cual es trágico. Porque no es que estos no estén familiarizados con el proceso o sean incapaces de hacerlo, sino que es una forma muy costosa de hacer el trabajo, tanto en términos de costo directo como de costo de oportunidad (si estas personas altamente calificadas están trabajando en la anotación de datos, es probable que los trabajos para los que fueron contratados no se realicen). Además, se trata de personas ingeniosas encargadas de hacer algo que preferirían no hacer. Entonces encuentran soluciones rápidas, como por ejemplo, comprar los datos ya etiquetados de otra persona, o peor aún, acortar el proceso utilizando una herramienta de IA generativa para crear datos sintéticos. Pero nada es tan poderoso y único como los datos experimentales propios de una organización, anotados con precisión y listos para brindar un impulso significativo a los datos estructurados que ya se encuentran en una herramienta de IA o BI.

Si etiquetar esos datos no es algo que usted pueda hacer, un proveedor de servicios de datos puede hacerlo por usted (solo asegúrese de averiguar dónde se realizará realmente el trabajo y si la empresa tiene o no experiencia en el dominio específico para su negocio).

Volvemos a la pregunta inicial. ¿Qué tiene que ver todo esto con el aluminio? Mucho.

La mayoría de la gente pasaría junto a un trozo de bauxita sin mirarlo dos veces. No se parece en nada al aluminio; no es algo que hayan usado o necesitado antes. Pero refínelo hasta convertirlo en un lingote de aluminio puro y los posibles usos se presentarán rápidamente.

Todos los archivos de imágenes escaneadas, miles de llamadas de servicio al cliente grabadas, registros de chat y enormes estudios geoespaciales son exactamente el mismo tipo de mineral sin interés, hasta que esos archivos no estructurados son etiquetados o anotados. Y entonces, de repente, aparece el valor del mineral escondido en la piedra estéril.

No pase por alto sus datos no estructurados. Reconozca su verdadero potencial y refínelo hasta convertirlo en valiosos lingotes.

Fuentes:

  • Data is the new aluminium (Data in Formation, Feb 2024)
  • Using new data to measure and manage work (The Wall Street Journal, Jan 2024)
  • Why Google would drop USD 2.6 billion on an analytics company (Wired, Nov 2023)
  • Casos internos de SYNERGOS
es_ES