Aunque el término Data Science no es tan nuevo como parece, si comenzó a hacerse muy popular cuando en el año 2012, Harvard Business Review publica el artículo “Data Scientist: The Sexiest Job of the 21st Century”. Pero … ¿Qué es realmente la Ciencia de Datos?, ¿qué hace un Científico de Datos? y ¿por qué ahora?
Para comenzar a responder las interrogantes antes planteadas podemos hacer mención del concepto de Ciencia de Datos que aparece en el artículo de Alex Liu “Data Science and Data Scientist” del año 2015: “Es un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento de datos en sus diferentes formas, ya sea estructurados o no estructurados“.
Por otro lado, es necesario también definir el rol de Científico de Datos, que según Josh Wills de Slack es “ Una persona que es mejor en estadística que cualquier ingeniero de software y mejor en ingeniería de software que cualquier estadístico“ o tal vez como lo sintetiza Roger Huang de Springboard quien dice que “Un Científico de Datos es un unicornio que une la matemática, los algoritmos, el diseño experimental, habilidades de ingeniería, comunicación y gerencia”.
Ahora que tenemos un poco más claro los conceptos de ciencia de datos y de Científico de Datos podemos hablar de, ¿por qué ahora? Aunque los conceptos estadísticos usados en Ciencia de Datos son bastante antiguos de hecho, y las bases de datos junto con la Inteligencia Artificial llevan con nosotros más de 50 años, es recientemente que se conjugan eventos importantes en la aparición de la Ciencia de Datos como disciplina: se logran abaratar costos de manera significativa en el área de acceso y almacenamiento de grandes volúmenes de datos, así como también el procesamiento de los mismos de manera rápida y eficiente gracias a la computación distribuida y el procesamiento paralelo, el aumento en la velocidad de comunicación, la aplicación de nuevos paradigmas y plataformas en el desarrollo de software así como su implementación, sin olvidarnos de uno de los puntos más importantes… el crecimiento del volumen, la variedad y la velocidad en la generación de datos digitales.
Ahora bien, ¿cómo esta disciplina puede ayudar a mi negocio? para comprender mejor la respuesta a esta pregunta, se pueden nombrar algunos ejemplos conocidos, de cómo la Ciencia de Datos está siendo usada en diferentes compañías en diversas industrias a nivel global:
Netflix: Sistema de recomendación de películas basado en el comportamiento del usuario.
Waze: Recolecta información desde los móviles de los usuarios para identificar el flujo vehicular en tiempo real y mostrar el comportamiento del tráfico.
American Express: Analiza los datos de sus usuarios para predecir patrones de compra así como también para detectar posibles estafas.
General Electric: Utiliza los datos de sensores en maquinaria como turbinas de gas y motores a reacción para identificar formas de mejorar los procesos de trabajo y la confiabilidad.
Tomando en cuenta lo anterior, supongamos que nuestra compañía es una tienda en línea, ¿cómo puede ayudarnos la ciencia de datos?: aumentando nuestras ventas, hacer más eficiente nuestro manejo de inventario y mejorando la experiencia del cliente, entre otras cosas. Desarrollando nuestro caso de estudio tenemos:
Usando algoritmos de agrupamiento (clustering), mencionando solo algunos como el K-means en cuyo caso es necesario indicar el número de clusters o el HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise) el cual realiza el agrupamiento mediante la densidad y cercanía, se pueden desarrollar sistemas de recomendación de productos y segmentación de clientes, con el fin de personalizar o incluso hiperpersonalizar las experiencias de usuario, así como también desarrollar estrategias de marketing basadas en el comportamiento y las características de quienes interactúan con nuestro marketplace.
Figura 1. Comparación entre K-means donde se indica el número de grupos requeridos y el HDBSCAN que determina el número de grupos de forma automática.
Por otro lado, si logramos captar la atención de nuestros clientes, atraer nuevos y aumentar nuestras ventas, es necesario mantener nuestros inventarios al día, esto podría lograrse prediciendo el volumen de ventas de cada uno de los productos que ofrecemos en nuestro marketplace durante un período determinado de tiempo. Una propuesta para lograrlo sería tal vez, mediante la implementación de algoritmos usados en forecasting, que dependiendo del caso podrían aplicarse LSTM (Long Short-Term Memory) o las GRU (Gate Recurrent Unit) por sus siglas en inglés, las cuales son redes neuronales artificiales de la variación recursiva RNN (Recurrent neural network) siendo muy robustas en el manejo de grandes volúmenes de información y datos no estructurados; también puede ser utilizado el XGBoost (Extreme Gradient Boosting), algoritmo de aprendizaje automático de conjunto basado en árbol de decisiones que utiliza un marco de impulso de gradiente que se comporta muy bien con datos estructurados, solo por nombrar algunos ejemplos.
Figura 2. Estructuras de las unidades de RNN, LSTM y GRU respectivamente.
Para mejorar la experiencia de usuario, hacer conversiones (ventas en nuestro caso) más rápidas, captar y mantener la atención de nuestros visitantes entre muchas cosas mas referentes al UX/UI (User Experience/ User Interface): Se pueden aplicar heatmaps para determinar cuáles objetos de nuestro website están teniendo mayor o menor cantidad de interacciones; realizar análisis detallados de los resultados obtenidos en un A/B testing en los que se pueden hacer variaciones de color, cantidad, tamaño, y forma de los objetos; tipo, tamaño, color y posición del texto de nuestro website entre tantísimas otras cosas.
Figura 3. Mapa de calor (heatmap) que muestra la interacción de los usuarios con una página web.
Figura 4. Resultados hipotéticos de un A/B Test
La Ciencia de Datos es una disciplina que utilizando toda la información que se genera cada segundo y que puede ser almacenada, procesada, y accedida rápida y fácilmente, en definitiva ayudaría a mejorar, transformar y crear nuevos procesos en nuestra empresa; incluso podrían llegar a darnos una gran sorpresa los resultados obtenidos en un EDA (Exploratory Data Analysis) de la información que nuestra compañía produce, generando la posibilidad de que cambiemos la percepción que tenemos de nuestros usuarios, permitiéndonos ser más eficientes, más rentables y conocer mejor a nuestros clientes a la vez que vamos poco a poco descubriendo los misterios que se esconden detrás de los datos.
Fuentes:
https://store.hbr.org/product/data-scientist-the-sexiest-job-of-the-21st-century/R1210D
http://www.researchmethods.org/DataScienceDataScientists.pdf
https://medium.com/datos-y-ciencia/qu%C3%A9-diablos-es-ciencia-de-datos-f1c8c7add107
https://www.youtube.com/watch?v=iJUzouXg5kY
https://www.icas.com/thought-leadership/technology/10-companies-using-big-data
https://towardsdatascience.com/understanding-hdbscan-and-density-based-clustering-121dbee1320e
http://dprogrammer.org/rnn-lstm-gru
https://towardsdatascience.com/understanding-hdbscan-and-density-based-clustering-121dbee1320e