Para utilizar las funcionalidades completas de este sitio, es necesario tener JavaScript habilitado. Aquí están las instrucciones para habilitar JavaScript en tu navegador web .

Big Data una mirada basada en las 5 V’s

19 Abril, 2018 | En estos últimos años pareciera que la adopción de infraestructura de Big Data se está convirtiendo en una necesidad común en casi todos los rubros y mercados. Mientras más escuchamos acerca de ellos, más fuerza cobra la pregunta inicial. Las tendencias de moda ciertamente influyen en este tipo de decisiones. Sin embargo, muchas empresas no están seguras del beneficio y costos reales de una implementación de plataforma de Big Data. En una encuesta realizada a fines del 2016 por BARC, una empresa especializada en Big Data, que consultó a más de 300 empresas de las cuales el 77% estaban en Europa y el 33% en Canadá y Estados Unidos, encuentra que no todas las empresas adoptan plataformas de Big Data. Muchas empresas adoptan soluciones de Big Data por la flexibilidad que otorgan y por la capacidad de analizar datos. Sin embargo, la misma encuesta descubre que el gran desafío de empresas que ejecutan proyectos de Big Data es la falta de conocimiento y destrezas técnicas para implementar y mantener estos proyectos. En este artículo, queremos explorar los aspectos a considerar antes de tomar la decisión de invertir en capital humano  y en tecnología de Big Data en nuestra empresa. Para poder abordar este tema, es importante mirar en perspectiva qué califica como Big Data. Volumen Como punto de referencia, el telescopio Hubble genera 10 Terabytes de información al año. Algunas personas consideran que esto es Big Data, pero en el gran esquema empresarial, recién al llegar a los 250 TB se comienza a considerar el conjunto como Big Data. Muchas empresas que procesan millones de transacciones al dia hablan ya de Petabytes. A modo de referencia, un Petabyte permite almacenar aproximadamente 3.4 años de video continuo en alta definición. El volumen de datos es importante a la hora de pensar en implementar soluciones de Big Data. Variedad Sin embargo, el volumen de datos no es necesariamente el único factor a considerar, pues hay bases de datos tradicionales que, cuando están instaladas de manera distribuida, son capaces de manejar gran cantidad de información. Esto nos lleva a un segundo factor a considerar: qué tan estructurados son nuestros datos. Cuando nuestros datos son altamente estructurados, cuando cada registro tiene campos bien definidos, como nombre, apellido, cuenta, tipo de transacción, etc. un sistema de bases de datos relacional (RDBMS) pueden ser la alternativa más adecuada de almacenar los datos. ¿Cuánto sentido tiene implementar una estructura de big data en su empresa? Si nuestros datos son semiestructurados, esto es, hay registros con más campos que otros, pero cada unidad de información puede  ser catalogada, quizás puede ser apropiado almacenar los datos en una base orientada a documentos sin SQL. Ejemplos de este tipo pueden ser datos de pacientes donde un paciente con un diagnóstico X puede tener notas de una visita que el doctor califica como muy relevantes dado ese diagnóstico y otras que no. Para dicho paciente tiene sentido un campo de notas relevantes con respecto a X. Este campo no tiene sentido para otros pacientes con otros diagnósticos. Por último, los datos pueden ser no estructurados. Por ejemplo, guardar un gran volumen de opiniones de clientes emitidas en medios sociales, o imágenes de clientes utilizando nuestro producto. En este tipo de datos es muy difícil saber de antemano la cantidad y las categorías de información a almacenar. Por lo tanto usualmente se almacena sin categorizar. Por último, en su empresa puede  haber más de un tipo de datos. Por ejemplo, de transacciones son estructurados, los de clientes semiestructurados y los de medios sociales no estructurados. Si su proyecto involucra una unión de todo esto, la variedad es muy alta. Veracidad Con una alta variedad de datos también comienzan a hacerse más visibles los problemas de confiabilidad. Esto se hace más relevante cuando las fuentes generadoras de la información provienen de diferentes sistemas, por ejemplo: Twitter feeds, Facebook, lectores automáticos de paginas de web. Velocidad Un tercer punto tiene que ver con la velocidad a la que se deben procesar los datos. En otras palabras, la urgencia y la frecuencia del acceso a la información: ¿Necesita el sistema procesar en tiempo real, todas las noches, una vez a la semana o al mes? Muchas empresas almacenan datos históricos de transacciones que no requieren mucha urgencia de análisis y proceso, mientras otras procesan y analizan datos en tiempo real. Una gran mayoría está en el medio. Parte de sus datos requiere análisis rápido, y parte requiere un análisis en profundidad de registros históricos. Valor Por último, el análisis de datos debe producir valor en la empresa. Un análisis complejo de patrones en información transaccional puede ser de mucha utilidad, mientras un análisis histórico de ventas puede simplemente confirmar  lo  que  los reportes mensuales arrojan, y no añadir ningún valor agregado. La información que debemos obtener de una plataforma de Big Data tiene que ser significativa en la utilidad de la empresa, o en la toma de decisiones como para justificar los costos asociados a su implementación. Volumen, Variedad, Veracidad, Velocidad y Valor de datos son conocidas como las cinco V’s de Big Data. Un análisis de estas cinco V’s es un buen punto de partida para analizar antes de decidir si vale la pena invertir en un proyecto de Big Data o si tiene más sentido invertir en productos de Big Data que se integren con lo que ya existe en la empresa.