El término big data se utiliza para describir un gran conjunto de datos que crece exponencialmente. Para procesar esta cantidad de datos, el aprendizaje automático es fundamental, por eso importante conocer que opciones nos entrega el big data analytics.
Beneficios de los grandes datos:
- Recopilación de datos de diferentes fuentes.
- Mejore los procesos comerciales a través de análisis en tiempo real.
- Almacenamiento de gran cantidad de datos.
- Perspectivas. Big data es más perspicaz que la información oculta a través de datos estructurados y semiestructurados.
- Big data ayuda a reducir el riesgo y a tomar decisiones más inteligentes con el análisis de riesgo adecuado
EJEMPLOS DE GRANDES DATOS
- La Bolsa de Valores de Nueva York genera diariamente 1 terabyte de datos comerciales para la sesión anterior.
- Redes sociales : las estadísticas muestran que las bases de datos de Facebook se cargan diariamente . Se generan 500 terabytes de nuevos datos principalmente debido a la carga de fotos y videos a los servidores de redes sociales, el envío de mensajes, comentarios en las publicaciones, etc.
- El motor a reacción genera 10 terabytes de datos cada 30 minutos durante el vuelo. Teniendo en cuenta que cada día se realizan miles de vuelos, la cantidad de datos alcanza los petabytes.
CLASIFICACIÓN DE GRANDES DATOS
Formas de Big Data:
- Estructurado
- no estructurado
- semiestructurado
FORMA ESTRUCTURADA
Los datos que se pueden almacenar, acceder y procesar en un formato fijo se denominan datos estructurados. Durante mucho tiempo, la informática ha avanzado mucho en la mejora de las técnicas para trabajar con este tipo de datos (donde se conoce de antemano el formato) y ha aprendido a sacarle partido. Sin embargo, ya existen hoy problemas asociados con el crecimiento de volúmenes a tamaños medidos en el rango de varios zettabytes.
1 zettabyte equivale a mil millones de terabytes
Mirando estas cifras, es fácil ver la verdad del término Big Data y las dificultades asociadas con el procesamiento y almacenamiento de dichos datos. Los datos almacenados en una base de datos relacional están estructurados y se parecen, por ejemplo, a las tablas de empleados de una empresa.
FORMA NO ESTRUCTURADA
Los datos de estructura desconocida se clasifican como no estructurados. Además de su gran tamaño, este formulario se caracteriza por una serie de dificultades para procesar y extraer información útil. Un ejemplo típico de datos no estructurados es una fuente heterogénea que contiene una combinación de archivos de texto simples, imágenes y videos. Las organizaciones de hoy tienen acceso a una gran cantidad de datos sin procesar o no estructurados, pero no saben cómo usarlos.
FORMA SEMIESTRUCTURADA
Esta categoría contiene los dos anteriores, por lo que los datos semiestructurados tienen alguna forma, pero en realidad no están definidos por tablas en bases de datos relacionales. Un ejemplo de esta categoría son los datos personales presentados en un archivo XML.
Los grandes datos varían en:
- Volumen: Por sí mismo, el término Big Data se asocia con gran tamaño. El tamaño de los datos es el indicador más importante para determinar el posible valor recuperable. Todos los días, 6 millones de personas usan medios digitales, lo que genera alrededor de 2,5 quintillones de bytes de datos. Por lo tanto, el volumen es la primera característica a considerar.
- La diversidad: es el siguiente aspecto. Se refiere a las fuentes heterogéneas y la naturaleza de los datos, que pueden ser estructurados o no estructurados. Anteriormente, las hojas de cálculo y las bases de datos eran las únicas fuentes de información consideradas en la mayoría de las aplicaciones. Hoy en día, los datos en forma de correos electrónicos, fotos, videos, archivos PDF y audio también se consideran en aplicaciones analíticas. Esta variedad de datos no estructurados genera problemas de almacenamiento, minería y análisis: el 27 % de las empresas no está segura de estar trabajando con los datos correctos.
- Tasa de producción:. La rapidez con la que se acumulan y procesan los datos para cumplir los requisitos determina el potencial. La velocidad determina la velocidad del flujo de información desde las fuentes: procesos comerciales, registros de aplicaciones, redes sociales y sitios de medios, sensores, dispositivos móviles. El flujo de datos es enorme y continuo en el tiempo.
- La variabilidad: describe la variabilidad de los datos en algunos momentos, lo que dificulta el procesamiento y la gestión. Por ejemplo, la mayoría de los datos no están estructurados por naturaleza.
BIG DATA ANALYTICS: PARA QUÉ SIRVE EL BIG DATA
- Promoción de bienes y servicios : el acceso a datos de motores de búsqueda y sitios como Facebook y Twitter permite a las empresas desarrollar estrategias de marketing con mayor precisión.
- Mejorar el servicio al cliente : los sistemas tradicionales de comentarios de los clientes están siendo reemplazados por otros nuevos que utilizan big data y procesamiento de lenguaje natural para leer y evaluar los comentarios de los clientes.
- Cálculo de riesgos asociados al lanzamiento de un nuevo producto o servicio.
- Eficiencia operativa : el big data está estructurado para extraer la información correcta más rápido y producir resultados precisos rápidamente. Esta combinación de tecnologías de Big Data y almacenamiento ayuda a las organizaciones a optimizar el trabajo con información que rara vez se utiliza.
Conoce más en nuestro Magíster en Ciberseguridad Online (ceupe.cl)
Conecta con nosotros en nuestro perfil de Linkedin: https://www.linkedin.com/in/ceupechile/
Comentarios