El análisis de datos convierte los datos en conocimiento, podemos imaginar los datos como largas y extensas tablas con miles o millones de filas y cientos de columnas , en las que no tendríamos posibilidad de conocerlas sin ayuda. El conocimiento es algo que una persona puede captar mentalmente y puede usarse, por ejemplo, como base para la toma de decisiones.
¿De qué se trata el análisis de datos?
En una empresa manufacturera, por ejemplo, tenemos enormes tablas de ventas y costos, que por sí solas no nos dicen nada. El conocimiento puede ser entonces, por ejemplo, qué producto es el más rentable, si uno de los productos necesita más promoción o si no lo estamos vendiendo demasiado caro. Un simple análisis de datos puede ser, por ejemplo, tomar tus estados de cuenta y calcular en qué grupos de bienes gastas más y en qué podrías ahorrar.
Se puede incluir una gran cantidad de actividades en el análisis de datos. Ejemplos típicos son:
- adquisición, transformación y limpieza de datos (comprobación de errores, búsqueda de registros duplicados, etc.),
- diseño de arquitectura de datos,
- creación de data warehouses y Business Intelligence,
- interpretación de resultados y visualización de datos,
- investigación tradicional utilizando métodos estadísticos.
Varias fuentes coinciden en que la mayor parte del tiempo se dedica a la adquisición y limpieza de datos. También es un punto clave, porque con datos erróneos o mal ajustados solemos llegar a conclusiones equivocadas. Por regla general, tenemos datos de varias fuentes, entonces es necesario conectar los datos correctamente (por ejemplo, no debemos conectar a las personas por nombre y apellido, porque en los datos podemos tener varias personas con el mismo nombre y apellido). nombre).
Aprendizaje automático
El procesamiento también incluye el aprendizaje automático , que se puede considerar como el uso de varios algoritmos para encontrar tendencias y dependencias comunes entre los datos y hacer predicciones. A menudo se lo denomina ciencia de datos (aprendizaje automático).
El aprendizaje automático tiene muchas aplicaciones diferentes. Servicios como Netflix o Youtube tienen muchos datos sobre qué videos ha visto un usuario, y la tarea de la ciencia de datos es ofrecer a los usuarios contenido que les interese. En ciberseguridad tenemos muchos datos sobre qué datos viajan por la red, y la tarea es reconocer el tráfico sospechoso que puede ser causado por algún tipo de ciberataque.
Actualmente, el análisis de datos y el aprendizaje automático están experimentando un gran auge. Esto tiene varios requisitos previos:
- gran cantidad de datos en los que hay un gran potencial,
- suficiente capacidad informática,
- algoritmos y software de procesamiento de datos.
Además de Python, para el procesamiento de datos se usa R. La ventaja de Python es que es un lenguaje de propósito general con el que podemos hacer muchas otras cosas, R es un lenguaje enfocado solo al procesamiento de datos.
¿De dónde obtenemos los datos?
Los datos se encuentran con mayor frecuencia en bases de datos o archivos. Los datos se pueden dividir básicamente en datos de texto (incluidos los datos que se pueden convertir en texto), videos, imágenes y sonidos, etc. Nos ocuparemos de los datos de texto porque son los más fáciles de procesar.
XML (y HTML) se basa en pares de etiquetas. Cada etiqueta puede tener atributos, también puede tener un valor que escribimos entre las etiquetas de apertura y cierre. Debido a que escribimos datos como valores y atributos, podemos escribir una sola tabla de múltiples maneras. Siempre debemos seguir las reglas básicas, de lo contrario, la computadora no podrá leer el archivo.
Conoce nuestro Magíster en Ciberseguridad Online (ceupe.cl)
Comentarios