En cualquier empresa el presupuesto que inviertas en el plan de marketing puede desbocarse si no lo tienes bajo control. Y para eso necesitas medir. Mucho. Ya sea para realizar el seguimiento del ROI, calcular las tarifas de tus servicios de manera óptima o conocer las necesidades de tu cliente.
Esto al final deriva en lo de siempre: poco tiempo para realizar cálculos, demasiada información y por supuesto urgencia, siempre urgencia.
Por eso necesitas automatizar procesos y analizar muchos datos. De la manera lo más automática y rápida posible.
Éste es tan sólo un ejemplo en el que el Data Analysis (DA) es imprescindible. Que no es ni más ni menos que la ciencia que examina datos en bruto con el propósito de sacar conclusiones sobre la información.
El DA es utilizado en práctimente todas las industrias, organizaciones y departamentos. Y en el caso del Machine Learning es el paso imprescindible para poder generar, verificar o reprobar modelos, premisas o teorías.
El artículo de hoy se va a centrar precisamente en ese aspecto.
Fases del análisis de datos
Este proceso trata de obtener información estructurada a partir de datos en bruto. Y esto se realiza siempre en varias etapas fácilmente diferenciables. A continuación os las muestro, no sin antes señalar que, como ya dije en el artículo anterior, no es un modelo en cascada.
Definir el problema
Si no sabemos lo que queremos averiguar, o cual es el objetivo del análisis (¿qué queremos predecir?) es imposible realizar un análisis de datos adecuado pues estaríamos dando palos de ciego. Debemos definir qué queremos y qué tenemos.
Obtener los datos
El analista de datos intenta cargar y recolectar datos desde diferentes fuentes externas. Probablemente con formatos muy diferentes y de lugares dispares. En esta fase debemos aprender a proporcionar métodos para cargar datos desde diversas fuentes.
Procesado de los datos
Normalmente no podemos empezar a analizar los datos en bruto. Tenemos que ordenarlos, detectar outliers, preprocesado, limpieza, inferencia de otros datos nuevos, etc.
Explorar datos
El análisis exploratorio es muy útil. Tan sólo ojeando los datos en la pantalla ya podríamos detectar patrones o tendencias. Sin emargo, a veces es necesario utilizar técnicas para ahorrarnos horas de trabajo, como los gráficos.
Modelización y evaluación
Debemos establecer un buen modelo de datos pero no quedarnos ahí. También debemos encontrar la forma de evaluarlo para conocer la fiabilidad del modelo elegido.
Visualización / publicación / paso a producción
Una vez hemos evaluado el modelo y establecido que es correcto, podemos visualizar los datos e incluso ponerlos en producción.
Después de esta introducción, ya podemos empezar a cacharrear a partir del próximo artículo. Empezaremos con las técnicas para limpieza de datos (Data Cleaning). Por suerte, en Python contaremos con la inestimable ayuda de la librería pandas para ello. ¡Hasta la próxima!
Deja un comentario