¿Qué es Modelizar?
¿Qué es un modelos analítico?
¿Qué es Modelizar?
Data science es la disciplina que permite convertir los datos en conocimiento (Garrett Grolemund 2017). Modelizar es una de las fases del Data Science.
Como se representa en la figura 1, un proyecto de Data Science se puede organizar en 5 fases. La recopilación y organización de los datos son fases criticas que pueden consumir la mitad (o más) del tiempo de desarrollo del proyecto. La modelización está en el centro del proceso. Una vez que se consideran robustos tanto los modelos como las previsiones obtenidas, se abre la fase de comunicación de resultados. El trabajo del DS suele finalizar cuando el modelo entra en producción.
Más generalmente, como lo expone Marr (2017), en el contexto de Big Data, apply analytics (A), se encuentra en el corazón de la estrategia para crear SMART Business y aprovechar al máximo el valor de los datos (ver figura 2).
En resumen, Modelizar es el proceso de crear, desarrollar y validar modelos que sirvan para convertir los datos en información de negocio significativa que ayude a ejecutar las estrategias y mejorar el rendimiento o beneficios de la empresa.
Data Engineering y Advanced Analytics van de la mano.
¿Qué es un modelo analítico?
Un modelo es resumen simple, de baja dimensión, de un conjunto de datos (Garrett Grolemund 2017).
Algunas de las afirmaciones tradicionalmente aceptadas sobre un modelo analítico son:
- Un modelo es una representación simplificada de la realidad.
- Un modelo es una forma matemática de describir la relación entre una variable de respuesta y un conjunto de variables independientes.
- Un modelo se puede ver como: (a) Una teoría sobre cómo se generaron los datos y (b) Una forma útil de resumir los datos.
- A un modelo no se le exige que sea verdadero, sino que sea útil, de acuerdo a los objetivos para los cuales fue creado.
- Todos los modelos son errados, pero algunos son útiles.
De manera general, un modelo analítico puede verse como un resumen de la información disponible. Los modelos se utilizan principalmente para entender dinámicas del mercado, prever el futuro, simular consecuencias ante cambios, evaluar acciones pasadas, etc.
Los modelos analíticos más comunes son: modelos de regresión, modelos de series temporales, árboles de decisión, redes neuronales, etc.
Cuando se quiere hacer uso de un modelo, se suele identificar:
- output : variable dependiente, variable respuesta, variable objetivo.
- input(s) : variable(s) independiente(s), predictor(es), o simplemente feature(s).
Las tecnicas o modelos analíticos utilizados dependen del output o target. En general, se trabaja con outputs binarios (1-0), outputs continuos o, más recientemente, datos no estructurados.
La diagnosis de la calidad de los modelos depende del tipo de output analizado.