Machine Learning y/o Estadística
¿Qué diferencias hay?
Enfoques de Modelización
Statistical Learning es un término presentado en Gareth James (2014). Se refiere a un área de reciente desarrollo en estadística, que se combina con desarrollos paralelos de ciencias de la computación (específicamente, Machine Learning). Se refiere a un ámplio conjunto de herramientas para entender datos.
Otra forma de clasificar los enfoques para modelizar se basa en su objetivo y forma de construcción. Cuando se prioriza la interpretación del modelo, buscando que expliquen las relaciones entre output e inputs, se habla de modelos estadísticos. Cuando se prioriza la precisión de la previsión se habla de algoritmos de machine learning.
En otras palabras, hay un enfoque que asume que los datos son generados por um modelo probabilístico (modelación estadística) y otro enfoque que considera que el mecanismo de generación de los datos es desconocida (modelación algorítmica).
Tipos de modelos analíticos: Modelos Estadísticos y Machine Learning1. Los primeros hacen uso de la probabilidad (inferencia), son explicativos y predictivos. Los segundos suelen ser ‘cajas negras’, se centran en la previsión.
Statistical Learning se refiere a un conjunto de herramientas para modelar y comprender conjuntos de datos complejos.
Machine Learning
El objetivo de los modelos o algoritmos de Machine Learning es enseñar a las computadoras a hacer lo que es natural para humanos y animales: aprender de la experiencia. Estos algoritmos utilizan métodos computacionales para “aprender” información directamente de los datos, sin depender de una ecuación predeterminada como modelo. Los algoritmos mejoran su rendimiento de forma adaptativa conforme aumenta la cantidad de muestras (datos) disponibles para el aprendizaje.
El Machine Learning no requiere hipótesis previas sobre las relaciones subyacentes entre las variables (o inputs). Sólo se deben ingresar todos los datos que se diponga, y el algoritmo procesa los datos y descubre patrones, con los cuales puede hacer predicciones sobre el nuevo conjunto de datos. El aprendizaje automático trata un algoritmo como una black box (caja negra), siempre que funcione. En otras palabras, su principal objetivo es la previsión.
Modelos Estadísticos
Por el contrario, los estadísticos deben comprender cómo se recopilaron los datos, las propiedades estadísticas de los estimadores, la distribución subyacente de la población que están estudiando y los tipos de propiedades que esperaría si hiciera el experimento muchas veces. Necesita saber exactamente lo que está haciendo y proponer parámetros que le proporcionen el poder predictivo.
La diagnosis de la calidad predictiva de los modelos depende del output analizado. No depende el tipo de enfoque de modelización utilizado.
[1] Fuente: http://www.kdnuggets.com/2016/11/machine-learning-vs-statistics.html
[2] Ver https://www.quora.com/What-is-the-difference-between-statistics-and-machine-learning