Bayesian Topic Modeling: Clustering for High-Dimensional Categorical Data applied to Text Analytics
Keywords: Bayesian, Clustering, Variational Inference, Text Analytics, Topic Modeling, MixDir, R
En el contexto empresarial, entender el feedback de los clientes en encuestas, identificar reclamaciones entre muchos e-mails, identificar intervenciones urgentes en informes de mantenimiento, monitorizar el riesgo reputacional en redes sociales e identificar oportunidades de negocio son algunos de los casos donde la utilización del Topic Modeling está siendo un factor diferencial.
La analítica de textos permite encontrar ideas, conceptos y relaciones que se encuentran ‘‘escondidas’’ entre las palabras. Topic Modeling es una forma concreta de hacer analítica de textos, donde el objetivo es agrupar documentos en base a los temas que tratan. En otras palabras, consiste en realizar un análisis de conglomerados en datos tipo texto y la necesidad de trabajar con matrices de alta dimensión - donde se representan las probabilidades de ocurrencias de las palabras en los textos.
En esta charla presentamos la aplicación de un modelo no paramétrico con enfoque bayesiano a la clasificación de una colección de documentos. Utilizamos inferencia variacional porque permite aproximar la distribución a posteriori con menor coste computacional que el requerido por un algoritmo MCMC. Este enfoque, presentado en Dunson and Xing [2009] y Ahlmann-Eltze and Yau [2018], ha sido utilizado en la agrupación de datos categóricos de alta dimensión en campos diferentes a la analítica de textos. Comparamos los resultados con los obtenidos los algoritmos de Machine Learning comúnmente utilizados en esta área, comentamos posibles mejores del modelo y reflexionamos sobre la extensión del uso de este tipo en enfoque en el entorno empresarial.
Charla impartida en la III CONFERENCIA INTERNACIONAL DE PROCESOS ESTOCÁSTICOS, FENÓMENOS ALEATORIOS Y SUS APLICACIONES. Organizada por la Universidad Nacional de Ingeniría (UNI) de Lima Perú.
El evento se desarrolló del 03 – 05 de Diciembre del 2020.