Classifying incoming customer messages for an e-commerce site using supervised learning

Autor: Albañil Sánchez, Misael Andrey, Galpin, Ixent
Jazyk: angličtina
Rok vydání: 2022
Předmět:
Zdroj: Expeditio: repositorio UTadeo
Universidad de Bogotá Jorge Tadeo Lozano
instacron:Universidad de Bogotá Jorge Tadeo Lozano
Popis: Throughout the world, the provision of online goods and services has increased significantly over the last few years. We consider the case of Tango Discos, a small company in Colombia that sells entertainment products through an e-commerce website and receives customer messages through various channels, including a webform, email, Facebook and Twitter. This dataset comprises 29,970 messages collected from 2019 to 2021. Each message can be categorized as being either being a sale, request or complaint. In this work we evaluate different supervised classification models to automate the task of classifying the messages, viz. decision trees, Naive Bayes, linear Support Vector Machines and logistic regression. As the data set is unbalanced, the different models are evaluated in combination with various data balancing approaches to obtain the best performance. In order to maximize revenue, the management is interested in prioritizing messages that may result in potential sales. As such, the best model for deployment is one that minimizes false positives in the sales category, so that these are processed in a timely fashion. As such, the best performing model is found to be the Linear Support Vector Machine using the Random Over Sampler balancing technique. This model is deployed in the cloud and exposed using a RESTful interface. En todo el mundo, la adquisicion de bienes y servicios en línea ha aumentado significativamente en los últimos años. Consideramos el caso de Tango Discos, que es una pequeña empresa en Colombia que vende productos de entretenimiento a través de un sitio web de comercio electrónico y recibe mensajes de los clientes a través de varios canales, incluido un formulario web, correo electrónico, Facebook y Twitter. Este conjunto de datos comprende 29,970 mensajes recopilados entre 2019 y 2021. Cada mensaje se puede clasificar como una venta, una solicitud o una queja. En este trabajo evaluamos diferentes modelos de clasificación supervisada para automatizar la tarea de clasificar los mensajes, a saber. árboles de decisión, Naive Bayes, Máquinas de Vectores Soporte lineales y regresión logística. Como el conjunto de datos está desequilibrado, los diferentes modelos se evalúan en combinación con varias tecnicas de balanceo de datos para obtener el mejor rendimiento. Como requerimiento desde el negocio, la gerencia está interesada en priorizar los mensajes que pueden resultar en ventas potenciales. Como tal, el mejor modelo para la implementación es aquel que minimiza los falsos positivos en la categoría de ventas, para que estos se procesen de manera oportuna. Asi, se encuentra que el modelo con mejor desempeño es el lineal. Support Vector Machine utilizando la técnica de balanceo Random Over Sampler. Este modelo se implementa en la nube y se expone mediante una API RESTful.
Databáze: OpenAIRE