Defensa de Trabajo de Fin de Máster

Detección de Fraudes en Tarjetas de Crédito en el Sector Bancario

Autores: Ronny Zapata y Miguel Caballero

Tutor: Manuel Lopez

Fecha: 10/11/2025

El Problema: Una Amenaza Creciente y Sofisticada

El fraude con tarjetas de crédito causa pérdidas millonarias y daña la confianza del cliente. Los métodos tradicionales son insuficientes ante la complejidad y evolución de los nuevos patrones de fraude.

Impacto Directo

Pérdidas económicas sustanciales para bancos y titulares de tarjetas.

Erosión de Confianza

Afecta la seguridad del consumidor en los sistemas de pago electrónico.

Necesidad Estratégica

La detección robusta es un pilar para la sostenibilidad del sector financiero.

Nuestra Misión: Encontrar la Mejor Defensa

El objetivo principal de este estudio es identificar las técnicas de Machine Learning más eficientes y robustas para detectar transacciones fraudulentas, proporcionando una guía clara para su implementación en el sector bancario.

Implementar

Desarrollar y entrenar un conjunto diverso de modelos de ML, desde árboles de decisión hasta redes neuronales y XGBoost.

Comparar

Evaluar rigurosamente la efectividad de cada modelo utilizando métricas clave como F1-Score, Recall y AUC PR.

Recomendar

Proponer los enfoques más adecuados basados en los hallazgos empíricos, considerando distintos objetivos operativos.

El Campo de Batalla: Un Dataset Realista y Complejo

Utilizamos un dataset público de Kaggle con transacciones europeas reales. Su principal característica y nuestro mayor desafío es el extremo desbalanceo entre clases.

De 284,807 transacciones, ¡solo el 0.17% son fraudulentas! Esto exige estrategias especializadas.

Nuestro Arsenal: Los Modelos Bajo la Lupa

Evaluamos un espectro de algoritmos para obtener una visión completa, combinando modelos supervisados y no supervisados.

Modelos Supervisados

Árbol de Decisión (DT): Simple e interpretable.
Máquina de Soporte Vectorial (SVM): Potente para relaciones no lineales.
Red Neuronal (NN): Capaz de aprender patrones muy complejos.
XGBoost: Un estándar de la industria por su alto rendimiento.

Modelos No Supervisados

Isolation Forest: Eficaz para aislar anomalías.
DBSCAN: Detecta outliers basándose en la densidad de los datos.
Rol: Usados como sistema complementario para detectar fraudes novedosos.

Táctica Clave: Nivelando el Terreno de Juego

Para que los modelos aprendan a identificar el fraude correctamente, primero debemos "enseñarles" cómo es. Abordamos el desbalanceo de datos con dos técnicas avanzadas.

SMOTE (Synthetic Minority Over-sampling Technique)

Crea nuevas muestras de fraude "sintéticas" pero realistas, basadas en las transacciones fraudulentas existentes. Es como crear "avatares" de los fraudes conocidos para tener más ejemplos de los que aprender.

GANs (Redes Generativas Adversarias)

Un enfoque de vanguardia donde dos redes neuronales compiten: una "falsificadora" (Generador) crea nuevos datos de fraude y una "detective" (Discriminador) intenta distinguirlos de los reales. El resultado son datos sintéticos de altísima calidad.

Resultados: Comparativa de Modelos con SMOTE

Tras balancear los datos con SMOTE, el modelo XGBoost Optimizado demostró ser el más robusto y equilibrado, superando a los demás en las métricas más importantes.

XGBoost Optimizado logra el mejor balance, detectando el 79% de los fraudes (Recall) con una precisión del 77%.

La Sorpresa: El Poder de las Redes Neuronales con GANs

Al aumentar los datos con GANs, la Red Neuronal (NN) dio un salto cualitativo en su precisión, reduciendo drásticamente el número de falsas alarmas.

NN + SMOTE

	Pred. Legítima	Pred. Fraude
Real Legítima	56625	26
Real Fraude	22	73

NN + GAN (Opt.)

	Pred. Legítima	Pred. Fraude
Real Legítima	56639	12
Real Fraude	24	71

El modelo con GAN redujo los Falsos Positivos en más de un 50% (de 26 a 12), logrando la precisión más alta de todos los experimentos: 86%.

El Veredicto: ¿Cuál es el Mejor Defensor?

La elección del "mejor" modelo depende de la prioridad estratégica del banco: ¿maximizar la cantidad de fraudes detectados o minimizar las molestias a clientes inocentes?

XGBoost + SMOTE

Fortaleza: Mejor rendimiento general y mayor capacidad de detección (Recall del 79% y el mejor AUC PR de 0.8145).

Ideal para: Una estrategia que busca maximizar la cantidad de fraudes interceptados, aceptando un número moderado de falsas alarmas.

Red Neuronal + GAN

Fortaleza: Precisión excepcional (86%) y el F1-Score más alto (0.80), minimizando las falsas alarmas.

Ideal para: Una estrategia enfocada en reducir costes operativos y el impacto negativo en el cliente, al generar muy pocas alertas incorrectas.

Conclusiones Clave

Nuestro estudio comparativo ofrece una visión clara sobre la eficacia de distintas estrategias de Machine Learning en un escenario realista de detección de fraude.

El manejo del desbalanceo de clases con técnicas como SMOTE o GANs no es opcional, es fundamental para obtener resultados significativos.
XGBoost Optimizado se consagra como el modelo más robusto y equilibrado para una detección de fraude global.
Las GANs demuestran ser una técnica de vanguardia y extremadamente poderosa para maximizar la precisión, un factor clave en entornos operativos.
La elección final del modelo debe alinearse con la estrategia de negocio: priorizar la tasa de detección (Recall) o la fiabilidad de las alertas (Precision).

Implicaciones Prácticas para el Sector Bancario

Estos hallazgos se traducen en acciones concretas que las instituciones financieras pueden implementar para fortalecer sus sistemas de defensa contra el fraude.

Adoptar Modelos Avanzados

Ir más allá de los sistemas basados en reglas y adoptar modelos de ML como XGBoost y Redes Neuronales, que capturan patrones complejos con mayor eficacia.

Usar Métricas Correctas

Evaluar los sistemas con métricas como AUC PR y F1-Score. La "exactitud" general es una métrica engañosa en problemas de fraude.

Implementar Estrategias de Datos

Integrar técnicas de manejo de desbalanceo (SMOTE/GANs) en el ciclo de vida del desarrollo de modelos para mejorar su rendimiento.

Trabajo Futuro: La Próxima Frontera

Este estudio sienta las bases para futuras investigaciones que pueden hacer los sistemas de detección aún más potentes, inteligentes y aplicables al mundo real.

Modelos de Grafos (GNNs)

Analizar transacciones no como eventos aislados, sino como una red conectada para descubrir redes de fraude complejas.

Despliegue en Tiempo Real

Investigar la arquitectura de sistemas para que estos modelos puedan dar una respuesta en milisegundos, aprobando o bloqueando transacciones en vivo.

IA Explicable (XAI)

Integrar herramientas que expliquen "por qué" un modelo marca una transacción como fraude, para dar poder a los analistas y mejorar la transparencia.

Agradecimientos y Contacto

Gracias por su tiempo y atención.

Agradecemos a nuestro tutor, a la universidad y a todos los que nos han apoyado en este viaje.

Ronny Zapata - ronnysuero@gmail.com

Miguel Caballero - inv.e22.mc@gmail.com