Lecciones reales: construir un sistema de trading con ML

Sistema de trading con machine learning, concepto abstracto

Si buscas en谷歌 "machine learning trading system" te salen cientos de tutoriales con gráficos preciosos y accuracy del 94%. Todos mienten. O más bien: omiten la parte difícil.

Llevo varios años experimentando con sistemas automatizados de trading. He pasado por fases de euforia (primer modelo que funcionaba en backtesting), frustración (el modelo se rompió al ponerlo en producción), y aprendizaje real. Esto es lo que ningún tutorial te cuenta.

El backtesting es una máquina de mentiras

Es la trampa más común, y quien dice no haber caído, miente. Ajustas hiperparámetros, añades features, el accuracy sube al 92% y piensas que lo tienes. Metes dinero real y el primer mes pierdes un 8%.

El problema no es el modelo. Es que el backtesting valida tu hipótesis sobre datos pasados que ya conoces. El mercado, en cambio, se mueve en direcciones que tu modelo no ha visto nunca. Es como estudiar para un examen con las respuestas y luego quejarte de que las preguntas eran diferentes.

La solución no es hacer backtesting más sofisticado. Es asumir que tu backtesting miente, y construir sistemas que sigan funcionando cuando el mercado haga algo que no esperabas. Lo que importa no es el accuracy en test, sino la capacidad de no destruirse cuando las condiciones cambian.

Los datos importan más que el modelo

Hay un patrón que se repite en todos los proyectos de trading algorítmico que he visto: al principio la gente se obsesiona con el modelo — XGBoost vs LSTM, transformers, redes neuronales profundas. Y al final el problema siempre está en los datos.

Datos sucios. Datos con look-ahead bias. Datos que incluyen información que no habrías tenido en el momento real de la operación. Datos con splits que no se ajustaron correctamente. Datos de fuentes que cambiaron su formato sin avisar.

La infraestructura de datos —la parte aburrida, la que no aparece en los threads de Hacker News— es lo que separa un sistema que funciona durante meses de uno que se rompe cada dos semanas. Pipelines que validan la integridad, alertas cuando una fuente deja de responder, sistemas que detectan anomalías antes de que el modelo las aprenda como si fueran señal.

Dedicar el 80% del tiempo a los datos y el 20% al modelo. Esa proporción parece exagerada hasta que pruebas la inversa y te das cuenta de por qué la mayoría de los proyectos fracasan.

Los costes ocultos que nadie calcula

En los tutoriales el trading es gratis: pones una orden, ganas dinero. En la realidad cada operación tiene costes que se comen los márgenes antes de que te des cuenta.

El spread, las comisiones, el slippage cuando operas con tamaño real y no con el paper trading de 100 acciones. Y luego está el coste de infraestructura: el servidor que corre 24/7, la API de datos de mercado, el tiempo que pasas monitorizando el sistema en vez de hacer otra cosa.

Un sistema que gana un 2% mensual en backtesting pero pierde un 1% en costes reales no es un sistema rentable. Es un hobby caro. Cuando ajustas todas las variables —incluyendo el coste de tu propio tiempo— te llevas sorpresas.

Lo que realmente funciona

Con el tiempo he llegado a una conclusión que al principio me resistía a aceptar: los sistemas más simples son los que sobreviven. Un modelo lineal con tres features bien escogidas y reglas de risk management estrictas le gana por goleada a una red neuronal con cincuenta variables, después de seis meses en producción.

No porque el modelo lineal sea mejor, sino porque es más fácil de entender, depurar y mantener. Cuando algo falla —y va a fallar— puedes abrir el capó y ver exactamente qué está pasando. Con una red neuronal solo ves una caja negra que de repente tomó decisiones extrañas.

Las tres reglas que mantengo hoy:

Risk management antes que predicción. No importa lo bueno que sea tu modelo si una mala racha acaba con tu capital antes de que el mercado vuelva a tu favor.
Simplicidad operativa. Si no puedes explicar tu estrategia en dos frases, no la pongas en producción.
Monitoreo constante. El sistema que funciona solo no existe. Todos necesitan supervisión, alertas y ajustes periódicos.

Más allá del hype

Construir un sistema de trading con ML es técnicamente fascinante, pero la mayoría de la gente que empieza este camino abandona a los pocos meses. No porque sea imposible, sino porque subestiman la parte operativa. El modelo es la parte fácil. Todo lo demás —datos, infraestructura, costes, mantenimiento— es donde realmente se construye o se destruye el proyecto.

Si estás pensando en empezar, mi mejor consejo es: empieza pequeño, asume que tu primer modelo va a fallar, y diseña el sistema para aprender de ese fallo en vez de pretender evitarlo. El mercado no perdona el exceso de confianza, pero recompensa la perseverancia informada.

CubeLabs

Lecciones reales construyendo un sistema de trading con ML

El backtesting es una máquina de mentiras

Los datos importan más que el modelo

Los costes ocultos que nadie calcula

Lo que realmente funciona

Más allá del hype

Lecciones reales construyendo un sistema de trading con ML

El backtesting es una máquina de mentiras

Los datos importan más que el modelo

Los costes ocultos que nadie calcula

Lo que realmente funciona

Más allá del hype

📖 Lecturas relacionadas