Representación conceptual de un modelo de IA abierto al que se le extrae el módulo de visión y se reemplaza por uno propio

Esta semana leía que Pinterest tiene 620 millones de usuarios activos al mes. Cada vez que alguien busca un sofá mid-century o un outfit para una boda, hay un modelo de visión por computadora procesando imágenes, comparando, recomendando. Ahora imagina el coste de llamar a un modelo frontier para cada una de esas peticiones. No es una estrategia. Es una factura.

El CTO Matt Madrigal lo contó en el podcast Beyond the Pilot de VentureBeat: su equipo redujo los costes de inferencia de IA un 90% y mejoró la precisión un 30%. ¿Cómo? Arrancando el cerebro visual de Qwen3-VL y poniendo uno propio.

El problema de llamar a una API por cada imagen

Cuando integras un modelo frontier como Qwen3-VL, el flujo típico es: llega una imagen, el modelo la procesa, devuelve una representación (embedding), y sobre eso trabajas. El problema es que cada petición cuesta dinero y tiempo. Y cuando tienes 620 millones de usuarios explorando decenas de imágenes cada uno, los números no cuadran.

Madrigal lo explica claro: sin sus propios embeddings, tendrías que codificar cada imagen una por una en tiempo real. La latencia resultante es "20 veces peor". No es un problema de optimización fina — es un problema estructural.

La cirugía: arrancar el encoder visual de Qwen

El equipo de Pinterest hizo algo que suena radical pero que demuestra el poder del open source con licencia Apache: literalmente "arrancaron" la capa de encoder visual de Qwen3-VL y la reemplazaron con embeddings multimodales propietarios, entrenados sobre los datos únicos de Pinterest.

¿Qué ganan con esto? Que los embeddings se pueden precomputar offline. Cada pin, cada imagen, cada metadato se procesa por adelantado. Cuando un usuario llega, el sistema ya tiene las representaciones listas. No hay que llamar a ningún modelo en runtime para entender qué hay en una imagen. Es como tener la biblioteca catalogada antes de que llegue el lector.

"Si tienes datos realmente únicos y afinas un modelo open source con ellos, la calidad de los datos pesa más que el tamaño del modelo", dijo Madrigal. Una frase que debería estar enmarcada en toda oficina de IA.

Más que visión: el taste graph

Esto no es solo un ejercicio de optimización. Detrás hay un concepto más interesante: el "taste graph" o grafo de gustos. Pinterest no es un buscador tradicional — la gente no llega sabiendo lo que quiere, llega explorando. El reto es capturar gustos cambiantes y traducirlos en recomendaciones.

Madrigal construyó un grafo de preferencias (no un grafo social) que combina representational learning con estructura de grafo. Cada usuario tiene un embedding que evoluciona con sus interacciones. Y el sistema navega ese grafo para guiar a la gente desde "inspiración" hasta "intención de compra".

La clave está en que, al tener los embeddings propietarios, el modelo entiende matices que un modelo genérico nunca captaría. No es lo mismo "mid-century modern" que "Nantucket aesthetic", y un modelo entrenado en datos genéricos de internet no distingue eso. El modelo de Pinterest sí.

Qué aprendemos de esto

Primero, que el open source con licencias permisivas (Apache) no es solo para ahorrar costes de licencia. Es para poder hacer cirugía mayor sobre los modelos. Si Qwen fuera cerrado, Pinterest no podría haber arrancado su encoder visual y puesto el suyo.

Segundo, que la personalización extrema de un modelo más pequeño puede superar a un modelo frontier genérico. Datos propietarios + fine-tuning bien hecho > modelo gigante sin contexto.

Y tercero, que cuando diseñas para 620 millones de usuarios, las decisiones de arquitectura no son teóricas. Cada capa que puedas precomputar, cada llamada API que puedas evitar, es un ahorro que se multiplica millones de veces al día. No es micro-optimización. Es el negocio.