LLM Poisoning: qué es, por qué va en serio y cómo proteger tus modelos y tu RAG

Introducción

El LLM poisoning (envenenamiento de modelos) consiste en manipular los datos que usa un modelo (pre-entrenamiento, fine-tuning, RLHF/DPO o el corpus de un sistema RAG) para introducir sesgos, backdoors o comportamientos maliciosos que se activan con determinados triggers (palabras, fechas, dominios…). El objetivo puede ser degradar la calidad, colar desinformación o activar instrucciones peligrosas “bajo demanda”. OWASP

Lo más reciente (2025): basta un puñado de documentos

Investigación publicada en octubre de 2025 demuestra que no hace falta controlar un % del dataset para abrir una puerta trasera: ≈250 documentos pueden backdoorear modelos desde 600M hasta 13B de parámetros, incluso cuando se entrenan con cientos de miles de millones de tokens. Es decir, el coste del ataque es casi constante respecto al tamaño del modelo y del dataset.

En paralelo, el trabajo de “sleeper agents” mostró que esos backdoors pueden persistir incluso después de SFT, RL y entrenamientos adversarios; por ejemplo, escribir código seguro “si el año es 2023” y vulnerable “si el año es 2024”. Detectarlos solo por outputs es difícil; probes sobre activaciones internas ayudan más. 

Dónde y cómo se envenena

  • Pre-entrenamiento: insertar páginas/repos maliciosos en crawls públicos. OWASP
  • Fine-tuning / RLHF / DPO: datasets manipulados con instrucciones o etiquetas “tóxicas”. OWASP
  • RAG y búsqueda: contaminar wikis, blogs o PDFs que indexa tu sistema; el modelo “razona” bien… sobre fuentes malas. OWASP
  • Cadena de suministro: checkpoints, embeddings o paquetes de terceros alterados. Ojo con “slopsquatting”, donde atacantes registran paquetes inexistentes “alucinados” por LLMs de código. arXiv+1

Señales de alerta

  • Respuestas normales, pero cambian con un trigger (fecha, token, dominio, emoji…). arXiv
  • Desviaciones tras añadir documentos nuevos a tu corpus RAG. OWASP
  • El asistente de código “recomienda” paquetes que no existen (riesgo de slopsquatting). arXiv+1

Checklist de defensa (práctico y aplicable)

1) Higiene y procedencia de datos

  • Manifiestos de origen, checksums y listas blancas de dominios.
  • En RAG, curación con confianza: prioriza fuentes oficiales; desduplica y usa ranking robusto para mitigar SEO-poisoning. OWASP Gen AI Security Project+1

2) Auditoría continua

  • Canary prompts/docs en los datasets; si aparecen o cambian, hay contaminación.
  • Pruebas de triggers (fechas, tokens, dominios) antes/después de cada entrenamiento.
  • Probes sobre activaciones: mejores que el red-teaming clásico para “agentes durmientes”. Anthropic

3) Modelado robusto

  • Filtrado de outliers/influencia (influence functions, spectral signatures, clustering de activaciones).
  • Entrenamiento adversario específico contra backdoors + tests de regresión de seguridad. OWASP Gen AI Security Project

4) Cadena de suministro y despliegue

  • Verifica checkpointsembeddings y dependencias; bloquea paquetes “alucinados”.
  • Política de “no instalar paquetes inexistentes” y SCA/SBOM. TechRadar

Casos especiales: desarrolladores y slopsquatting

Estudios recientes muestran alucinaciones de paquetes en asistentes de código; atacantes registran esos nombres falsos y crean paquetes maliciosos. Mitigación: validación previa contra listas fiables, entornos de pruebas, análisis de dependencias y peer review. arXiv+1

Normativa y mejores prácticas (OWASP LLM Top 10 – 2025)

OWASP incluye Data & Model Poisoning como riesgo clave (LLM04/LLM03 según versión) y recomienda procedimientos de detección de anomalíascontroles de procedencia, endurecimiento de la cadena y pruebas de robustez. Si trabajas con datos sensibles (salud, finanzas), trátalo como riesgo operacional de primer nivel. OWASP Gen AI Security Project+2OWASP Gen AI Security Project+2


Qué es un economista (y por qué importa para la IA y el SEO)

Un economista analiza cómo se asignan recursos escasos para maximizar valor y reducir riesgos. En IA generativa, esto implica modelar incentivosgestionar riesgos de información (como el LLM poisoning) y optimizar costes y beneficios de tu estrategia de datos y automatización.
Recordatorio de mis servicios: los buscadores y la inteligencia artificial utilizan los mismos “spiders” para descubrir y priorizar información. Un buen SEO técnico y de contenidos es esencial para no quedarse atrás cuando integras IA (RAG, chatbots, analítica). Como economista colegiado, comprendo todas las áreas empresariales (finanzas, marketing, operaciones y compliance) y puedo ayudarte a implantar IA segura, con SEO que impulse ventas y procesosque reduzcan riesgos. ¿Dudas? Agenda tu discovery call gratuita de 15 minutos. Si de verdad estás comprometido con tu negocio, rellena el formulario y empezamos.

Si has llegado hasta aquí abajo, Sígueme:

💼 LinkedIn 

🎥 YouTube 

🎧 Spotify 

🍎 Apple Podcast


Comments

Leave a Reply

Your email address will not be published. Required fields are marked *