La IA se puede hackear desde dentro y da mucho miedo
La IA es poderosa pero también vulnerable; el artículo advierte sobre fallos producidos por errores humanos y sobre ataques deliberados para manipular modelos. Investigadores de IBM, Tom Kran y Alexandra Jonker, explican el data poisoning o envenenamiento de datos: alterando fuentes de entrenamiento para que el modelo aprenda patrones erróneos y funcione según el atacante. Las consecuencias pueden incluir sesgos discriminatorios, pérdida de precisión y, en fases avanzadas, la activación de puertas traseras o enlaces maliciosos. Otra vía es el jailbreak, que busca desactivar protocolos de seguridad, y el prompt injection, donde un atacante induce instrucciones engañosas para que el modelo ignore sus reglas. TrendAI describe estas vulnerabilidades como manipulación de instrucciones a través de la ventana de contexto, donde el sistema no distingue entre órdenes del desarrollador y texto del usuario. El texto advierte además que estas vulnerabilidades pueden abrir puertas a acciones maliciosas y que basta con un porcentaje pequeño de datos envenenados para corromper el aprendizaje. Defenderse exige controles de calidad, verificación de datos y pruebas de seguridad en múltiples capas.






