DeepSeek sacude el mundo tecnológico
DeepSeek ha sacudido el mundillo tecnológico con tanta fuerza que parece haber pinchado la burbuja de la IA. Sus credenciales son desde luego impresionantes, porque en teoría es un ejemplo de que es posible crear modelos de IA potentes y muy avanzados con consumo de recursos y un coste mucho más bajo que el de otros equivalentes, como ChatGPT, por poner un ejemplo muy conocido.
Problemas potenciales con el uso de datos
Con todo, al final la base utilizada para entrenar estos modelos es la misma, tanto a nivel de hardware como de datos, y es aquí donde DeepSeek podría tener un importante problema, ya que tanto Microsoft como OpenAI están investigando el posible uso de datos de OpenAI de forma «inapropiada». Si esto se confirma, DeepSeek habría utilizado datos robados para entrenar a su IA.
La narración de los hechos
La historia es simple. A finales de 2024 en Microsoft detectaron actividad inusual por parte de cuentas de desarrolladores vinculadas a DeepSeek que, en teoría, estuvieron exfiltrando grandes cantidades de datos a través de la API OpenAI. Los desarrolladores pueden utilizar esta API para integrar modelos en sus propias aplicaciones, pero la destilación de resultados es una violación de las políticas de uso.
Profundizando en la destilación de resultados
Eso es precisamente lo que podría haber hecho DeepSeek, ¿pero en qué consiste exactamente la destilación de resultados? Pues muy sencillo, es una técnica en la que un modelo aprende de otro modelo, un enfoque que resulta mucho más eficaz y sencillo. El modelo «estudiante» hace una gran cantidad de preguntas al modelo «maestro» o principal, de manera que el aprendizaje del primero se produce de una manera parecida a la enseñanza humana.
Reacciones y declaraciones
El presidente Donald Trump comentó que hay «bastante evidencia» de que DeepSeek se aprovechó de los modelos de OpenAI para entrenar su modelo, y que esto es una violación clara de sus políticas de uso. Por su parte OpenAI comentó que tienen constancia de que muchas compañías no cesan en su intento de destilar modelos de compañías estadounidenses líderes en IA, y hace un llamamiento a la protección de sus datos y modelos.
Implicaciones para la seguridad nacional
Estados Unidos se está tomando muy en serio el auge de DeepSeek, porque cree que podría llegar a representar un peligro para la seguridad nacional, especialmente por todo lo que representa en términos de censura en temas históricos tan importantes como lo ocurrido durante las protestas en la Plaza de Tiananmén en 1989, que fueron reprimidas de forma violenta por el ejército chino, que no dudó en enviar soldados y tanques contra civiles.
artículo original de: https://www.muycomputer.com/2025/01/29/problemas-en-el-paraiso-deepseek-habria-sido-entrenada-con-datos-robados-a-openai/