#Cybersecurity 28 Feb. 2025 (Click here to view the English version)

Repositorios de GitHub expuestos: cómo el caché de Copilot creó un riesgo de seguridad

By Kobi Shmueli

Se ha descubierto una importante vulnerabilidad de seguridad en GitHub Copilot, el asistente de código basado en inteligencia artificial de Microsoft. El problema está relacionado con el sistema de almacenamiento en caché de Bing. Cuando los repositorios públicos se volvieron privados, la caché de Bing retuvo los datos antiguos, lo que permitió a Copilot sugerir fragmentos de código de estos repositorios. Esto expuso información confidencial, lo que afectó a empresas como Google, IBM, PayPal e incluso a la propia Microsoft.

Cómo funciona la vulnerabilidad

El problema se origina en la indexación y el almacenamiento en caché de repositorios públicos por parte de Bing. Cuando el estado de un repositorio cambia de público a privado, los datos almacenados en caché no se actualizan ni se eliminan de inmediato. Como resultado, Copilot siguió brindando sugerencias basadas en este caché obsoleto, lo que provocó la exposición involuntaria de propiedad intelectual, claves de acceso, tokens de seguridad y paquetes de software internos. Esto no es una falla directa de Copilot o GitHub, sino una consecuencia del comportamiento de almacenamiento en caché de Bing.

Descubrimiento e impacto

La empresa israelí de ciberseguridad Lasso identificó este problema cuando descubrió que su repositorio privado de GitHub seguía siendo accesible a través de las sugerencias de Copilot. Una investigación posterior reveló que más de 16.000 organizaciones se vieron afectadas, con más de 300 credenciales de seguridad privadas y más de 100 paquetes de software internos en riesgo. Esto generó importantes preocupaciones de seguridad sobre la protección de la propiedad intelectual y el riesgo de fuga de información confidencial.

Respuesta de Microsoft y preocupaciones actuales

Tras ser informada del problema en noviembre de 2024, Microsoft actualizó sus políticas de seguridad en enero de 2025. Restringieron el acceso público a la memoria caché de Bing, con el objetivo de reducir una mayor exposición. Sin embargo, persisten las preocupaciones sobre la persistencia de los datos almacenados en caché y la posibilidad de que se produzcan vulnerabilidades similares en otras herramientas impulsadas por IA. Este incidente pone de relieve las complejidades de la privacidad de los datos en los sistemas de IA, especialmente en el caso de las plataformas que dependen de grandes conjuntos de datos para el aprendizaje automático.

Reacciones de la comunidad y preocupaciones éticas

El incidente ha suscitado debates sobre los permisos de Copilot, en particular su amplio acceso de lectura y escritura a repositorios públicos y privados. Los desarrolladores exigen más transparencia sobre cómo Copilot accede y utiliza el código de los repositorios privados. Esta situación ha alimentado preocupaciones más amplias sobre la ética de la IA y la privacidad de los datos.

Recomendaciones para desarrolladores y organizaciones

Historial de auditoría del repositorio: revise el historial de cualquier repositorio que haya sido público en algún momento para buscar datos confidenciales. Incluso si un repositorio fue público durante un breve período, las herramientas automatizadas pueden escanear rápidamente GitHub en busca de información confidencial, como claves de acceso, nombres de usuario, contraseñas y otros secretos.
Rotar claves y credenciales: reemplace cualquier clave de acceso o credencial que pueda haber quedado expuesta.
Utilice prácticas de codificación seguras: evite almacenar información confidencial, como claves API, en el código fuente. En su lugar, utilice variables de entorno o herramientas de gestión de secretos seguros.
Monitorear el acceso: Implemente soluciones de monitoreo para detectar acceso no autorizado o actividad inusual relacionada con sus repositorios.
Exigir transparencia y control: abogar por plataformas como GitHub y Microsoft que brinden más transparencia y control sobre cómo las herramientas de IA acceden y utilizan los datos almacenados en caché.
Revisar los permisos periódicamente: revise periódicamente los permisos otorgados a Copilot y otras herramientas de terceros, limitando el acceso solo a lo necesario.
Verifique qué herramientas de IA tienen acceso: revise periódicamente qué herramientas de IA tienen acceso a sus repositorios de GitHub, no solo por este problema, sino como una práctica recomendada para proteger información confidencial en el futuro.
Restringir la creación de repositorios públicos: limite la capacidad de crear repositorios públicos a personas específicas dentro de la organización. Consulte con los equipos de seguridad y legales antes de hacer público cualquier repositorio para garantizar el cumplimiento de las normas de privacidad y las protecciones de propiedad intelectual.
Utilice cuentas separadas para repositorios públicos: considere crear una cuenta de organización separada únicamente para repositorios públicos a fin de minimizar el riesgo de exponer accidentalmente información interna confidencial.

Implicaciones empresariales y gestión de riesgos

Este incidente no es solo un problema técnico, sino que plantea importantes riesgos comerciales. Las filtraciones de datos pueden dañar la reputación de la marca, provocar la pérdida de confianza de los clientes y dar lugar a sanciones legales debido al incumplimiento de las normas de privacidad de datos. Para las empresas que utilizan la IA en sus productos, esto sirve como recordatorio para implementar prácticas sólidas de seguridad de datos. Los equipos de ventas y marketing deben ser proactivos a la hora de comunicar las medidas de seguridad a los clientes para mantener la credibilidad y la confianza de los clientes.

Reflexiones finales

Este incidente ilustra los desafíos que plantea la privacidad de los datos en los sistemas de IA y subraya la necesidad de contar con políticas de datos transparentes y prácticas de seguridad sólidas. Los desarrolladores y las organizaciones deben estar atentos a cómo se almacenan en caché sus datos y cómo se accede a ellos, especialmente cuando se utilizan herramientas impulsadas por IA que dependen de repositorios públicos. Al proteger de forma proactiva la información confidencial, revisar periódicamente los permisos de acceso y abogar por una mayor transparencia por parte de los proveedores de tecnología, la comunidad de desarrolladores puede mitigar los riesgos de exposición de los datos.

¡Quédate congelado! ❄️

-Kobi.

Share Article