#Cybersecurity 28 Feb. 2025 (Click here to view the English version)

Référentiels GitHub exposés : comment le cache de Copilot a créé un risque de sécurité

By Kobi Shmueli

Une vulnérabilité de sécurité importante a été découverte dans GitHub Copilot, l'assistant de code basé sur l'IA de Microsoft. Le problème est lié au système de mise en cache de Bing. Lorsque les référentiels publics sont devenus privés, le cache de Bing a conservé les anciennes données, ce qui a permis à Copilot de suggérer des extraits de code à partir de ces référentiels. Cela a exposé des informations sensibles, ce qui a eu un impact sur des entreprises comme Google, IBM, PayPal et même Microsoft elle-même.

Comment fonctionne la vulnérabilité

Le problème provient de l'indexation et de la mise en cache des référentiels publics par Bing. Lorsque le statut d'un référentiel passe de public à privé, les données mises en cache ne sont pas rapidement mises à jour ou supprimées. Par conséquent, Copilot a continué à fournir des suggestions basées sur ce cache obsolète, ce qui a conduit à l'exposition involontaire de la propriété intellectuelle, des clés d'accès, des jetons de sécurité et des packages logiciels internes. Il ne s'agit pas d'une faille directe de Copilot ou de GitHub, mais d'une conséquence du comportement de mise en cache de Bing.

Découverte et impact

L'entreprise israélienne de cybersécurité Lasso a identifié ce problème lorsqu'elle a découvert que son référentiel GitHub privé était toujours accessible via les suggestions de Copilot. Une enquête plus approfondie a révélé que plus de 16 000 organisations étaient concernées, avec plus de 300 identifiants de sécurité privés et plus de 100 progiciels internes en danger. Cela a soulevé d'importantes préoccupations en matière de sécurité concernant la protection de la propriété intellectuelle et le risque de fuite d'informations confidentielles.

Réponse de Microsoft et préoccupations persistantes

Après avoir été informé du problème en novembre 2024, Microsoft a mis à jour ses politiques de sécurité en janvier 2025. L'accès public au cache de Bing a été restreint, dans le but de réduire toute exposition supplémentaire. Cependant, des inquiétudes persistent quant à la persistance des données mises en cache et au potentiel de vulnérabilités similaires dans d'autres outils pilotés par l'IA. Cet incident met en évidence la complexité de la confidentialité des données dans les systèmes d'IA, en particulier pour les plateformes s'appuyant sur de vastes ensembles de données pour l'apprentissage automatique.

Réactions de la communauté et préoccupations éthiques

L'incident a suscité des débats sur les autorisations de Copilot, en particulier sur son accès étendu en lecture et en écriture aux référentiels publics et privés. Les développeurs exigent davantage de transparence sur la manière dont Copilot accède et utilise le code des référentiels privés. Cette situation a alimenté des inquiétudes plus larges concernant l'éthique de l'IA et la confidentialité des données.

Recommandations pour les développeurs et les organisations

Auditer l'historique du référentiel : examinez l'historique de tout référentiel qui a été public pour des données sensibles. Même si un référentiel a été public pendant une courte période, des outils automatisés peuvent analyser rapidement GitHub à la recherche d'informations sensibles telles que des clés d'accès, des noms d'utilisateur, des mots de passe et d'autres secrets.
Faire pivoter les clés et les informations d’identification : remplacez toutes les clés d’accès ou les informations d’identification qui auraient pu être exposées.
Utilisez des pratiques de codage sécurisées : évitez de stocker des informations sensibles telles que des clés API dans le code source. Utilisez plutôt des variables d'environnement ou des outils de gestion des secrets sécurisés.
Surveiller les accès : implémentez des solutions de surveillance pour détecter les accès non autorisés ou les activités inhabituelles liées à vos référentiels.
Exigez de la transparence et du contrôle : plaidez pour que des plateformes comme GitHub et Microsoft offrent davantage de transparence et de contrôle sur la manière dont les outils d’IA accèdent aux données mises en cache et les utilisent.
Vérifiez régulièrement les autorisations : vérifiez périodiquement les autorisations accordées à Copilot et à d'autres outils tiers, en limitant l'accès à ce qui est nécessaire uniquement.
Vérifiez quels outils d’IA ont accès : vérifiez régulièrement quels outils d’IA ont accès à vos référentiels GitHub, non seulement pour ce problème, mais également comme bonne pratique pour protéger les informations sensibles à l’avenir.
Restreindre la création de référentiels publics : limitez la possibilité de créer des référentiels publics à des personnes spécifiques au sein de l'organisation. Consultez les équipes de sécurité et juridiques avant de rendre un référentiel public afin de garantir le respect des réglementations en matière de confidentialité et de protection de la propriété intellectuelle.
Utiliser des comptes distincts pour les référentiels publics : envisagez de créer un compte d’organisation distinct uniquement pour les référentiels publics afin de minimiser le risque d’exposition accidentelle d’informations internes sensibles.

Conséquences commerciales et gestion des risques

Cet incident n’est pas seulement un problème technique ; il présente des risques commerciaux importants. Les fuites de données peuvent nuire à la réputation de la marque, entraîner une perte de confiance des clients et entraîner des sanctions juridiques en cas de non-respect des réglementations sur la confidentialité des données. Pour les entreprises qui exploitent l’IA dans leurs produits, cela sert de rappel à la nécessité de mettre en œuvre des pratiques de sécurité des données robustes. Les équipes de vente et de marketing doivent être proactives dans la communication des mesures de sécurité aux clients afin de maintenir leur crédibilité et leur confiance.

Réflexions finales

Cet incident illustre les défis liés à la confidentialité des données dans les systèmes d’IA et souligne la nécessité de politiques de données transparentes et de pratiques de sécurité robustes. Les développeurs et les organisations doivent être vigilants quant à la manière dont leurs données sont mises en cache et consultées, en particulier lorsqu’ils utilisent des outils basés sur l’IA qui s’appuient sur des référentiels publics. En sécurisant de manière proactive les informations sensibles, en révisant régulièrement les autorisations d’accès et en plaidant pour une meilleure transparence de la part des fournisseurs de technologie, la communauté des développeurs peut atténuer les risques d’exposition des données.

Restez gelé ! ❄️

-Kobi.

Share Article