#Cybersecurity 28 Feb. 2025 (Click here to view the English version)

Repository GitHub esposti: come la cache di Copilot ha creato un rischio per la sicurezza

By Kobi Shmueli

È stata scoperta una significativa vulnerabilità di sicurezza in GitHub Copilot, l'assistente di codice basato sull'intelligenza artificiale di Microsoft. Il problema è legato al sistema di caching di Bing. Quando i repository pubblici sono stati resi privati, la cache di Bing ha mantenuto i vecchi dati, consentendo a Copilot di suggerire frammenti di codice da questi repository. Ciò ha esposto informazioni sensibili, con un impatto su aziende come Google, IBM, PayPal e persino Microsoft stessa.

Come funziona la vulnerabilità

Il problema ha origine dall'indicizzazione e dalla memorizzazione nella cache di Bing dei repository pubblici. Quando lo stato di un repository cambia da pubblico a privato, i dati memorizzati nella cache non vengono aggiornati o rimossi tempestivamente. Di conseguenza, Copilot ha continuato a fornire suggerimenti basati su questa cache obsoleta, portando all'esposizione involontaria di proprietà intellettuale, chiavi di accesso, token di sicurezza e pacchetti software interni. Questo non è un difetto diretto di Copilot o GitHub, ma una conseguenza del comportamento di memorizzazione nella cache di Bing.

Scoperta e impatto

La società di sicurezza informatica israeliana Lasso ha identificato questo problema quando ha scoperto che il suo repository GitHub privato era ancora accessibile tramite i suggerimenti di Copilot. Ulteriori indagini hanno rivelato che più di 16.000 organizzazioni sono state colpite, con oltre 300 credenziali di sicurezza private e più di 100 pacchetti software interni a rischio. Ciò ha sollevato notevoli preoccupazioni sulla sicurezza in merito alla protezione della proprietà intellettuale e al rischio di fuga di informazioni riservate.

La risposta di Microsoft e le preoccupazioni in corso

Dopo essere stata informata del problema a novembre 2024, Microsoft ha aggiornato le sue policy di sicurezza a gennaio 2025. Hanno limitato l'accesso pubblico alla cache di Bing, con l'obiettivo di ridurre un'ulteriore esposizione. Tuttavia, persistono preoccupazioni sulla persistenza dei dati memorizzati nella cache e sul potenziale di vulnerabilità simili in altri strumenti basati sull'intelligenza artificiale. Questo incidente evidenzia le complessità della privacy dei dati nei sistemi di intelligenza artificiale, in particolare per le piattaforme che si basano su vasti set di dati per l'apprendimento automatico.

Reazioni della comunità e preoccupazioni etiche

L'incidente ha scatenato dibattiti sui permessi di Copilot, in particolare sul suo ampio accesso in lettura e scrittura a repository pubblici e privati. Gli sviluppatori chiedono maggiore trasparenza su come Copilot accede e utilizza il codice da repository privati. Questa situazione ha alimentato preoccupazioni più ampie sull'etica dell'IA e sulla privacy dei dati.

Raccomandazioni per sviluppatori e organizzazioni

Controlla la cronologia del repository: esamina la cronologia di qualsiasi repository che sia mai stato pubblico per dati sensibili. Anche se un repository è stato pubblico per un breve periodo, gli strumenti automatizzati possono rapidamente scansionare GitHub per informazioni sensibili come chiavi di accesso, nomi utente, password e altri segreti.
Ruota chiavi e credenziali: sostituisci tutte le chiavi di accesso o le credenziali che potrebbero essere state esposte.
Utilizzare pratiche di codifica sicure: evitare di archiviare informazioni sensibili come le chiavi API nel codice sorgente. Utilizzare invece variabili di ambiente o strumenti di gestione dei segreti sicuri.
Monitoraggio degli accessi: implementa soluzioni di monitoraggio per rilevare accessi non autorizzati o attività insolite relative ai tuoi repository.
Richiedi trasparenza e controllo: promuovi che piattaforme come GitHub e Microsoft forniscano maggiore trasparenza e controllo sul modo in cui gli strumenti di intelligenza artificiale accedono e utilizzano i dati memorizzati nella cache.
Rivedi regolarmente le autorizzazioni: rivedi periodicamente le autorizzazioni concesse a Copilot e ad altri strumenti di terze parti, limitando l'accesso solo a ciò che è necessario.
Controlla quali strumenti di intelligenza artificiale hanno accesso: controlla regolarmente quali strumenti di intelligenza artificiale hanno accesso ai tuoi repository GitHub, non solo per questo problema, ma anche come buona pratica per salvaguardare le informazioni sensibili in futuro.
Limita la creazione di repository pubblici: limita la possibilità di creare repository pubblici a persone specifiche all'interno dell'organizzazione. Consulta i team di sicurezza e legali prima di rendere pubblico qualsiasi repository per garantire la conformità alle normative sulla privacy e alle protezioni della proprietà intellettuale.
Utilizzare account separati per i repository pubblici: valutare la possibilità di creare un account aziendale separato esclusivamente per i repository pubblici, per ridurre al minimo il rischio di esporre accidentalmente informazioni interne sensibili.

Implicazioni aziendali e gestione del rischio

Questo incidente non è solo un problema tecnico; pone rischi aziendali significativi. Le perdite di dati possono danneggiare la reputazione del marchio, portare alla perdita di fiducia dei clienti e comportare sanzioni legali per la mancata conformità alle normative sulla privacy dei dati. Per le aziende che sfruttano l'intelligenza artificiale nei loro prodotti, questo serve come promemoria per implementare solide pratiche di sicurezza dei dati. I team di vendita e marketing dovrebbero essere proattivi nel comunicare le misure di sicurezza ai clienti per mantenere la credibilità e la fiducia dei clienti.

Considerazioni finali

Questo incidente illustra le sfide della privacy dei dati nei sistemi di intelligenza artificiale e sottolinea la necessità di policy sui dati trasparenti e di solide pratiche di sicurezza. Sviluppatori e organizzazioni devono essere vigili su come i loro dati vengono memorizzati nella cache e a cui si accede, soprattutto quando si utilizzano strumenti basati sull'intelligenza artificiale che si basano su repository pubblici. Proteggendo in modo proattivo le informazioni sensibili, esaminando regolarmente le autorizzazioni di accesso e sostenendo una maggiore trasparenza da parte dei fornitori di tecnologia, la comunità degli sviluppatori può mitigare i rischi di esposizione dei dati.

Rimani congelato! ❄️

-Kobi.

Share Article