보안 엔지니어인 루크 마샬(Luke Marshall)이 GitLab Cloud의 모든 560만 개의 공개 저장소를 스캔한 결과, 2800개 이상의 고유 도메인에서 1만 7천개 이상의 노출된 비밀을 발견했습니다. 마샬은 TruffleHog 오픈소스 도구를 사용하여 저장소의 코드에서 API 키, 비밀번호, 토큰 등 민감한 자격 증명을 확인했습니다. 이전에는 Bitbucket을 스캔하여 260만 개의 저장소에서 6212개의 비밀을 찾았습니다. 또한 AI 모델을 훈련시키는 데 사용되는 Common Crawl 데이터셋도 확인했는데, 이 과정에서 12000개의 유효한 비밀이 노출되었습니다.
GitLab은 소프트웨어 개발자, 유지 관리자, DevOps 팀이 코드를 호스팅하고, CI/CD 작업을 수행하며, 개발 협업과 저장소 관리를 위해 사용하는 웹 기반 Git 플랫폼입니다. 마샬은 GitLab 공개 API 엔드포인트를 사용하여 모든 공개 GitLab Cloud 저장소를 열거하고, 모든 결과를 페이지네이션하고 프로젝트 ID별로 정렬하는 사용자 정의 Python 스크립트를 사용했습니다. 이 과정에서 560만 개의 중복되지 않은 저장소가 반환되었고, 그들의 이름은 AWS Simple Queue Service(SQS)로 전송되었습니다. 그 다음, AWS Lambda 함수가 SQS에서 저장소 이름을 가져와 TruffleHog에 대해 실행하고 결과를 기록했습니다. 이 설정을 통해 마샬은 24시간 만에 560만 개의 저장소를 스캔하는 데 성공했습니다. 이 방법을 사용하여 전체 공개 GitLab Cloud 저장소를 스캔하는 데 든 총 비용은 770달러였습니다.
※ 이 글은 생성형 AI(ChatGPT-4)에 의해 요약되었습니다.