사상가
환각 제어: 보안 프로세스의 일부로 LLM 배포의 이점과 위험
대규모 언어 모델 방대한 양의 데이터에 대한 교육을 받은 LLM(LLM)은 보안 운영 팀을 더욱 스마트하게 만들 수 있습니다. LLM은 대응, 감사, 상태 관리 등에 대한 인라인 제안과 지침을 제공합니다. 대부분의 보안 팀은 워크플로의 수작업 수고를 줄이기 위해 LLM을 실험하거나 사용하고 있습니다. 이는 일상적인 작업과 복잡한 작업 모두에 해당될 수 있습니다.
예를 들어, LLM은 직원이 독점 문서를 공유하려는 경우 이메일을 통해 직원에게 문의하고 보안 전문가를 위한 권장 사항에 따라 응답을 처리할 수 있습니다. 또한 LLM은 오픈 소스 모듈에 대한 공급망 공격을 찾기 위한 요청을 번역하고 특정 조건(널리 사용되는 라이브러리의 새로운 기여자, 부적절한 코드 패턴)에 초점을 맞춘 에이전트를 가동하는 작업을 맡을 수 있습니다. 각 에이전트는 해당 특정 조건에 맞게 준비됩니다.
즉, 이러한 강력한 AI 시스템은 보안 팀이 직면하는 다른 위험과 달리 상당한 위험을 안고 있습니다. 보안 LLM을 지원하는 모델은 즉각적인 주입이나 데이터 중독을 통해 손상될 수 있습니다. 인간의 지도가 충분하지 않은 지속적인 피드백 루프와 기계 학습 알고리즘으로 인해 악의적인 행위자가 제어 수단을 조사한 다음 제대로 타겟팅되지 않은 대응을 유도할 수 있습니다. LLM은 제한된 영역에서도 환각을 느끼기 쉽습니다. 최고의 LLM조차도 답을 모를 때 문제를 해결합니다.
LLM 사용 및 워크플로와 관련된 보안 프로세스 및 AI 정책은 이러한 시스템이 사이버 보안 운영 및 연구 전반에 걸쳐 더욱 보편화됨에 따라 더욱 중요해질 것입니다. 거버넌스 시스템에서 이러한 프로세스를 준수하고 측정하고 설명하는 것은 CISO가 사이버 보안 프레임워크 2.0과 같은 새로운 요구 사항을 충족하기 위해 충분한 GRC(거버넌스, 위험 및 규정 준수) 적용 범위를 제공할 수 있도록 하는 데 매우 중요합니다.
사이버 보안 분야에서 LLM의 거대한 약속
CISO와 그 팀은 점점 늘어나는 새로운 사이버 공격을 따라잡기 위해 끊임없이 노력하고 있습니다. Qualys에 따르면 2023년에 보고된 CVE의 수는 26,447명의 신기록. 5년에 비해 2013배 이상 증가한 수치입니다.
해가 갈수록 일반 조직의 공격 표면이 커지면서 이러한 문제는 더욱 부담스러워지고 있습니다. AppSec 팀은 더 많은 소프트웨어 애플리케이션을 보호하고 모니터링해야 합니다. 클라우드 컴퓨팅, API, 멀티 클라우드 및 가상화 기술로 인해 복잡성이 더욱 가중되었습니다. 최신 CI/CD 도구 및 프로세스를 통해 애플리케이션 팀은 더 많은 코드를 더 빠르고 더 자주 출시할 수 있습니다. 마이크로서비스는 모놀리식 앱을 수많은 API와 공격 표면으로 분할했으며 외부 서비스 또는 고객 장치와의 통신을 위해 글로벌 방화벽에 더 많은 구멍을 뚫었습니다.
고급 LLM은 사이버 보안 팀의 업무량을 줄이고 역량을 향상시킬 수 있는 엄청난 가능성을 가지고 있습니다. AI 기반 코딩 도구는 소프트웨어 개발에 널리 침투했습니다. Github 연구에 따르면 개발자의 92%가 코드 제안 및 완성을 위해 AI 도구를 사용하고 있거나 사용한 적이 있는 것으로 나타났습니다. 이러한 "부조종사" 도구에는 대부분 일부 보안 기능이 있습니다. 실제로 코딩(코드는 단위 테스트를 통과하거나 실패함)과 같이 상대적으로 이분법적인 결과를 갖는 프로그래밍 분야는 LLM에 매우 적합합니다. 소프트웨어 개발 및 CI/CD 파이프라인을 위한 코드 스캐닝 외에도 AI는 여러 가지 다른 방식으로 사이버 보안 팀에 유용할 수 있습니다.
- 향상된 분석: LLM은 막대한 양의 보안 데이터(로그, 경고, 위협 인텔리전스)를 처리하여 사람에게 보이지 않는 패턴과 상관 관계를 식별할 수 있습니다. 그들은 여러 언어로, 24시간 내내, 그리고 수많은 차원에서 동시에 이 작업을 수행할 수 있습니다. 이는 보안팀에 새로운 기회를 열어줍니다. LLM은 거의 실시간으로 일련의 경고를 소각하여 심각할 가능성이 가장 높은 경고에 플래그를 지정할 수 있습니다. 강화 학습을 통해 시간이 지남에 따라 분석이 향상됩니다.
- 자동화 : LLM은 일반적으로 대화가 필요한 보안 팀 작업을 자동화할 수 있습니다. 예를 들어, 보안 팀이 IoC를 받고 엔드포인트 소유자에게 실제로 장치에 로그인했는지 또는 정상적인 작업 영역 외부에 있는지 물어봐야 하는 경우 LLM은 이러한 간단한 작업을 수행한 후 다음을 수행할 수 있습니다. 필요한 질문과 링크 또는 지침을 작성하세요. 이는 IT 또는 보안 팀 구성원이 스스로 수행해야 하는 상호 작용이었습니다. LLM은 더욱 고급 기능을 제공할 수도 있습니다. 예를 들어 Microsoft Copilot for Security는 사고 분석 보고서를 생성하고 복잡한 맬웨어 코드를 자연어 설명으로 변환할 수 있습니다.
- 지속적인 학습 및 조정: 보안 정책 및 이해를 위한 이전 기계 학습 시스템과 달리 LLM은 응답에 대한 사람의 평가를 수집하고 내부 로그 파일에 포함되지 않을 수 있는 최신 데이터 풀을 다시 조정하여 즉석에서 학습할 수 있습니다. 실제로 동일한 기본 기본 모델을 사용하여 사이버 보안 LLM은 다양한 팀과 요구 사항, 워크플로 또는 지역 또는 업종별 작업에 맞게 조정할 수 있습니다. 이는 또한 전체 시스템이 즉시 모델만큼 스마트해질 수 있으며 변경 사항이 모든 인터페이스에 빠르게 전파될 수 있음을 의미합니다.
사이버 보안을 위한 LLM의 위험
짧은 기록을 가진 신기술로서 LLM은 심각한 위험을 안고 있습니다. 더 나쁜 것은 LLM 결과가 100% 예측 가능하거나 프로그래밍 방식이 아니기 때문에 이러한 위험의 전체 범위를 이해하는 것이 어렵다는 것입니다. 예를 들어, LLM은 가상의 데이터를 기반으로 "환각"을 일으키고 답변을 구성하거나 질문에 잘못 답변할 수 있습니다. 사이버 보안 사용 사례를 위해 LLM을 채택하기 전에 다음을 포함한 잠재적 위험을 고려해야 합니다.
- 신속한 주입: 공격자는 특히 오해의 소지가 있거나 유해한 출력을 생성하기 위해 악의적인 메시지를 만들 수 있습니다. 이러한 유형의 공격은 수신된 프롬프트를 기반으로 콘텐츠를 생성하는 LLM의 경향을 이용할 수 있습니다. 사이버 보안 사용 사례에서 신속한 주입은 모델 동작을 왜곡하여 시스템 출력을 영구적으로 변경하기 위해 프롬프트를 사용하는 무단 사용자에 의한 공격이나 내부자 공격 형태로 가장 위험할 수 있습니다. 이로 인해 시스템의 다른 사용자에게 부정확하거나 잘못된 출력이 생성될 수 있습니다.
- 데이터 중독: LLM이 의존하는 교육 데이터는 의도적으로 손상되어 의사 결정을 손상시킬 수 있습니다. 조직이 도구 제공자가 훈련한 모델을 사용할 가능성이 높은 사이버 보안 환경에서는 특정 고객 및 사용 사례에 맞게 모델을 조정하는 동안 데이터 중독이 발생할 수 있습니다. 여기서 위험은 승인되지 않은 사용자가 학습 프로세스를 파괴하기 위해 잘못된 데이터(예: 손상된 로그 파일)를 추가하는 것일 수 있습니다. 승인된 사용자가 실수로 이 작업을 수행할 수도 있습니다. 그 결과 잘못된 데이터를 기반으로 한 LLM 출력이 생성됩니다.
- 환각: 앞서 언급했듯이 LLM은 프롬프트에 대한 오해나 근본적인 데이터 결함으로 인해 실제로 부정확하거나 비논리적이거나 심지어 악의적인 응답을 생성할 수 있습니다. 사이버 보안 사용 사례에서 환각은 위협 인텔리전스, 취약성 분류 및 해결 등을 무력화시키는 심각한 오류를 초래할 수 있습니다. 사이버 보안은 업무상 중요한 활동이기 때문에 LLM은 이러한 맥락에서 환각을 관리하고 예방하는 데 있어 더 높은 수준을 유지해야 합니다.
AI 시스템의 성능이 향상됨에 따라 정보 보안 배포가 빠르게 확대되고 있습니다. 분명히 말하면, 많은 사이버 보안 회사는 오랫동안 동적 필터링을 위해 패턴 일치와 기계 학습을 사용해 왔습니다. 생성적 AI 시대의 새로운 점은 기존 워크플로우와 데이터 풀 위에 인텔리전스 계층을 제공하여 이상적으로 효율성을 개선하고 사이버 보안 팀의 역량을 강화하는 대화형 LLM입니다. 즉, GenAI는 보안 엔지니어가 더 적은 노력과 동일한 리소스로 더 많은 작업을 수행하여 더 나은 성능과 가속화된 프로세스를 제공하도록 도울 수 있습니다.