떠오르는 보안 기술 ‘머신러닝’ – 그 효과는?

게시일: 2016-11-21 l 작성자: Trend Micro

최근 여러 비즈니스 분야에서 ‘머신러닝’의 응용이 급속히 진행되는 가운데, 보안 분야에서도 위협의 감지를 높일 수 있는 기술로써의 머신러닝이 주목 받고 있습니다. 머신러닝 기술이 구체적으로 보안 제품 및 솔루션의 무엇을, 어떻게 바꿀 수 있는지에 대한 기본적인 의문에 대해 알아봅니다.

사이버 위협의 폭발적인 증가

표적형 공격, 랜섬웨어, 온라인뱅킹 스캠… 이러한 사이버 위협은 보안 방어망을 우회하기 위해 끊임없는 진화를 거듭하고 있습니다. 예를 들어, 법인 피해를 급격히 증가시키고 있는 랜섬웨어의 경우, 2016년 상반기 70종 이상의 새로운 패밀리가 확인되었으며, 국내 수많은 개인 및 기업에 타격을 입혔습니다.

표적형 사이버 공격의 경우, 악성 프로그램의 약 90%는 한 대의 디바이스만을 공격하지 않습니다. 최근 유포되는 악성 프로그램은 빠른 진화를 거듭하는 것은 물론, 연쇄적인 피해를 일으키도록 설계되었습니다. 이처럼 짧은 기간 동안 다종, 다량 생산되는 악성 공격 프로그램에 대해 현재보다 신속하고 확장된 대응 기술이 요구됩니다.

각 공격 프로그램의 특성에 따라 악성 여부를 판정하는 기술인 머신러닝 기술은 변화하는 위협의 급증의 대응책이라고 할 수 있습니다.

학습을 통한 위협 판정 지식 획득

머신러닝은 수집된 데이터에서 법칙이나 특징을 자동으로 파악하여 규칙을 알아냅니다. 새로 입력된 데이터를 분류하고 그 의미를 파악하여 최종 결정을 내리기 위한 판단을 할 수 있습니다.

일례로, 대량의 안전/악성 URL 샘플을 학습시킴으로 악성 URL의 법칙을 파악하여, 검사 대상 URL의 악성 여부를 자동 분류하는 것이 가능합니다. 마찬가지로, 일반/스팸메일의 내용을 학습하면 스팸메일 특유의 패턴을 이해하고 검사 대상의 스팸 여부를 자동으로 판별할 수 있게 됩니다. 또한 정상 프로그램과 악성 프로그램의 샘플을 학습시키면, 그 특성을 파악하고 검사 대상의 신규 프로그램의 악성 여부를 판단할 수 있게 되는 것입니다.

이러한 기술은 학습된 내용을 기반으로 위협 또는 유사 위협을 신속하게 검출할 수 있다는 점에서 랜섬웨어와 같은 폭발적으로 증가하는 사이버 위협을 판정하기에 적합하다고 할 수 있습니다.

10년의 기술력과 응용력을 바탕으로 한 기술 구현

트렌드마이크로는 머신러닝의 가능성에 일찍부터 주목하여, 매일 수집되는 방대한 위협정보 및 보안 노하우를 살린 머신러닝 기술의 실용화를 위해 노력해왔습니다. 구체적으로, SVM(Support Vector Machine)*1과 Decision Tree*2 등 다양한 학습 기법을 위협 탐지 서비스에 응용해왔습니다.

트렌드마이크로의 이메일 평판(Email Reputation Service)은 이미 2006년부터 스팸메일 탐지 동작 학습을 통한 스팸 규칙을 구현하고 있습니다. 현재 이 규칙은 스팸(콘텐츠) 분석의 약 80%를 담당하고 있으며, 영어, 스페인어, 일본어, 포르투갈어, 이탈리아어, 프랑스어, 독일어, 러시아어, 중국어 등 다양한 언어를 지원합니다.

2012년부터는 웹 평판(Web Reputation Service)에서 대량의 URL 분석 및 분류 판정에 학습 기술을 응용하고 있습니다.

또한 2015년부터 웹에서 다운로드 되는 파일의 분석에도 학습 기술이 실용화되었습니다. 당사는 이러한 기술력을 바탕으로 향후 트렌드마이크로의 제품군에 머신러닝을 기반으로 한 기술 구현을 확대하기 위한 방안을 추진하고 있습니다.

위와 같은 기술들은 ‘트렌드마이크로 클라우드 보안센터(Smart Protection Network, SPN)’의 데이터를 바탕으로 구현됩니다. 전 세계의 데이터를 마이닝하는 업계 선두 글로벌 위협 인텔리전스인 클라우드 보안센터를 통해 방대한 악성 프로그램 정보가 수집되고, 그 특징을 학습하여 효율적으로 차단할 수 있습니다.

먼저, 안전/악성 여부가 판정되지 않은 의심스러운 파일 또는 프로세스에 대해 클라우드 보안센터로 전송합니다. 클라우드 보안센터에서는 머신러닝 기술을 사용하여 안전/악성 여부를 예측할 수 있습니다.

학습을 전제로 하는 머신러닝의 경우, 대량의 샘플에 대한 올바른 판단을 지속적으로 수행하여 검출력을 향상시키는 것이 필수입니다. 매일 100TB에 달하는 데이터 처리를 하는 클라우드 보안센터는 머신러닝을 위한 검출력을 지원합니다. 또한 파일 분석과 행위 분석이 클라우드 보안센터에서 이루어지기 때문에, 개별 디바이스에 큰 부하가 걸리지 않는 이점도 있습니다.

머신러닝이 만능 열쇠는 아니다

웹, 파일, 이동식 메모리 등 오늘날 위협의 침입 경로와 형태는 매우 다양하기 때문에 이를 모두 지원하기 위해서는 머신러닝 이외의 다양한 기술이 필요합니다. 또한 머신러닝에 의한 검출의 경우 패턴 기반에 비해 오탐율이 많다는 것도 모든 보안 업체의 동일한 고민입니다. 공격의 주체가 하나의 프로그램이 아닌 공격자 자체, 즉 사람이기 때문에 하나의 공격을 차단할 경우, 또 다른 보안 구멍을 찾아 공격을 시행합니다.

머신러닝은 성능 측면에서 효과적인 기술이지만, 이것이 만능 열쇠는 아닙니다. 웹과 파일 평판 등 다양한 기술을 제공하는 심층 방어와 함께 하나의 요소로서 활용할 때 다양한 위협에 대한 탐지 능력을 향상시킬 수 있습니다.

트렌드마이크로에서는 클라우드 보안센터를 중심으로, 패턴 기반 동작 모니터링 및 각종 평판 기술에 머신러닝을 추가하여 각각의 위협에 최적의 기술을 사용하여 대응 능력을 높이고 있습니다. 예를 들어, 오피스스캔에서는 적시에 적절한 기술을 배치하여 방어력과 성능을 높이고 있습니다. 예를 들어, 악성 사이트에 의한 알려진 위협이 침입할 경우, 부하가 높은 동작 모니터링 기술을 사용하지 않고 간단하게 웹 평판 기술을 사용하여 차단할 수 있습니다.

위협이 진화 및 증가함에 따라 보안 기술도 끊임없이 혁신을 계속하고 있습니다. 기존 패턴 기반에서 현재의 머신러닝까지 다양한 기술이 개발되어 왔습니다. 가트너가 분석했듯이*3 모든 보안 솔루션에는 강점과 약점이 있기 때문에 모든 유형의 악성 프로그램을 하나의 기술로 대응할 수 없는 것은 분명합니다. 공격에 가장 적합한 기술을 결합하여 적재적소에 활용함으로써, 변화하는 위협에 대한 대응력을 더해나가는 것이 지속되는 사이버 위협으로부터 안전할 수 있는 방법입니다.

*1 Support Vector Machine(SVM): 패턴 인식과 자료 분석을 위한 지도 학습 기법. 두 카테고리 중 어느 하나에 속한 데이터의 집합이 주어졌을 때, 훈련된 알고리즘에 따라 모델을 구축하여 새로 주어진 데이터 가치가 어느 곳에 속하는지 예측한다.
*2 Decision Tree: 의사 결정 예측을 나무 모델로 사용한 간단한 학습 기법. 데이터의 학습에서 기계 학습 기법 '속성'과 '값'에 의한 판단 구조 (결정 트리)를 만들어 낸다.
*3 Gartner 2016 Magic Quadrant for Endpoint Protection Platforms, February 1, 2016, Peter Firstbrook, Eric Ouellet "However, history has clearly shown that no single approach will be successful for thwarting all types of malware attacks . Organizations and solution providers have to use an adaptive and strategic approach to malware protection.


원문: 脅威検出の先進テクノロジー 「機械学習」がセキュリティにもたらすもの─その効果とは?