DATA 분석과 머신러닝 기법을 중심으로 다양한 보안 분야의 문제를 해결하는 사례를 소개한다. 특히 이번학기에서는 데이터 분석 중심으로 악성코드를 분류하고, 사이버 위협 정보를 수집하는 기법과 교차 분석하는 기법을 주로 다루도록 한다. 이를 위해서 SNS 마이닝, 유사도 분석 기법과 데이터 마이닝 및 머신러닝 기버블 응용한다.
EDA (탐색적 데이터 분석 방법론)
제공되는 데이터 셋을 EDA를 수행해 보고, 관련 논문을 최소 7~8개 정도를 서베이 해 본 뒤, 본인만의 Feature를 제시해서 어떻게 malware anaysis를 머신러닝을 이용하여 수행할 지 제안한다.
Logistic Regression
이상거래탐지(FDS) 예를 들어 설명하면, 설명변수 X와 종속변수 Y의 관계가 선형임을 가정하고, 예측치와 실 데이터 간의 SSE(Sum of Squared Error)를 최소화 함을 목표로 한다. 이 알고리즘의 강점은 Feature 개수가 많아도 빠른 속도가 보장되고, 모델에 대한 높은 설명력을 가진다. 단순 linear regression 보다는 sample의 수가 충분히 제공되어야 한다. 각 변수들이 독립 변수일 것을 전제로 하여 동작한다
- 계정생성 후 1일이 지난 계정이 4개의 ITEM을 4시 50분경 Creditcard를 이용하여, 이 결제 수단을 등록하자 마자 거래했다. -> 부정 거래로 탐지
실제 현업에서의 FDS는 많은 feature 들을 이용한다. 통신사, 성별 나이, 접속 IP Address의 평판도, 국가 정보 브라우저 등 기기 식별 정보 등의 특징들을 이용한다.
FDS, 이상거래 탐지 시스템은 Domain knowledge 가 보다 중요한 분야임
부정 거래란?
- 일방적으로 받기만 하는 거래
- 기꺼이 모든 것을 주는 관계, 대가 없이
- 정기적으로 주는 관계
부정결제 탐지 case study
데이터 셋으로 부터 classification 기반 분석을 하거나, Time Window 기반 분석으로 Feature 별 빈도수, 상관 계수를 통해 부정 거래를 탐지할 수 있다.
부정 시나리오 구축이 필요한데 발생 가능한 시나리오 4가지는
기존에 사용하던 결제 수단이 아닌 새로운 결제 수단을 사용하여 결제를 시도함
예를 들어 신용카드 결제만을 이용하던 고객이 휴대폰 결제를 처음으로 이용하기 시작함
Black List 사용자는 정상 사용자에 비해 휴대폰 결제 비율이 10배 정도 많다. 즉, 부정 유저는 결제 수단으로 휴대폰을 많이 사용한다.다른 유저가 거의 사용하지 않는 결제 수단으로 결제를 시도함
예를 들어 구글 기프트 카드 같은거, 부정 결제라고 확신할 수는 없지만, 한번 살펴볼만한 사항이 될 수 있다.- 인앱결제, 앱결제 여부가 평소 패턴과 상이함
예를 들어 앱 내 결제를 주로 이용하던 고객이 앱 결제를 이용하지 않는 경우- 타 가맹정 앱 에서 결제 앱으로 이동하여 결제하던 결제건이 -> 타 가맹정 앱에서만 결제하는 경우(결제 앱으로 이동하지 않음)
- 타 가맹정 앱 에서 결제 앱으로 이동하여 결제하던 결제건이 -> 타 가맹정 앱에서만 결제하는 경우(결제 앱으로 이동하지 않음)
- 앱 결제 필드의 종류 값이 평소 패턴과 상이함
예를 들어 앱 결제 종류가 ‘카드사 APP 결제’를 주로 이용하던 고객이 갑자기 앱 결제를 사용하지 않는 경우- 카드사 결제인 경우, app_pay_use_yn : ‘c’로 기록되며 앱 결제를 사용하지 않는 경우, app_pay_use_yn : n으로 표시됨
- Black LIST 사용자의 경우, 앱 결제를 사용하지 않는 경우가 85%로, 정상 회원에 비해 10.3%가 높음
- 카드사 결제인 경우, app_pay_use_yn : ‘c’로 기록되며 앱 결제를 사용하지 않는 경우, app_pay_use_yn : n으로 표시됨
FDS - Feature간 Time Windows 기반 상관 분석
시간 흐름에 따른 주요 Feature 발생량 시각화를 통해 이상 탐지를 위한 주요 특징을 동시에 관찰 가능하다.
주요 Feature : 로그인 결과 코드 / 프로바이더 / 브라우저 / ID 수 / IP 주소 수 로그인 수 등
부정일자에 비밀번호 오류 횟수가 상승하고, 특정 저비스나 특지어 브라우저 접속 횟수가 상승하는 모습을 볼 수 있다.
즉 평상시의 패턴에서 벗어난 통계적 이상치가 많이 보인다.
과거에 부정행위 전적이 있는 IP 주소는 현재에도 부정 IP 주소일 가능성이 높다. 타 게임/결제에서 탐지된 IP 대역 레이블링 및 평판 가중치가 부여된다.
결제 부정을 일으킨 IP 주소 중에서 해킹된 인터넷 공유기 / IP CCTV 를 이용하는 경우도 다수 발견된다
해커가 VPN/PPTP를 인터넷 공유기에 쉽게 세팅 가능하다.
알고리즘에 대한 기본 지식
Clustering
기계에게 Clustering을 지시하려면 K 개로 군집화 하였다는 것을 X를 K 개의 Y로 매핑하였다는 과정이다.
이때 매핑하는 과정에서 오차가 발생하게 되는데, 일반화 할때의 오류와 유사한 오차이다. 이를 최소화 하는 것이 관건이다. 어떤 차원 공간이냐에 따라 유클레디안 거리가 쓰일 수도, 다른 거리를 통해 유사 개체를 군집화 할수도 있다.
Vector Space Model
공간에 분포된 벡터들에 대해 공간을 분할하여 vector class에 대해 구분한다.
실제 많은 Feature 들은 중요도가 낮거나 중복되어 차원감소를 통해 Feature Vector의 크기를 줄여야 한다.
Kernel Method
패턴 분석이나 패턴 인식을 위한 알고리즘으로, 비선형 Kernel function을 이용하여 input data의 차원을 다른 특징 차원으로 변환하는 기법
대표적인 방법으로 SVM 알고리즘이 있다. Support vector 간의 margin이 최대한 넓어지는 support vector를 발견하는 것이다. 두 class 간에 linear하지 않는다면, kernel transformation 을 통해 고차원으로 mapping 후 hyperplane을 설정한다.
Random Forest
여러 Decision Tree로 학습 후 다수결에 따라 최종값을 결정하는 ensenble method(Bagging 방식 사용). 각 tree는 랜덤하게 선정된 일부 feature 만으로 학습한다. 이 알고리즘을 이용하여 overfitting을 피할 수 있고 각 독립 변수의 중요도를 측정하기 용이함
XGBoost
이전 모델이 예측하지 못한 데이터에 높은 가중치를 적용하여, 다음 모델이 더 학습을 잘 예측할 수 있도록 함 (Boosting 방식)
Neural Network
임계치 v를 뛰어 넘어야 output를 내게 하려면 sigmoid 함수를 사용할 수 있다. 예를 들어 사람의 겨우 센서를 통해 입력 받은 총합이 역치를 넘어야 척수 반사가 발생하는 것처럼 말이다. 각 input 특징으로 부터 일정 수치의 가중치를 곱하고 이를 전부 더한 합이 활성 함수에서 역치 이상이어야 output 에서 1로 결과를 낼 수 있게 된다.
TF-IDF
TF : 어떤 문서에 출현하는 문자열 출현 횟수
IDF : 문서 총 수
문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요하느 것인지 표현해줄 수 있는 통계적 지표를 말한다.
특정 값이 문서 내에서 단어 빈도가 높을 수록, 그리고 전체 문서들 중 그 단어를 포함한 문서가 적을 수록 TF-IDF 값이 높아짐
Classifier
악성코드 샘플 제공 후, 최종 분류 결과를 개발하여 제출한다.
Refference
- Jin, Youngjin, et al. “DarkBERT- A Language Model for the Dark Side of the Internet.” arXiv preprint arXiv:2305.08596 (2023). https://arxiv.org/abs/2305.08596