Home 디지털 성범죄 근절을 위한 성폭력목 유포 범죄 수사 지원: 유해미디어 유사도 판별 방법 조사
Post
Cancel

디지털 성범죄 근절을 위한 성폭력목 유포 범죄 수사 지원: 유해미디어 유사도 판별 방법 조사

n번방 사건으로 오픈채팅방에서 성착취물 유포를 신속하게 탐지하기 위한 프로젝트를 진행했다.

인터뷰 설문 조사

프로젝트의 필요성과 요구사항을 얻기 위해 인터뷰 설문 조사를 수행했다.
디지털 장의업체에 문의하여 유해 미디어를 삭제하는 경우 개인정보 수집이 우려되고, 성범죄물 유출이 우려된다는 문제점이 있다.
수사기관에서는 성 범죄물이 변조되는 경우 기존의 해시값 기반 탐지는 영상을 추적하기에 한계가 있기 때문에 이런 영상에 대한 유사도를 탐지하는 솔루션이 필요하다고 했다.
피해자들은 지속적으로 유포되는 영상에 대한 탐지 및 삭제를 요구하였으며 이런 과정에서 피해자 신원에 대한 익명성이 보장되기를 원했다.
수사 기관이 아니라 일반 사업자의 경우 이런 솔루션을 지원하기 위해 신고된 영상을 저장하고 있다면 좋겠지만, 유해 미디어 소지가 불법이기 때문에 유해 미디어의 일부분이라도 복구 가능한 형태의 보관이 금지된다.

이런 형태의 요구사항과 필요성을 가지고 프로젝트를 수행했다.

유해미디어 유사도 판별 방법 조사

동영상이나 사진의 특징점을 추출하여 하나로 묶어 놓은 형태를 DNA라 칭한다. DNA는 파일 형태로 데이터 베이스에 저장되어 관리됩니다. 영상 고유의 특징점 추출 모듈을 활용해 영상의 각 씬마다 사람의 지문과 같은 고유한 특징점을 추출하여 DNA 파일을 구성한다.
추출된 DNA 파일을 기존의 데이터 베이스에 저장된 원본 영상의 DNA 파일과 비교 분석하여 자동으로 불법 여부를 식별한다.

유사도 비교 알고리즘 선정

dhash

Dhash는 보통의 해시 알고리즘은 조금만 데이터를 수정해도 해시 값이 완전히 달라지는 것과는 달리 비슷한 데이터를 가지면 유사한 해시 값을 내보내는 알고리즘이다.
DHASH는 명도 값으로 유사도를 측정한다. 이미지를 흑백 이미지로 만들어서 0~255 사이의 명도 값만 갖는 이미지를 생성한다. 이후 공통 크기로 줄인 다음 인접 픽셀의 명도 값을 확인해서 true/false 값의 정해진 크기의 매트릭스를 만들고 이를 HEX 값으로 표현한 해시 값을 출력하여 유사 이미지 판별이 가능하도록 만든다.
Dhash 알고리즘은 명암을 변형한 이미지를 찾는데 뛰어난 성능을 보인다. 명암을 동일하게 높이거나 낮춘 이미지는 상대적인으로 픽셀의 명암 경향성이 같기 때문에 동일하게 해시 유사도를 보인다. 그러나 중복된 부분의 잘린 이미지를 찾는데는 좋은 성능을 보이지 못한다.
Dhash는 다양한 장점을 가지고 있다. 이미지 비교 알고리즘 중에서 가장 빠르고, 정해진 크기의 해시 값을 출력한다. 옵션으로 해시 값의 길이를 조정할 수 있습니다.

SIFT(Scale-Invariant Feature Transform)

SIFT는 두 이미지에서 특장점을 추출하여 두 이미지 간에 매칭되는 지점을 찾아준다. 보통의 영상 DNA에서 사용되는 기술로, 이미지의 크기에 상관 없이 이미지의 특징을 규명할 수 있는 알고리즘이다. 유사도 검증에 필요한 키 포인트를 추출하기 위해 먼저, 스케일-공간 극값을 검출하여, 정제한다. 정제 과정은 테일러 전개를 이용하며 키 포인트를 추출한다. 이 추출된 키포인트들에 최종적으로 방향성을 할당한다. 이런 과정을 거쳐 확대/회전/축소된 이미지라도 추출된 키포인터들은 이미지의 특징을 고스란히 보존되게 한다. 이 추출된 키포인트 디스크립터를 계산하여, 이미지 히스토그램을 활용해 표현한다. 이 키 포인트들을 매칭하여 이미지 유사도를 계산할 수 있다. SIFT Descriptor 는 128차원의 벡터로 이루어진다. 이를 계산하게 되면 각각의 특징점들에 대해 조명이나, 위치 변화, 크기 변화에도 불변하는 아주 강한 특징을 추출하여 이미지의 유사성을 비교할 수 있다.
SIFT는 여러 장점이 있긴 하지만, 단점도 존재한다. SIFT는 특허에 등록된 알고리즘이라 상업적인 용도로 사용하기 위해서는 비용을 지불해야 한다. 또한, 특징점을 추출하고 매칭할 때까지 걸리는 시간이 다른 특징점 추출 알고리즘 보다 오래 걸린다.

ORB(Oriented FAST and Rotated BRIF)

ORB는 OpenCV에서 개발되었고, 특허권이 걸린 SIFT와 SURF를 대신할 수 있는데 이들보다 계산 속도와 매칭 속도, 정확도가 더 좋다.
화면 굴곡에 따라 특징을 추출하여 유사도를 비교한다. 하지만 Dhash 보다는 느리다.

최종적으로 이미지 유사도 알고리즘은 Dhash를 이용하여 측정하기로 했다.

영상 프레임을 활용한 대표 이미지 추출

영상 프레임 이미지 안에서 장면 변화를 찾는 과정은 다음과 같다. 먼저, 프레임 간격을 정하고 그 간격마다 이미지 하나를 추출한다. 이미지들 간의 Dhash 유사도를 비교하고 해밍 거리가 일정치 이상이 되면 다른 씬으로 바뀌었다고 판단한다. 같은 판단 구간에 있는 프레임 이미지들을 병합하여 대표 이미지를 추출한다. 생성된 이미지의 Dhash 값을 다른 영상들과 비교한다. Dhash 계산시 이미지 크기를 조정하여 hash 길이를 정할 수 있다. 이렇게 하면 정확도가 더 높아지지만 계산을 위한 시간이 이미지 크기에 따라 비례하여 증가하며 해밍 거리의 차가 더 큰 값이 나온다.


  • 이미지 병합 과정을 Blinding으로 했을 때의 결과

블랜딩된 대표 이미지는 다른 영상의 대표 이미지와 비교하여 유사도를 비교했을 때 구별가능할 정도의 차이를 내지 않는다. 블랜딩은 기존까지 병합된 대표 이미지 90%, 새로운 이미지 10%의 비율로 이미지를 섞는 것을 말한다. 이 90%/10%의 비율은 조정할 수 있다. 이미지를 섞을 경우 영상들의 대표 이미지는 비슷하게 제작되어 각 영상끼리의 차이를 반영할 수 없다. 또한, Resize 된 영상은 프렝미간 유사도가 높게 나오므로 대표 이미지 추출 개수가 적다

블랜딩의 이유는 대표 이미지로서 다른 영상끼리의 구별을 보다 명확하게 하려 했으나, 드는 시간 대비 효율이 좋지 않으므로 원본 캡처 이미지를 사용하는 것이 낫다.

  • 이미지 추출 관련 - ffmpeg
    대표 이미지를 추출하기 위해 ffmpeg를 활용했다. ffmpeg는 디지털 음성 스트림과 영상 스트림에 대해서 다양한 종류의 형태로 기록하고 변환하는 컴퓨터 프로그램이다. 오픈 소스 라이브러리로 구성되어 있는 이 ffmpeg 도구를 사용하여 대표 이미지를 추출하는 것이 빠르고, 보다 적은 수로 장면을 대표할 수 있는 이미지를 선정하여 추출할 수 있다.
    하지만 이 도구를 사용해도 자체 제작 코드에 있던 resize 된 영상에 대해서는 ffmpeg 간의 유사도가 높기 때문에 대표 이미지 수가 적게 뽑히는 단점이 여전히 존재한다.

대표 이미지 비교 방법

영상에서 대표 이미지를 추출한 후, 영상의 대표 이미지 Dhash를 이용하여 비교하는 방법을 서술한다. ffmpeg에서 영상의 대표 이미지를 추출하고 이미지의 dhash 값를 1:1로 비교한다. 이때의 dhash의 크기는 32x32로 추출했다. 대상 영상의 첫번째 프레임 이미지와 1:1로 비교했을 때 가장 유사도가 높은 이미지를 비슷한 구간의 영상 프레임 이미지라고 가정한다. 이렇게 첫번째 프레임 이미지와 가장 유사도가 높은 이미지를 먼저 찾는 이유는 앞뒤에 광고가 붙은 유사 영상을 판별하기 위해서다. 첫번째 프레임 이미지와 가장 높은 유사도로 매칭된 이후 부터 다시 프레임 이미지들을 매칭한다. 이렇게 가장 유사도가 높은 이미지들끼리 매칭하여, 유사도를 평균낸 것으로 최종적인 영상의 유사도를 판단한다.

결과

데이터 셋은 변형된 4 종류가 있는 영상 21개, 총 84건의 영상 파일을 실험에 사용했다. 각 영상의 유사도가 80% 이상인 것을 추출했을 때 정확도는 79%(MCC 계수) 정도이다. 여기서 매튜 상관계수(MCC 계수)란, 사용 빈도는 높지 않지만 불균형한 데이터의 모델 성능을 적절히 평가하기 쉬운 지표다. 많이 사용하는 정확도 지표 Accuracy의 경우에는 98.58%가 나왔다.


Refference

This post is licensed under CC BY 4.0 by the author.

TTP 기반 공격 행위 분석에 대해서

디지털 성범죄 근절을 위한 성폭력목 유포 범죄 수사 지원: 오픈채팅방 수사 방법 제안 논문