내용정리

[가명정보 지원 플랫폼] 가명정보 전문인력 양성 실무교육

suuuullloc 2024. 5. 22. 11:28
 

Security-Gym

실전형 사이버 훈련장

edu.dataprivacy.go.kr


가명정보 처리 목적 설정 및 목적에 따른 사전 준비

1. 가명정보의 목적 설정

 

# 개인정보를 익명 또는 가명으로 처리하여도 개인정보 수집목적을 달성할 수 있는 경우 익명처리가 가능한 경우에는 익명에 의하여, 익명처리로 목적을 달성할 수 없는 경우에는 가명에 의하여 처리될 수 있도록 하여야 한다.

# 당초 수집 목적과 합리적으로 관련된 범위에서 정보주체의 동의 없이 개인정보를 이용할 수 있다.

 

# 통계작성, 과학적 연구, 공익적 기록보존

 

2. 가명정보의 처리를 위해 필요한 서류

 


위험성 검토 방안

1. 위험성 검토 개요

 

# 가명정보의 기술적 방법의 적용과 복원가능성

- 가명처리에 사용되는 기술 중 암호화는 대체의 기법으로 자주 사용되는 기술적 방법

- 암호화 기법은 매우 안정적인 기법이나 일부 암호화 알고리즘의 취약성으로 인해 암호화된 정보에서 원래의 정보를 추출할 수 있는 경우가 발생함 -> 복원 가능성

-> 가명처리의 기준은 식별가능성과 복원가능성을 제거할 수 있어야 함

 

# 식별 가능성

- 정해진 절차에 따라 가명처리를 하는 경우, 식별 가능성은 1. 식별에 도움이 되는 다른 정보 2. 추가 정보에 의해 발생할 수 있음

- 추가 정보를 통한 식별 가능성은 추가 정보를 가명정보와 분리하거나 삭제함으로써 해결 가능

- 가명정보는 업무상 꼭 필요한 다른 정보를 제외한 정보의 접근가능성을 배제해야 하며 이는 가명정보를 이용하는 환경에 대한 통제를 통해 구현할 수 있음

-> 가명정보의 이용환경에 대한 통제는 다음의 두가지 형태로 구현되어야 함

  • 업무상 꼭 필요한 다른 정보 외의 다른 정보의 접근 차단은 물리적, 기술적 보호조치로 구현
  • 분석에 참여한 인력의 경험과 지식을 통한 재식별 가능성은 참여인력에 대한 관리적 보호조치로 구현

# 위험성 검토 개요

- 가명처리 대상 데이터의 식별 위험성을 분석 및 평가하여 가명처리 방법 및 수준에 반영하기 위한 절차

- 식별 위험성은 데이터의 식별 위험성과 처리 환경의 식별 위험성으로 구분하여 검토

 

2. 위험성 검토의 기준

 

# 가명정보의 처리 시 처리 환경에 따른 위험성 검토는 1. 활용 형태, 2. 처리 장소, 3. 처리 방법 등을 고려하여 판단

 

# 데이터의 위험성 검토는 가명처리 대상이 되는 정보에 식별 가능한 요소가 있는지를 파악하는 것

  • 그 자체로 식별될 위험이 있는 항목 (식별정보)
  • 다른 항목과 결합을 통해 식별될 가능성이 있는 항목 (식별가능정보)
  • 그 밖에 특이정보 (특이정보 유무)
  • 데이터 특성만으로 재식별 시 사회적 파장 등 영향도가 높은 항목 등이 있는지 검토 (재식별시 영향도)

# 데이터구성의 기반, 법적 제한 데이터 여부, 개인정보 속성, 데이터 구조, 데이터 유형, 변수 유형, 모집단, 데이터 세트의 속성, 주제 민감도 같은 다양한 내용에 대한 고려가 필요함

 

1. 데이터 기본 특성 검토

  • 데이터 주체
  • 데이터 유형
  • 수집의 근거
  • 수집의 근거와 관련 법령에 따라 처리의 방법이 달라질 수 있음

2. 법적 제한 검토

3. 개인정보 속성 검토

  • 개인식별정보
  • 개인식별 가능정보
  • Target 속성

4. 데이터 자체의 속성 검토

  • 데이터 품질
  • 데이터의 최신성
  • 데이터의 경직성
  • 종단적 데이터(시간속성 데이터)
  • 계층적 데이터
  • 모집단의 크기
  • 분석에 사용하는 샘플데이터의 크기

5. 데이터 분포에 대한 검토

  • 특이치 포함여부 검토

6. 데이터 민감도에 대한 검토

 

3. 위험성 검토 체크리스트와 보고서 작성 방법

 

# 위험성 검토 체크리스트는 앞에서 말한 데이터의 위험성과 이용환경의 위험성을 파악하도록 구성되어 있음

# 데이터의 식별 위험성 체크리스트

# 처리 환경의 위험성 체크리스트

 

# 식별 위험성 검토 체크리스트의 결과를 바탕으로 식별 위험성 검토 결과보고서 작성

  1. 가명정보 활용 목적
  2. 가명처리 대상 데이터 항목
  3. 데이터 위험성
  4. 처리환경 위험성
  5. 최종 검토 의견

가명처리 계획의 이해

1. 가명처리 기법 소개

 

# 개인정보 보호법의 가명처리 -> 결합 없이는 특정 개인을 알아볼 수 없도록 처리

 

1. 개인정보 삭제

기술 세부기술 설명
삭제기술 삭제 (Suppression) 원본정보에서 개인정보를 단순 삭제
부분삭제 (Partial suppression) 개인정보 전체를 삭제하는 방식이 아니라 일부를 삭제
행 항목 삭제 (Record suppression) 다른 정보와 뚜렷하게 구별되는 행 항목을 삭제
로컬 삭제 (Local suppression) 특이정보를 해당 행 항목에서 삭제

 

2. 삭제/대체 모두 포함

기술 세부기술 설명
삭제/대체 마스킹 (Masking) 특정 항목의 일부 또는 전부를 공백 또는 문자로 대체

 

3. 개인정보 일부 또는 전부 대체

기술 세부기술 설명
통계도구 총계처리 (Aggregation) 평균값, 최대값, 최소값, 최빈값, 중간값 등으로 처리
부분총계 (Micro aggregation) - 정보집할물 내 하나 또는 그 이상의 행 항목에 해당하는 특정 열 항목을 총계처리
- 다른 정보에 비하여 오차 범위가 큰 항목을 평균값 등으로 대체

 

기술 세부기술 설명
일반화 (범주화) 기술 일반 라운딩 (Rounding) - 올림, 내림, 반올림 등의 기준을 적용하여 집계 처리하는 방법
- 일반적으로 세세한 정보보다는 전체 통계정보가 필요한 경우 많이 사용
랜덤 라운딩 (Random rounding) 수치 데이터를 임의의 수인 자리 수, 실제 수 기준으로 올림(round up) 또는 내림(round down)하는 기법
제어 라운딩 (Controlled rounding) 라운딩을 적용하는 경우 값의 변경에 따라 행이나 열의 합이 원본의 행이나 열의 합과 일치하지 않는 단점을 해결하기 위해 행이나 열이 맞지 않는 것을 제어하여 일치시키는 기법
상하단코딩 (Top and bottom coding) - 정규분포의 특성을 가진 데이터에서 양쪽 끝에 치우친 정보는 적은 수의 분포를 가지게 되어 식별성을 가질 수 있음
- 이를 해결하기 위해 적은 수의 분포를 가진 양 끝단의 정보를 범주화 등의 기법을 적용하여 식별성을 낮추는 기법
로컬 일반화 (Local generalization) 전체 정보집합물 중 특정 열 항목에서 특이한 값을 가지거나 분포상의 특이성으로 인해 식별성이 높아지는 경우 해당 부분만 일반화를 적용하여 식별성을 낮추는 기법
범위 방법 (Data range) - 수치 데이터를 임의의 수 기준의 범위(range)로 설정하는 기법
- 해당 값의 범위 또는 구간(interval)로 표현
문자데이터 범주화 (Categorization of character data) 문자로 저장된 정보에 대해 보다 상위의 개념으로 범주화하는 기법

 

기술 세부기술 설명
암호화 양방향 암호화 - 대칭키 방식
- 비대칭키 방식
일방향 암호화 - 암호학적 해시함수 - 키가 없는 해시함수
-솔트(Salt)가 있는 해시함수
- 키가 있는 해시함수

- 충돌 가능성이 매우 적음
순서보존 암호화 - 원본정보의 순서와 암호값의 순서가 동일하게 유지되는 암호화 방식
- 값들 간의 크기에 대한 비교 분석이 필요한 경우 안전한 분석이 가능
형태보존 암호화 - 원본 정보의 형태와 암호화된 값의 형태가 동일하게 유지되는 암호화 방식
- 저장 공간의 비용 증가를 해결할 수 있음
동형 암호화 암호화된 상태에서의 연산이 가능한 암호화 방법으로 원래의 값을 암호화한 상태로 연산 처리를 하여 다양한 분석에 이용 가능
다형성 암호화 각 도메인별로 서로 다른 가명정보를 처리할 수 있도록 정보 제공 시 서로 다른 방식의 암호화된 가명처리를 적용함에 따라 도메인별로 다른 가명정보를 가지게 됨

 

기술 세부기술 설명
무작위화 기술 잡음 추가 개인정보에 임의의 숫자 등 잡음을 추가하는 방법
순열(치환) - 기존 값을 유지하면서 개인이 식별되지 않도록 데이터를 재배열하는 방법
- 개인정보를 다른 행 항목의 정보와 무작위로 순서를 변경하여 전체정보에 대한 변경 없이 특정 정보가 해당 개인과 연결되지 않도록 하는 방법
토큰화 - 개인을 식별할 수 있는 정보를 토큰으로 변환 후 대체함으로써 개인정보를 직접 사용하여 발생하는 식별 위험을 제거하여 개인정보를 보호하는 기술
- 토큰 생성 시 적용하는 기술은 의사난수생성기법이나 암호화 기법을 주로 사용
(의사)난수생성기 주어진 입력값에 대해 예측이 불가능하고 패턴이 없는 값을 생성하는 매커니즘으로 임의의 숫자를 개인정보에 할당

 

4, 가명·익명처리를 위한 다양한 기술

세부기술 설명
표본추출 데이터 주체별로 전체 모집단이 아닌 표본에 대해 무작위 레코드 추출 등의 기법을 통해 모집단의 일부를 분석하여 전체에 대한 분석을 대신하는 기법
해부화 기존 하나의 데이터셋(테이블)을 식별성이 있는 정보집합물과 식별성이 없는 정보집합물로 구성된 2개 이상의 데이터 셋으로 분리하는 기술
재현데이터 원본과 최대한 유사한 통계적 성질을 보이는 가상의 데이터를 생성하기 위해 개인정보의 특성을 분석하여 새로운 데이터를 생성하는 기법
동형비밀분산 식별정보 또는 기타 식별가능정보를 메시지 공유 알고리즘에 의해 생성된 두개 이상의 쉐어(Share)로 대체
* Share: 기밀사항을 재구성하는 데 사용할 수 있는 하위 집합
차분 프라이버시 - 특정 개인에 대한 사전지식이 있는 상태에서 데이터베이스 질의에 대한 응답 값으로 개인을 알 수 없도록 응답값에 임의의 숫자 잡음을 추가하여 특정 개인의 존재 여부를 알 수 없도록 하는 기법
- 1개 항목이 차이나는 두 데이터베이스간의 차이(확률분포)를 기준으로 하는 프라이버시 보호 모델

 

2. 위험성 검토 결과를 반영한 가명처리 계획 작성 방안

 

# 가명정보처리 가이드라인은 위험성 검토결과에 따른 데이터와 처리환경의 위험에 대해 다음과 같은 조치를 할 것을 권고하고 있음

- 데이터의 재식별 위험 감소 방안

  • 식별 정보
  • 식별가능정보
  • 특이 정보
  • 재식별시 영향도

- 처리환경의 재식별 위험 감소방안

  • 이용 및 제공
  • 처리장소
  • 다른 정보와의 결합

# 재식별 위험성 검토 결과를 반영하여 재식별 위험을 제거하는 방향으로 작성되어야 함


Privacy Model의 이해

1. Privacy Model 개요

 

# 배경 및 목적

- PPDM: 데이터 마이닝 작업 시 개인정보 보호를 위한 방법

- PPDP: 데이터 제공 시 개인정보 보호를 위한 방법

- PPDM과 PPDP환경에서 데이터의 재식별 위험에 대해 정량적인 위험성을 규정하는 방법

- 비식별 처리 기술만으로는 재식별화 공격에 대하여 정량적인 위험에 대한 보장을 제공하지 못함

-> 일련의 기밀성 모델이 고안되어 재식별화의 위험성 계산

 

# 가능한 추론의 형태와 프라이버시 노출에 대한 정량적인 위험성을 규정하는 방법

 

# 프라이버시 모델 종류

 

# 빅데이터 비식별화 기본 원칙

1. 식별방지

2. 추론방지

 

* 프라이버시 모델: 다양한 추론 공격에 대해 개인정보 추론 위험 정도를 확률적/정량적으로 제한하는 방법론

 

2. 제공을 위한 프라이버시 모델

 

# 데이터 제공을 위한 프라이버시 모델

- k-익명성: 데이터 공개 시 프라이버시 보호를 위한 기본 모델

- 공개된 데이터에 대한 연결 공격 등 취약점을 방어하기 위해 제안된 프라이버시 보호 모델

- 레코드 단위의 연결공격이 아닌 속성 연결공격, 테이블 연결 공격 등의 공격방법에 대해서는 막을 수 없음

 -> 배경 지식 공격, 동질성 공격

- k-익명성의 처리 절차: 지정된 k 값과 레코드 삭제 비율을 이용하여 레티스를 통한 계산 수행

 

- l-다양성: k-익명성의 취약점을 보완한 프라이버시 보호 모델

- k-익명성에 대한 두 가지 공격, 즉 동질성 공격 및 배경지식에 의한 공격을 방어하기 위한 모델

- 주어진 데이터 집합에서 함께 비식별되는 레코드들은 적어도 l개의 서로 다른 민감한 정보를 가져가야 함

 

- t-근접성: 유사한 공격을 막기 위해 원본테이블과 동질 클래스의 민감한 속성 값의 분포가 얼마나 가까운지를 계산하여 지정된 값 이상인 경우 사용하는 모델

- 일반적으로 Earth Mover's Distance(EMD)를 사용하여 거리를 계산함

 

- m-불변성: 주기적인 데이터 제공에서는 제공되었던 데이터와 새로 제공될 데이터를 결합하여 개인을 식별할 수 있는 위험이 추가적으로 발생함

- 지속적인 공개 시 기존에 있는 레코드에 대해 실제 데이터에서 레코드가 삭제되더라도 위조 레코드를 추가하여 식별을 하지 못하도록 하는 프라이버시 보호모델

- 1차로 제공된 데이터의 레코드를 그대로 유지

 

# 데이터 조회를 위한 프라이버시 모델

- Differential Privacy: 데이터베이스 레코드들에 확률적으로 변조를 가하여 레코드에 대한 식별 가능성을 제한해 민감한 정보를 높은 확률로 추측하지 못하도록 막기 위한 모델

- 특정 개인의 존재 유무가 다른 두 데이터베이스 버전에 대하여 어떠한 질의에 출력 값에 랜덤성을 추가하여 두 버전의 질의 응답값이 확률적으로 일정 이하의 차이를 갖도록 함으로서 버전 차이에 따른 차분 공격을 어렵게 하는 프라이버시보호 모델을 말함

- ε-Differential Privacy

- ε이 작을수록 프라이버시가 강화됨

 

3. 해외의 프라이버시 모델 적용 사례

 

# 미국 통계청

# 구글

# 의료 분야

# 애