빅데이터분석기사/필기

(1과목) 빅데이터 분석 기획 ③

Zoo_10th 2024. 3. 18.

1. 데이터 수집 및 전환

1-1. 데이터 수집

데이터 처리 시스템에 들어갈 데이터를 모으는 과정으로 여러 장소에 있는 데이터를 한 곳으로 모으는 것이다.

1) 데이터 수집 수행자료

 - 용어집

 - 서비스 흐름도

 - 업무 메뉴얼

 - 데이터 명세서

 - 데이터 수집 계획서

 - 원천 데이터 담당자 정보

 - 비즈니스 및 원천 데이터 파악을 위한 비즈니스 모델

 - 원천 데이터 소유 기관 정보

 - 데이터 수집 기술 메뉴얼

 - 인프라 구성도

 - 소프트웨어 아키텍쳐 개념도

 - 수집 솔루션 메뉴얼

 - 하둡 오퍼레이션 메뉴얼

기초 데이터 수집 수행 절차
데이터 수집 시스템 구축 절차

2) 데이터 수집 기술

① 데이터 유형별 데이터 수집 기술

데이터 유형 데이터 수집 방식/기술 설명
정형
데이터
ETL(Extract Transform Load) 수집 대상 데이터를 추출 및 가공하여 데이터 웨어 하우스에 저장하는 기술이다.
FTP(File Transfer Protocol) TCP/IP나 UDP 프로토콜을 통해 원격지 시스템으로부터 파일을 송수신하는 기술이다.
API(Application Programming Interface) 솔루션 제조사 및 3rd party 소프트웨어로 제공되는 도구로, 시스템 간 연동을 통해 실시간으로 데이터를 수신할 수 있도록 기능을 제공하는 인터페이스이다.
DbToDB 데이터 베이스 관리시스템(DBMS)간 데이터를 동기화 또는 전송하는 방법이다.
스쿱(Sqoop) 관계형 데이터 베이스(RDBMS)와 하둡(hadoop) 간 데이터를 전송하는 방법이다.
비정형
데이터
크롤링(Crawling) 인터넷상에서 제공되는 다양한 웹 사이트로부터 소셜 네트워크 정보, 뉴스, 게시판 등으로부터 웹 문서 및 정보를 수집하는 기술이다.
RSS(Rich Site Summary) 블로그, 뉴스, 쇼핑몰 등의 웹 사이트에 게시된 새로운 글을 공유하기 위해 XML 기반으로 정보를 배포하는 프로토콜이다.
Open API 응용 프로그램을 통해 실시간으로 데이터를 수신할 수 있도록 공개된 API이다.
척와(Chuckwa) 분산 시스템으로부터 데이터 수집, 하둡 파일 시스템에 저장 실시간으로 분석할 수 있는 기능을 제공한다.
카프카(Kafka) 대용량 실시간 로그 처리를 위한 분산 스트리밍 플랫폼 기술이다.
반정형
데이터
플럼(Flume) 분산 환경에서 대량의 로그 데이터를 수집 전송하고 분석하는 기능을 제공한다.
스크라이브(Scribe) 다수의 수집 대상 서버로부터 실시간으로 데이터 수집, 분산, 시스템에 데이터를 저장하는 기능을 제공한다.
센싱(Sencing) 센서로부터 수집 및 생성된 데이터를 네트워크를 통해 활용하여 수집하는 기능을 제공한다.
스트리밍(Streaming)
-TCP, UDP, Bluetooth, RFID
네트워크를 통해 센서 데이터 및 오디오, 비디오 등의 미디어 데이터를 실시간으로 수집하는 기술이다.

2. 데이터 유형 및 속성 파악

2-1. 데이터 유형과 위치 및 비용

1) 데이터 위치

수집된 데이터의 원천에 따라 내부 데이터와 외부 데이터로 구분할 수 있다.

위치 특징 분석가치
내부 데이터  - 내부 조직간 협의를 통해 수집한다.
 - 대부분의 정형 데이터로 존재한다.
 - 데이터 담당자와 협의가 원활하다.
 - 비용 및 데이터 수집 난이도가 낮다.
 - 서비스의 수명 주기 관리가 용이하다.
보통
외부 데이터  - 외부 조직과 협약, 데이터 구매, 웹 상의 오픈 데이터를 통해 수집한다.
 - 대부분 반정형, 비정형 데이터로 존재한다.
 - 외부 데이터 담당자와 의사소통이 어렵다.
 - 대부분 추가적인 데이터 가공 작업이 필요하다.
 - 비용 및 데이터 수집 난이도가 높다.
 - 외부 환경에 대한 통제 어려움에 따른 서비스 관리정책 수립이 필요하다.
높음

2) 데이터 적절설 검증

① 데이터 누락 점검 : 수집 데이터 세트의 누락, 결측 여부를 판단하여 누락 발생시 재수집한다.

② 소스 데이터와 비교 : 수집 데이터와 소스 데이터의 사이즈 및 개수를 비교 검증한다.

③ 데이터의 정확성 점검 : 유효하지 않는 데이터 존재여부를 점검한다.

④ 보안사항 점검 : 수집 데이터의 개인 정보 유무등 보안 사항의 점검이 필요하다.

⑤ 저작권 점검 : 데이터의 저작권 등 법률적 검토를 수행한다.

⑥ 대량 트래픽 발생 여부 : 네트워크 및 시스템에 트래픽을 발생시키는 데이터 여부를 검증한다.

3. 데이터 비식별화

3-1. 비식별화 개요

1) 비식별 조치 방법

 - 가명처리, 총계처리, 데이터 삭제, 데이터 범주화, 데이터 마스킹 등 여러가지 기법을 단독 또는 복합적으로 활용한다.

 - 각각의 기법에는 이를 구현할 수 있는 다양한 세부기술이 있으며 데이터 이용 목적과 기법별 장 단점등을 고려하여 적절한 기법 세부 기술을 선택 활용 한다. 

처리기법 설명 및 예시 세부기술
가명처리
(Psedonymization)
 - 개인정보 중 주요 식별요소를 다른 값으로 대체하는 방법이다.
 - 값을 대체시 규칙이 노출되어 역으로 쉽게 식별할 수 없도록 주의해야 한다.
 - ex) 홍길동, 35세, 서울거주, 한국대 재학
    -> 임꺽정, 30대, 서울거주, 국제대 재학
① 휴리스틱 가명화
② 암호화
③ 교환 방법
총계처리
(Aggregation)
 - 데이터의 총합 값을 보여주고 개별 값을 보여주지 않는 방법이다.
 - 특정 속성을 지닌 개인으로 구성된 단체의 속성 정보를 공개하는 것은 그 집단에 속한 개인의 정보를 공개하는 것과 마찬가지이므로 주의해야한다.
 - ex) 임꺽정 180cm, 홍길동 170cm, 이콩쥐 160cm, 김팥쥐 150cm
   -> 물리학과 학생 키 합 : 660cm, 평균키 165cm
① 총계처리
② 부분총계
③ 라운딩
④ 재배열
데이터 삭제
(Data Reduction)
 - 데이터 공유나 개방 목적에 따라 데이터 셋에 구성된 값 중 필요 없는 값 또는 개인식별에 중요한 값을 삭제하는 방법이다.
- ex) 주민등록 번호는 901206-1234567
   -> 90년대생, 남자(개인과 관련된 날짜 정보(합격일 등)는 연단위로 처리)
① 식별자 삭제
② 식별자 부분삭제
③ 레코드 삭제
④ 식별요소 전부삭제
데이터 범주화
(Data Suppression)
 - 데이터의 값을 범주의 값으로 변환하여 값을 숨기는 방법이다.
 - ex) 홍길동, 35세 -> 홍씨, 30~40세
① 감추기
②랜덤 라운딩
③ 범위 방법
④ 제어 라운딩
데이터 마스킹
(Data Masking)
 - 개인을 식별하는데 기여할 확률이 높은 주요 식별자를 보이지 않도록 처리하는 방법이다.
 - 남아있는 정보만으로 개인을 식별할 수 없어야하며, 공개된 다른 정보와 결합하더라도 특정 개인을 식별할 수 없어야 한다.
① 임의 잡음 추가
② 공백과 대체

2) 적정성 평가

 - 개인정보 비식별 조치가 충분하지 않은 경우 공개 정보 등 다른 정보와의 결합, 다양한 추론 기법 등을 통해 개인이 식별될 우려가 있으므로, 개인정보 보호책임자 책임 하에 외부 전문가가 참여하는 [비식별 조치 적정성 평가단]을 구성, 개인식별 가능성에 대한 엄격한 평가가 필요하다.

 - 적정성 평가시 프라이버시 보호 모델 중 최소한의 수단으로 k-익명성을 활용하며, 필요시 추가적인 평가모델(l-다양성, t-근접성)을 활용한다.

기법 의미 적용
k-익명성 특정임을 추론할 수 있는지 여부를 검토, 일정 확률수준 이상 비식별 되도록 하는 기법이다. 동일한 값을 가진 레코드를 k개 이상으로 하며, 이 경우 특정 개인을 식별할 확률은 1/k이다.
l-다양성 특정인 추론이 안된다고 해도 민감한 정보의 다양성을 높여 추론 가능성을 낮추는 기법이다. 각 레코드는 최소 l개 이상의 다양성을 가지도록 하여 동질성 또는 배경지식 등에 의한 추론을 방지한다.
t-근접성 l-다양성뿐만 아니라, 민감한 정보의 분포를 낮추어 추론 가능성을 더욱 낮추는 기법이다. 전체 데이터 집합의 정보 분포와 특정 정보의 분포 차이를 t이하로 하여 추론을 방지한다.
728x90

댓글