1. 데이터 수집 및 전환
1-1. 데이터 수집
데이터 처리 시스템에 들어갈 데이터를 모으는 과정으로 여러 장소에 있는 데이터를 한 곳으로 모으는 것이다.
1) 데이터 수집 수행자료
- 용어집
- 서비스 흐름도
- 업무 메뉴얼
- 데이터 명세서
- 데이터 수집 계획서
- 원천 데이터 담당자 정보
- 비즈니스 및 원천 데이터 파악을 위한 비즈니스 모델
- 원천 데이터 소유 기관 정보
- 데이터 수집 기술 메뉴얼
- 인프라 구성도
- 소프트웨어 아키텍쳐 개념도
- 수집 솔루션 메뉴얼
- 하둡 오퍼레이션 메뉴얼
2) 데이터 수집 기술
① 데이터 유형별 데이터 수집 기술
데이터 유형 | 데이터 수집 방식/기술 | 설명 |
정형 데이터 |
ETL(Extract Transform Load) | 수집 대상 데이터를 추출 및 가공하여 데이터 웨어 하우스에 저장하는 기술이다. |
FTP(File Transfer Protocol) | TCP/IP나 UDP 프로토콜을 통해 원격지 시스템으로부터 파일을 송수신하는 기술이다. | |
API(Application Programming Interface) | 솔루션 제조사 및 3rd party 소프트웨어로 제공되는 도구로, 시스템 간 연동을 통해 실시간으로 데이터를 수신할 수 있도록 기능을 제공하는 인터페이스이다. | |
DbToDB | 데이터 베이스 관리시스템(DBMS)간 데이터를 동기화 또는 전송하는 방법이다. | |
스쿱(Sqoop) | 관계형 데이터 베이스(RDBMS)와 하둡(hadoop) 간 데이터를 전송하는 방법이다. | |
비정형 데이터 |
크롤링(Crawling) | 인터넷상에서 제공되는 다양한 웹 사이트로부터 소셜 네트워크 정보, 뉴스, 게시판 등으로부터 웹 문서 및 정보를 수집하는 기술이다. |
RSS(Rich Site Summary) | 블로그, 뉴스, 쇼핑몰 등의 웹 사이트에 게시된 새로운 글을 공유하기 위해 XML 기반으로 정보를 배포하는 프로토콜이다. | |
Open API | 응용 프로그램을 통해 실시간으로 데이터를 수신할 수 있도록 공개된 API이다. | |
척와(Chuckwa) | 분산 시스템으로부터 데이터 수집, 하둡 파일 시스템에 저장 실시간으로 분석할 수 있는 기능을 제공한다. | |
카프카(Kafka) | 대용량 실시간 로그 처리를 위한 분산 스트리밍 플랫폼 기술이다. | |
반정형 데이터 |
플럼(Flume) | 분산 환경에서 대량의 로그 데이터를 수집 전송하고 분석하는 기능을 제공한다. |
스크라이브(Scribe) | 다수의 수집 대상 서버로부터 실시간으로 데이터 수집, 분산, 시스템에 데이터를 저장하는 기능을 제공한다. | |
센싱(Sencing) | 센서로부터 수집 및 생성된 데이터를 네트워크를 통해 활용하여 수집하는 기능을 제공한다. | |
스트리밍(Streaming) -TCP, UDP, Bluetooth, RFID |
네트워크를 통해 센서 데이터 및 오디오, 비디오 등의 미디어 데이터를 실시간으로 수집하는 기술이다. |
2. 데이터 유형 및 속성 파악
2-1. 데이터 유형과 위치 및 비용
1) 데이터 위치
수집된 데이터의 원천에 따라 내부 데이터와 외부 데이터로 구분할 수 있다.
위치 | 특징 | 분석가치 |
내부 데이터 | - 내부 조직간 협의를 통해 수집한다. - 대부분의 정형 데이터로 존재한다. - 데이터 담당자와 협의가 원활하다. - 비용 및 데이터 수집 난이도가 낮다. - 서비스의 수명 주기 관리가 용이하다. |
보통 |
외부 데이터 | - 외부 조직과 협약, 데이터 구매, 웹 상의 오픈 데이터를 통해 수집한다. - 대부분 반정형, 비정형 데이터로 존재한다. - 외부 데이터 담당자와 의사소통이 어렵다. - 대부분 추가적인 데이터 가공 작업이 필요하다. - 비용 및 데이터 수집 난이도가 높다. - 외부 환경에 대한 통제 어려움에 따른 서비스 관리정책 수립이 필요하다. |
높음 |
2) 데이터 적절설 검증
① 데이터 누락 점검 : 수집 데이터 세트의 누락, 결측 여부를 판단하여 누락 발생시 재수집한다.
② 소스 데이터와 비교 : 수집 데이터와 소스 데이터의 사이즈 및 개수를 비교 검증한다.
③ 데이터의 정확성 점검 : 유효하지 않는 데이터 존재여부를 점검한다.
④ 보안사항 점검 : 수집 데이터의 개인 정보 유무등 보안 사항의 점검이 필요하다.
⑤ 저작권 점검 : 데이터의 저작권 등 법률적 검토를 수행한다.
⑥ 대량 트래픽 발생 여부 : 네트워크 및 시스템에 트래픽을 발생시키는 데이터 여부를 검증한다.
3. 데이터 비식별화
3-1. 비식별화 개요
1) 비식별 조치 방법
- 가명처리, 총계처리, 데이터 삭제, 데이터 범주화, 데이터 마스킹 등 여러가지 기법을 단독 또는 복합적으로 활용한다.
- 각각의 기법에는 이를 구현할 수 있는 다양한 세부기술이 있으며 데이터 이용 목적과 기법별 장 단점등을 고려하여 적절한 기법 세부 기술을 선택 활용 한다.
처리기법 | 설명 및 예시 | 세부기술 |
가명처리 (Psedonymization) |
- 개인정보 중 주요 식별요소를 다른 값으로 대체하는 방법이다. - 값을 대체시 규칙이 노출되어 역으로 쉽게 식별할 수 없도록 주의해야 한다. - ex) 홍길동, 35세, 서울거주, 한국대 재학 -> 임꺽정, 30대, 서울거주, 국제대 재학 |
① 휴리스틱 가명화 ② 암호화 ③ 교환 방법 |
총계처리 (Aggregation) |
- 데이터의 총합 값을 보여주고 개별 값을 보여주지 않는 방법이다. - 특정 속성을 지닌 개인으로 구성된 단체의 속성 정보를 공개하는 것은 그 집단에 속한 개인의 정보를 공개하는 것과 마찬가지이므로 주의해야한다. - ex) 임꺽정 180cm, 홍길동 170cm, 이콩쥐 160cm, 김팥쥐 150cm -> 물리학과 학생 키 합 : 660cm, 평균키 165cm |
① 총계처리 ② 부분총계 ③ 라운딩 ④ 재배열 |
데이터 삭제 (Data Reduction) |
- 데이터 공유나 개방 목적에 따라 데이터 셋에 구성된 값 중 필요 없는 값 또는 개인식별에 중요한 값을 삭제하는 방법이다. - ex) 주민등록 번호는 901206-1234567 -> 90년대생, 남자(개인과 관련된 날짜 정보(합격일 등)는 연단위로 처리) |
① 식별자 삭제 ② 식별자 부분삭제 ③ 레코드 삭제 ④ 식별요소 전부삭제 |
데이터 범주화 (Data Suppression) |
- 데이터의 값을 범주의 값으로 변환하여 값을 숨기는 방법이다. - ex) 홍길동, 35세 -> 홍씨, 30~40세 |
① 감추기 ②랜덤 라운딩 ③ 범위 방법 ④ 제어 라운딩 |
데이터 마스킹 (Data Masking) |
- 개인을 식별하는데 기여할 확률이 높은 주요 식별자를 보이지 않도록 처리하는 방법이다. - 남아있는 정보만으로 개인을 식별할 수 없어야하며, 공개된 다른 정보와 결합하더라도 특정 개인을 식별할 수 없어야 한다. |
① 임의 잡음 추가 ② 공백과 대체 |
2) 적정성 평가
- 개인정보 비식별 조치가 충분하지 않은 경우 공개 정보 등 다른 정보와의 결합, 다양한 추론 기법 등을 통해 개인이 식별될 우려가 있으므로, 개인정보 보호책임자 책임 하에 외부 전문가가 참여하는 [비식별 조치 적정성 평가단]을 구성, 개인식별 가능성에 대한 엄격한 평가가 필요하다.
- 적정성 평가시 프라이버시 보호 모델 중 최소한의 수단으로 k-익명성을 활용하며, 필요시 추가적인 평가모델(l-다양성, t-근접성)을 활용한다.
기법 | 의미 | 적용 |
k-익명성 | 특정임을 추론할 수 있는지 여부를 검토, 일정 확률수준 이상 비식별 되도록 하는 기법이다. | 동일한 값을 가진 레코드를 k개 이상으로 하며, 이 경우 특정 개인을 식별할 확률은 1/k이다. |
l-다양성 | 특정인 추론이 안된다고 해도 민감한 정보의 다양성을 높여 추론 가능성을 낮추는 기법이다. | 각 레코드는 최소 l개 이상의 다양성을 가지도록 하여 동질성 또는 배경지식 등에 의한 추론을 방지한다. |
t-근접성 | l-다양성뿐만 아니라, 민감한 정보의 분포를 낮추어 추론 가능성을 더욱 낮추는 기법이다. | 전체 데이터 집합의 정보 분포와 특정 정보의 분포 차이를 t이하로 하여 추론을 방지한다. |
'빅데이터분석기사 > 필기' 카테고리의 다른 글
(4과목) 빅데이터 결과 해석 ① (0) | 2024.03.26 |
---|---|
(2과목) 빅데이터 탐색 ② (1) | 2024.03.21 |
(2과목) 빅데이터 탐색 ① (0) | 2024.03.19 |
(1과목) 빅데이터 분석 기획 ② (2) | 2024.03.17 |
(1과목) 빅데이터 분석 기획 ① (3) | 2024.03.17 |
댓글