빅데이터분석기사/필기

(1과목) 빅데이터 분석 기획 ①

Zoo_10th 2024. 3. 17.

1. 빅데이터 개요 및 활용

1-1. 데이터의 정의 

1) 데이터는 추론과 추정의 근거를 이루는 사실이다.

2) 현실세계에서 관찰하거나 측정하여 수집한 사실이다.

1-2. 데이터 특징

1) 단순한 객체로도 가치가 있으며 다른 객체와의 상호관계 속에서 더 큰 가치를 갖는다. 

2) 개고간적 사실이라는 존재적 특성을 갖는다.

3) 추론, 추정, 예측, 전망을 위한 근거로써 당위적 특성을 갖는다.

1-3. 데이터의 구분

1) 정량적 데이터(Quantitative Data) : 주로 숫자로 이루어진 데이터이다.

2) 정성적 데이터(Qualitative Data) : 문자와 같은 텍스트로 구성되며 함축적 의미를 가지고 있는 데이터이다. 

1-4. 데이터 유형

1) 정형데이터(structured Data) : 정해진 형식과 구조에 맞게 저장되도록 구성된 데이터이며, 연산이 가능하다

ex) 테이블에 저장되는 데이터(표)

2) 반정형 데이터(Semi-structured Data) : 데이터 형식과 구조가 비교적 유연하고, 스키마 정보를 데이터와 함께 제공하는 파일 형식의 데이터이며 연산이 불가하다.

ex) JSON, XML, RDF, HTML

3) 비정형 데이터(Unstructured Data) : 구조가 정해지지 않은 대부분의 데이터이며, 연산이 불가능한다.

ex) 동영상, 이미지, 음성, 문서, 메일

1-5. 데이터의 근원에 따른 분류 

1) 가역 데이터 : 데이터의 원본으로 일정 수준 환원이 가능한 데이터로 원본과 1:1 관계를 갖는다. 원본 데이터가 변경되는 경우 변경사항을 반영할 수 있다.

2) 불가역 데이터 : 데이터의 원본으로 환원이 불가능한 데이터이다. 원본데이터와는 전혀 다른 형태로 재생산되기 때문에 원본 데이터의 내용이 변경되었더라도 변경 사항을 반영할 수 없다.

1-6. 데이터의 기능

지식은 다음과 같이 두 가지의 형태로 구부할 수 있다.

1) 암묵지 : 외부에 표출되지 않은 무형의 지식으로 그 전달과 공유가 어렵다. ex)지식

2) 형식지 : 형상화된 유형의 지식으로 그 전달과 공유가 쉽다 ex)책

1-7. 지식창조 매커니즘

1) 공통화 (Socialization) : 서로의 경험이나 인식을 공유하며 한차원 높은 암묵지로 발전시킨다.

2) 표출화 (Externalization) : 암묵지가 구체화되어 외부(형식지)로 표현된다.

3) 연결화 (Combination) : 형식지를 재분류하여 체계화한다.

4) 내면화 (Internalization) : 전달 받은 형식지를 다시 개인의 것으로 만든다. 

1-8. DIKW의 정의

지혜(Wisdom)  지식의 축적과 아이디어가 결합된 창의적 산물
지식(Knowledge) 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합해
고유의 지식으로 내재화된 것
정보(Information) 데이터의 가공, 처리 및 데이터 간 연관관계 속에서 의미가 도출된것
데이터(Data) 가공전의 객관적 사실, 의미가 중요하지않음

2. 데이터 베이스

2-1. 데이터 베이스 관리 시스템(DBMS : DataBase Management System)

종류 설명
관계형 DBMS 데이터를 열과 행을 이루는 테이블로 표현한 모델이다.
객체지향 DBMS 정보를 객체 형태로 표현하는 모델이다.
네트워크 DBMS 그래프 구조를 기반으로 하는 모델이다.
계층형 DBMS 트리 구조를 기반으로 하는 모델이다.

2-2 . 데이터 베이스 특징

1) 동일한 데이터 들이 중복 되지 않게 저장되어 있다.

2) 컴퓨터에 저장되어 있다.

3) 여러 사용자가 사용할 수 있다.

4) 데이터가 수정 될 수 있다.(최신 상태 유지)

2-3. 데이터 베이스 활용

1) OLTP(OnLine Transaction Processing)

호스트 컴퓨터와 온라인으로 접속된 여러 단말 간 처리 형태의 하나로 데이터 베이스 의 데이터를 수시로 갱신하는 프로세싱이다.

2) OLAP(OnLine Analytical Processing)

정보 위주의 분석을 처리하는  것으로 OLTP에서 처리된 트랜젝션 데이터를 분석해 제품의 판매 추이, 구매 성향 파악, 재무 회계 분석 등을 프로세싱 하는걸 의미한다.

구분 OLTP OLAP
데이터 구조 복잡 단순
데이터 갱신 동적으로 순간적 정적으로 주기적
응답 시간 수 초 이내 수 초에서 몇 분 사이
데이터 범위 수 십일 전 후 오랜 기간 저장
데이터 성격 정규적인 핵심 데이터 비정규적 읽기 전용 데이터
데이터의 크기 수 기가바이트 수 테라바이트
데이터 내용 현재 데이터 요약된 데이터
데이터 특성 트랜젝션 중심 주제 중심
데이터 액세스 빈도 높음  보통
질의 결과 예측 주기적이며 예측이 가능 예측하기 어려움

2-4. 데이터 웨어하우스(DW : Data Warehouse)

데이터 웨어하우스는 일정한 시간 동안의 데이터를 축적하고 의사결정을지원하며 다양한 분석 작업을 수행하는 정보 관리 시스템이다.

구성 요소 내용
데이터 모델
(Data Model)
주제 중심적으로 구성된 다차원의 개체-관계형(Entity Relation) 모델로 설계된다.
ETL
(Extract, Transform,
Load)
기업의 내부 또는 외부로부터 데이터를 추출, 정제 및 가공하여 데이터 웨어하우스에 적재한다.
ODS
(Operational Data Store)
다양한 DBMS 시스템에서 추출한 데이터를 통합적으로 관리한다.
DW 메타데이터 데이터 모델에 대한 스키마 정보와 비즈니스 측면에서 활용되는 정보를 제공한다.
OLAP
(OnLine Analytical
Processing)
사용자가 직접 다차원의 데이터를 확인할 수 있는 솔루션이다.
데이터마이닝
(Data Mining)
대용량의 데이터로부터 인사이트를 도출할 수 있는 방법론이다.
분석 도구 데이터마이닝을 활용하여 데이터 웨어하우스에 적재된 데이터를 분석할 수 있는 도구이다.
경영기반 솔루션 KMS,DSS,BI와 같은 경영의사 결정을 지원하기 위한 솔루션이다.

3. 빅데이터

3-1. 빅데이터의 특징(3V)

3-2. 빅데이터 등장으로 인한 변화

1) 데이터 처리 시점이 사전 처리(pre-processing)에서 사후 처리(post-pro-cessing)로 이동하였다.

2) 데이터 처리 범주가 표본조사에서 전수조사로 확대 되었다.

3) 데이터의 가치 판단 기준이 질(quality)보다 양(quantity)로 중요도가 달라졌다.

4) 데이터를 분석하는 방향이 이론적 인과관계 중심에서 단순한 상관 관계로 변화되는 경향이 있다.

3-3. 바이트 처리 단위

바이트(byte)는 컴퓨터가 조작하는 정보의 최소 처리 단위이다.

1KB = 1024byte = 2^10≒10^3

3-4. 빅데이터의 활용

빅데이터의 활용을 위한 3요소

구성 요소 내용
자원(Resource)
[빅데이터]
정형, 반정형, 비정형 데이터를 실시간으로 수집한다.
수집된 데이터를 전처리 관정을 통해 품질을 향상시킨다.
기술(Technology)
[빅데이터플랫폼, AI]
분산 파일 시스템을 통해 대용량 데이터를 분산 처리한다.
데이터마이닝 등을 통해 데이터를 분석 및 시각화 한다.
데이터를 스스로 학습, 처리할 수 있는 AI 기술을 활용한다.
인력(People)
[알고리즈미스트,
데이터사이언티스트]
통계, 수학, 컴퓨터공학, 경영학 분야 전문지식을 갖춘다.
도메인 지식은 습득하여 데이터 분석 및 결과를 해석한다.

3-5. 빅데이터의 가치 측정의 어려움

1) 데이터 활용 방식 : 데이터를 재사용하거나 재결합, 다목정용 데이터 개발 등이 일반화되면서 특정 데이터를 누가, 언제, 어디서 활용할지 알 수 없기에 그 가치를 측정하기 어렵다.

2) 가치 창출 방식 : 데이터는 어떠한 목적을 갖고서 어떻게 가공하는가에 따라 기존에 없던 가치를 창출할 수도 있어 사전에 그 가치를 측정하기 어렵다.

3) 분석 기술의 발전 데이터는 지금의 기술 상황에서 가치가 없어 보일지라도 새로운 부석 기법이 등장할 경우 큰 가치를 찾아낼 수 있으므로 당장 그 가치를 측정하기 어렵다.

4) 데이터 수집 원가 : 데이터는 달성 하려면 목적에 따라 수집하거나 가공하는 비용이 상황에 따라 달라질 수 있어 그 가치를 측정하기 어렵다.

3-6. 데이터 사업의 진화

데이터 산업은 데이터 처리 - 통합 - 분석 - 연결 - 권리 시대로 진화하고 있다. 

 - 데이터 통합 시대 까지 데이터의 역할은 거래를 정확하게 기록하고 거래의 자동화를 지원하는 것이었다. 데이터 분석 수준이 향상되면서 데이터의 자원 활용이 가능해졌다.

3-7. 빅데이터 조직 및 인력

4. 빅데이터 플랫폼

빅데이터 플랫폼은 빅데이터 수집부터 저장, 처리, 분석 등 전 과정을 통합적으로 제공하여 잘 사용할 수 있도록 준비된 환경이다.

4-1. 빅데이터 플랫폼의 구조

5. 빅데이터 처리 기술

5-1. 빅데이터 처리과정과 요소기술 

1) 생성

 - 데이터베이스나 파일 관리 시스템과 같은 내부 데이터가 있다.

 - 인터넷으로연절된 외부로부터 생성된 파일이나 데이터가 있다.

2) 수집

 - 크롤링을 통해 데이터 원천으로부터 데이터를 검색하여 수집한다.

 -  ETL을 통해 소스 데이터로부터 추출하고, 변환하여, 적재한다.

 - 단순한 수집이 아니라 검색 및 수집, 변환 과정을 모두 포함한다.

 - 로그 수집기나, 센서 네트워크 및 Open API 등을 활용할 수 있다.

3) 저장(공유)

 - 저렴한 비용으로 데이터를 쉼고 빠르게 많이 저장한다.

 - 정형 데이터뿐만 아니라 반정형, 비정형 데이터도 포함한다.

 - 병렬 DBMS나 하둡(Hadoop), NoSQL 등 다양한 기술을 사용할 수 있다.

 - 시스템 간의 데이터를 서로 공유할 수 있다.

4) 처리

 - 데이터를 효과적으로 처리하는 기술이 필요한 단계이다.

 - 분산 병렬 및 인메모리(In-memory) 방식으로 실시간 처리한다.

 - 대표적으로 하둡(Hadoop)의 맵리듀스(MapReduce)를 활용할수 있다.

5) 분석

 - 데이터를 신속하고 정확하게 분석하여 비즈니스에 기여한다.

 - 특정 분야 및 목적의 특성에 맞는 분석 기법 선택이 중요하다.

 - 통계분석. 데이터 마이닝, 텍스트 마이닝, 기계학습 방법 등이 있다.

6) 시각화

 - 빅데이터 처리 및 분석 결과를 사용자에게 보여주는 기술이다.

 - 다양한 수치나 관계 등을 표, 그래프 등을 이용해 쉽게 표현하고 탐색이나 해석에 활용한다.

 - 정보 시각화 기술, 시각화 도구, 편집 기술, 실시간 자료 시각화 기술로 구성되어 있다.

5-2. 빅 데이터 수집

 - 크롤링(Crawing): 무수히 많은 컴퓨터에 분산 저장되어 있는 문서를 수집하여 검색 대상의 색인으로 포함시키는 기술이다. 어느 부류의 기술을 얼마나 빨리 검색 대상에 포합시키는가로 우위를 결정한다.

 - 로그수집기 : 조직 내부에 있는 웹 서버나 시스템의 로그를 수집하는 소프트웨어다. 웹 로그나 트랜잭션 및 클릭 로그 등 각종 로그를 하나의 데이터로 수집한다.

 - 센서 네트원크(Sensor Nework) : 유비쿼터스 컴퓨팅 구현을 위한 초경량 저전력의 많은 센서들로 구성된 유무선 네트워크이다. 센서를 통하여 획득된 여러 정보를 네트워크로 구성된 동합 환경 내에서 재구성하여 처리한다.

 - RSS Reader/Open API 데이터의 생산. 공유. 참여할 수 있는 환경인 웹 2.0을 구현하는 기술이다. 필요한 데이터를 프로그래밍을 통해 수집할 수 있다.

 - ETL 프로세스 : 데이터의 추출(Extract), 변환(Transform),. 적재(Load)의 약어로 다양한 원천 데이터를 취합해 추출하고 공통된 형식으로 변환하여 적재하는 과정이다.

5-3. 빅데이터 저장

1) NoSQL(Not- only SQL)

전통적인 관계형 데이터베이스와는 다르게 데이터 모델을 단순화하여 설계된 비관계형 데이터베이스로 SQL 사용하지 않는 DBMS와 데이터 저장장치이다.

 - 기존의 RDBMS 트랜잭션 속성인 인자성(Atomicity), 일관성(Consistency),독림성(Isolation). 지속성(Durability) 유연하게 적용한다.

 - 데이터 업데이트가 즉각적으로 가능한 데이터 저장소이다. Cloudata. Hbase, Cassandra. MongoDB 등이 대표적이다.

2) 공유 데이터 시스템(Shared-data System)

 - 일관성, 가용성(Availability). 분할 내성(Partition Tolerance) 중에서 최대 두 개의 속성만 보유할 수 있다. (CAP 이론)

 - 분할 내성을 취하고 일관성과 가용성 중 하나를 포기하여 일관성과 가용성을 모두 취하는기존RDBMSH다높은 성능과 확장성을 제공한다.

3) 병렬 데이터베이스 관리 시스템(Parallel Database Management System)

 - 다수의 마이크로프로세서를 사용하여 여러 디스크에 질의, 갱신, 입출력 등 데이터베이스 처리를 동시에 수행하는 시스템이다.

 - 확장성을 제공하기 위해 작은 단위의 동작으로 트랜잭션 적용이 필요하다.

 - VoltDB, SAP HANA, Vertica, Greenplum, Netezza가 대표적이다.

4) 분산 파일 시스템

 - 네트워크로 공유하는 여러 호스트의 파일에 접근할 수 있는 파일 시스템이다.

 - 데이터를 분산하여 저장하면 데이터 추출 및 가공 시 빠르게 처리할 수 있다.

 - GFS(Google File System), HDFS(Hadoop Distributed File System) 아마존 S3 파일 시스템이 대표적이다.

5-4.빅데이터 처리

1) 분산 병렬 컴퓨팅

다수의 독립된 컴퓨팅 자원을 네트위크상에 연결하여 이를 제어하는 미들웨어(Middleware)를 이용해 하나의 시스템으로 동작하게 하는 기술이다.

 - 미들웨어 : 하드웨어나 프로토콜, 통신 환경 등을 연결하여 응용프로그램 간 원만한 통신이 이루어질 수 있게 하는 소프트웨어이다.

2) 하둡(Hadoop)

분산 처리 환경에서 대용량 데이터 처리 및 분석을 지원하는 오픈 소스 소프트웨어 프레임워크이다.

 - 야후에서 최초로 개발했으며, 지금은 아파치 소프트웨어 재단에서 프로젝트로 관리되고 있다.

 - 하둡 분산파일시스템인 HDFS와 분산갈럼기반 데이터베이스인 Hbase 분산 컴퓨팅 지원 프레임워크인 맵리듀스(MapReduce)로 구성되어 있다.

 - 분산파일시스템을 통해 수 천대의 장비에 대용량 파일울 나누어 저장할수있는 기능을제공한다.

 - 분산파일시스템에 저장된 대용랑의 데이터들을 맵리듀스를 이용하여 실시간으로 처리 및 분석 가능하다.

 - 하둡의 부족한 기능을 보완하는 하둡 에코시스템이 등장하여 다양한 솔루션을 제공한다.

3) 아파치 스파크(Apache Spark)

실시간 분산형 컴퓨팅 플랫폼으로 In-Memory 방식으로 처리를 하며 하둡보다 처리속도가 빠르다.

 - 스칼라 언어로 개발되었지만 스칼라뿐만 아니라 Java, R, Python을 지원한다.

4) 맵리듀스(MapReduce)

구글에서 개발한 방대한 양의 데이터를 신속하게 처리하는 프로그래밍 모델로 효과적인 병원 및 분산 처리를 지원한다.

 - 런타임(Runtime)에서의 입력 데이터 분할. 작업 스케줄링. 노드고장, 노드 간의 데이터 전송 작업이 맵리듀스 처리 성능에 많은 영향을 미친다.

6.개인정보 개요

6-1. 2020년 데이터 3법의 주요 개정 내용

 - 데이터 이용 활성화를 위한 '가명정보' 개념 도입 및 데이터간 결합 근거 마련

 - 개인정보보호 관련 법률의 유사 중복 규정을 정비 및 거버넌스 체계 효율화

 - 데이터 활용에 따른 개인정보처리자 책임 강화

 - 다소 모호했던 개인정보의 판단기준 명확화

1) 개인정보보호법 주요 개정 내용

 - 개인정보 관련 개념을 개인정보, 가명정보, 익명정보로 구분

 - 가명정보를 통계 작성 연구, 공익적 기록 보존 목적을 처리할 수 있도록 허용

 - 가명정보 이용 시 안전 장치 및 통제 수단 마련

 - 분산된 개인정보보호 감독기관을 개인정보보호위원회로 일원화

 - 개인정보보호위원회는 국무총리 소속 중앙행정기관으로 격상

2) 정보통신망법 주요 개정 내용

 - 개인정보보호 관련 사항을 개인정보보호법으로 이관

 - 온라인상 개인정보보호 관련 규제 및 감독 주체를 개인정보보호위원회로 변경

3) 신용정보보호법 주요 개정 내용

 - 가명정보 개념을 도입해 빅데이터 분석 및 이용의 법적 근거 마련

 - 가명정보는 통계 작성, 연구, 공익적 기록보존 등을 위해 신용정보 주체의 동의없이 이용, 제공 가능

7. 개인정보 비식별화

7-1. 개인정보 비식별화의 개요

1) 비식별 정보

 - 정보의 집합물에 대해 [개인정보 비식별 조치 가이드라인]에 따라 적정하게 식별 조치된 정보를 말한다.

2) 비식별 조치

 - 정보의 집합물에서 개인을 식별할 수 있는 요소를 전부 또는 일부 삭제하거나 대체 등의 방법을 통해 개인을 알아볼 수 없도록 하는 조치이다.

3) 비식별 정보의 활용

 - 비식별 정보는 개인 정보가 아닌 정보로 추정되므로 정보 주체로부터의 별도 동의 없이 해당 정보를 이용하거나 제3자에게 제공할 수 있다.

*다만 불특정 다수에게 공개되는 경우에는 다른 정보를 보유하고 있는 누군가에 의해 해당 정보주체가 식별될 가능성이 있으므로 비식별 정보의 공개는 원칙적으로 금지된다.

4) 비식별 정보의 보호 

 - 비식별 정보는 개인정보가 아닌 것으로 추정되지만, 새로운 결합 기술이 나타나거나 결합 가능한 정보가 증가하는 경우에는 정보주체가 '재식별'될 가능성이 있다.

 - 비식별 정보를 처리하는 자(비식별 정보를 제공받은 자 포함) 해당 정보를 이용하는 과정에서 재식별하게 된 경우에는 해당 정보를 즉시 처리 중지하고 파기 하여야 한다.

 - 비식별 정보라고 하더라도 필수적인 관리적/기술적 보호조치는 이행해야한다.

7-2. 개인정보 비식별화 조치 가이드라인의 단계별 조치사항

단계 조치사항 데이터
사전 검토 개인정보에 해당하는지 여부를 검토한 후, 개인정보가 아닌 것이 명백한 경우 법적 규제없이 자유롭게 활용 개인정보, 식별정보
비식별 조치 정보 집합물(데이터 셋)에서 개인을 식별할 수 있는 요소를 전부 또는 일부 삭제하거나 대체하는 등의 방법을 활용, 개인을 알아볼수 없도록 하는 조치 가면, 총계, 삭제, 범주화, 마스킹
적정성 평가 다른 정보와 쉽게 결합하여 개인을 식별할 수 있는지를
[비식별 조치 적정성 평가단]을 통해 평가
k-익명성, l-다양성, t-근접성
사후관리 비식별 정보 안정조치, 재식별 가능성 모니터링 등 비식별 정보 활용 과정에서 재식별 방지를 위해 필요한 조치 수행 관리적/기술적 보호조치

1) k-익명성

동일한 값을 가진 레코드를 k개 이상으로 하여 특정개인을 식별할 확률을 1/k로 한다.

2) l-다양성

각 레코드는 최소 1개 이상의 다양성을 가지도록 하여 동질성 또는 배경 지식등에 의한 추론을 방지한다.

3) t-근접성

전체 데이터 집합의 정보 분포와 특정 정보의 분포 차이를 t이하로 하여 추론 방지

8. 개인 정보 활용

8-1. 데이터 수집의 위기 요인과 통제 방안

1) 사생활 침해로 위기 발생

 - M2M(Machine to Machine) 시대가 되면서 정보를 수집하는 센서들의 수가 증가하고 있다.

 - 개인정보의 가치가 커짐에 따라 많은 사업자들이 개인정보 습득에 더 많은 자원을 투입하고 있다.

 - 특정 데이터가 본래 목적 외로 가공되어 2차, 3차 목적으로 활용될 가능성이 커지고 있다.

 - 위험의 범위가 사생활 침해 수준을 넘어 사회, 경제적 위협으로 더 확대될 수 있다.

8-2. 데이터 활용의 위기 요인과 통제 방안

1) 책임원칙 훼손으로 위기 발생

 - 빅데이터의 분석 결과에 따라 특정한 행위를 할 가능성이 높다는 이유만으로 특정인이 처벌 받는 것은 민주주의 사회 원칙을 훼손한다.

 - 특정인이 특정한 사회, 경제적 특성을 가진 집단에 속한다는 이유만으로 그의 신용도와 무관하게 대출이 거절되는 상황은 잘못된 클러스터링의 피해이다.

 - 특정 조건을 가진 학생이 대학에 진학하고자 할 때 잘못된 예측 알고리즘에 의해 진학할 기회 자체를 주지 않는다면 이는 사회 정의 문제와도 직결된다.

8-3. 데이터 처리의 위기 요인과 통제 방안

1) 데이터 오용으로 위기 발생

빅데이터는 과거에 일어났던 일로 인해 기록된 데이터에 의존한다.

 - 빅데이터를 기반으로 미래를 예측하는 것은 어느정도 정확도를 가질 수 있지만 항상 맞는것은 아니다.

빅데이터 사용자가 데이터를 과신할때 큰 문제가 발생할 가능성이 높다.

 - 잘못된 지표를 사용하는 것은 오히려 과거 경험에 의존하는 것보다 더 잘못된 결론을 도출할 수 있다.

728x90

댓글