빅데이터분석기사/필기

(1과목) 빅데이터 분석 기획 ②

Zoo_10th 2024. 3. 17.

1. 분석 방안 수립

1-1. 데이터 분석 기획

1) 분석 기획의 특징

① 분석 대상과 방법에 따른 분류

 - 분석 주제와 방법에 대한 특성상 4가지 유형을 넘나들며 분석을 하고 도출하는 과정을 반복한다.

② 목표 시점에 따른 분류

단기적 접근 방식
(과제 중심적 접근)
 - 당면한 과제를 빠르게 해결하기 위한 목적이다.
 - 명확한 해결을 위해 Quick-Win 방식으로 분석한다.
중장기적 접근 방식
(마스터 플랜 접근)
 - 지속적인 분석 문화를 내재화하기 위한 목적이다.
 - 전사적으로 장기적 관점에서 과제를 도출하여 수행한다.
혼합 방식
(분석 기획시 적합)
 - 마스터 플랜을 수립하고 장시적 관점에서 접근하는것이 바람직하다.
 - 분석의 가치를 증명하고 이해관계자들의 동의를 얻기 위해 과제를 빠르게 해결하여 그 가치를 조기에 체험시킨다.

2. 분석 마스터 플랜과 로드랩 설정

2-1. 분석 마스터 플랜

분석 과제를 수행함에 있어 그 과제의 목적이나 목표에 따라 전체적인 방향성을 제시하는 기본계획이다.

1) 분석 마스터 플랜 수립 절차

 - 분석 마스터 플랜시 일반적인 정보 전략 계획 방법론을 활용할 수 있다. 다만 데이터 분석 기획의 특성을 고려하여 수행해야 한다.

 - 과제 도출 방법을 활용하여 데이터 분석 과제들을 빠짐없이 정의한다.

 - 분석 과제의 중요도와 난이도 등을 고려하여 우선순위를 결정한다.

 - 단기와 중장기로 나누어 분석 로드맵을 수립한다.

 2) 정보전략계획(ISP : Information Strategy Planning)

 - 정보기술 및 시스템을 전략적으로 활용하기 위한 중장기 마스터 플랜을 수립하는 절차이다.

 - 조직 내 외부의 환경을 충분히 분석하여 새로운 기회나 문제점을 도출한다.

 - 사용자의 요구사항을 확인하여 시스템 구축 우선순위를 결정한다.

2-2. 빅데이터의 특징을 고려한 분석 ROI 요소 4V

ROI 요소 특징 내용
투자비용 요소
(Investment)
데이터 크기
(Volume)
 - 데이터 규모
 - 데이터 양
3V 4V
데이터 형태
(Variety)
 - 데이터 종류
 - 데이터 유형
데이터 속도
(Velocity)
 - 데이터 생성속도
 - 데이터 처리속도
비즈니스 효과
(Return)
새로운 가치
(Value)
 - 분석결과 활용을 통한 획득 가치
 - 비즈니스 실행을 통한 획득 가치

2-3. 분석 과제 우선 순위 선정 및 조정

1) 포트폴리오 사분면 분석 기법 활용 : 난이도와 시급성을 기준으로 분석 과제 유형을 분류하여 4분면에 배치한다.

2) 매트릭스 내 분석 과제 우선순위 선정

 - 가장우선적으로 분석 과제 적용이 필요한 영역은 3사분면 (Ⅲ영역)이다.

 - 우선 순위가 가장 낮은 영역은 2사분면 (Ⅱ영역)이다.

 - 적용 우선순위 기준을 시급성에 둘 경우 순서 : Ⅲ > Ⅳ > Ⅰ > Ⅱ 영역

 - 적용 우선순위 기준을 난이도에 둘 경우 순서 : Ⅲ > Ⅰ >   > Ⅱ 영역

3) 매트릭스 내 분석 과제 우선순위 조정

 - 시급성이 높고 난이도가 높은 1사분면(Ⅰ 영역)은 의사결정을 통해 적용 우선순위를 조정할 수 있다.

 - 데이터 양과 특성, 분석 범위등에 따라 난이도를 조율하여 적용 우선순위를 조정할 수 있다.

4) 분석 과제 우선순위 조정시 고려사항

① 기술적 요소에 따른 적용 우선순위 조정

 - 대용량 데이터 분석은 데이터 저장, 처리, 분석을 위한 샐오운 기술 요소들로 인하여 운영중인 시스템에 영향을 줄 수 있다.

 - 기존 시스템에 미치는 영향을 최소화하여 적용하거나 운영중인 시스템과 별도로 시행하여 난이도 조율을 통한 우선순위를 조정할 수 있다.

② 분석 범위에 따른 우선순위 조정

 - 분석 과제의 전체 범위를 한 번에 일괄적으로 적용하여 추진할 수 있다.

 - 분석 과제 중 일부만 PoC로 진행하고 평가 후에 범위를 확대할 수 있다.

2-4. 분석 로드맵 설정

3. 분석 문제 정의

3-1. 하향식 접근 방식(Top Down Approach)

하향식 접근 방식은 문제가 주어지고 이에대해 해법을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 방식이다.

3-2. 하향식 접근 방식의 구성

단계 내용
문제 탐색 현황 분석, 인식된 문제점, 전략에서 기회나 문제를 탐색한다.
문제 정의 해당 현실 문제를 데이터 관점의 문제로 정의한다.
해결방안 탐색 데이터 관점의 문제를 해결하기 위한 방안을 탐색한다.
타당성 평가 데이터 분석의 타당성을 평가한다.

3-3. 상향식 접근 방식(Bottom Up Approach)

문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제의 재정의 및 해결 방안을 탐색하고 이를 지속적으로 개선하는 방식이다.

1) 상향식 접근 방식의 특징

 - 다량의 데이터 분석을 통해 왜(why) 그러한 일이 방생하는지 역으로 추적하면서 문제를 도출하거나 재정의 할 수 있는 방식이다. 

 - 데이터를 활용하여 생각지도 못했던 인사이트 도출 및 시행착오를 통한 개선이 가능하다.

2) 상향식 접근 기반 전통적 분석 사고 극복방안

 - 디자인 사고 접근법

4. 데이터 분석 방안

4-1. 소프트웨어개발생명주기 활용

분석 방법론은 소프트웨터 공학의 소프트웨어개발생명주기를 활용하여 구성할 수 있다.

 - 소프트웨어생명개발주기(SDLC : Software Development Life Cycle)는 소프트웨어에 대해 요구분석과 설계, 구현과정을 거쳐 설치, 운영과 유지보수, 그리고 폐기할 때까지의 전과정을 가시적으로 표현한 것이다.

4-2. 소프트웨어개발생명주기의 구성요소

계획
(요구명세)
 - 고객의 요구사항을 명세화한다
 - 타당성 조사 및 소프트웨어의 기능과 제약조건을 정의하는 명세서를 작성한다.
 - 요구사항은 일반적으로 모호하고 불완전하며 모순되기도 한다.
요구분석  - 대상이 되는 문제 영역과 사용자가 원하는 Task를 이해한다.
설계  - 분석모형을 가지고 이를 세분화함으로써 구현될 수 있는 형태로 전환한다.
구현  - 실행 가능한 코드를 생성한다
시험  - 발생 가능한 실행 프로그램의 오류를 발견하고 수정한다.
유지보수  - 인수가 완료된 후 일어난 모든 개발 활동이다.

1) 소프트웨어개발생명주기의 대표적 유형 비교

폭포수 모형 검토 및 승인을 거쳐 순차적, 하향식으로 개발이 진행된다.
장점  - 이해하기 쉽고 관리가 용이하다.
 - 다음 단계 진행 전에 결과를 검증한다.
단점  - 요구사항 도출이 어렵다
 - 설계 및 코딩과 테스트가 지연된다.
 - 문제점 발견이 늦어진다.
프로토타입 모형 시스템의 핵심적인 기능을 먼저 만들어 평가한 후 구현한다.
장점  - 요구사항 도출과 시스템 이해가 용이하다.
 - 의사소통을 향상시킨다.
단점  - 사용자의 오해(완제품)가 발생하기 쉽다
 - 폐기되는 프로토타입이 존재한다.
나선형 모형 폭포수 모형과 프로토타입 모형의 장점에 위험분석을 추가하였다.
구현
계획
계획수립 목표, 기능 선택, 제약조건을 설정한다.
위험분석 기능 선택의 우선순위 및 위험요소를 분석하고 제거한다.
개발 선택된 기능을 개발한다.
고객평가 개발 결과를 평가한다.
장점  - 점증적으로 개발 시 실패 위험을 감소시킬 수 있다.
 - 테스트가 용이하고 피드백이 있다.
단점  - 관리가 복잡하다.
반복적 모형 시스템을 여러 번 나누어 릴리즈하는 방법이다.
Incremental 기능을 분해한 후 릴리즈별 기능을 추가 개발한다.
Evolution 전체 기능을 대상으로 하되 릴리즈를 진행하면서 기능이 완벽해진다.

4-3. KDD 분석 방법론

KDD(Knowledge Discovery in Data)는 1996년 Fayyad가 통계적인 패턴이나 지식을 탐색하는데 활용할 수 있도록 체계 적으로 정리한 프로파일링 기술 기반의 데이터 마이닝 프로세스이다.

1) KDD분석 방법로 9가지 프로세스

① 분석 대상 비즈니스 도메인의 이해

② 분석 대상 데이터 셋 선택과 생성

③ 데이터에 포함되어 있는 잡음(Noise)과 이상값(Outlier)등을 제거하는 정제 작업이나 선처리

④ 분석 목적에 맞는 변수를 찾고 필요시 데이터의 차원을 축소하는 데이터 변경

⑤ 분석 목적에 맞는 데이터 마이닝 기법 선택

⑥ 분석 목적에 맞는 데이터 마이닝 알고리즘 선택

⑦ 데이터 마이닝 시행

⑧ 데이터 마이닝 결과에 대한 해석

⑨ 데이터 마이닝에서 발견된 지식 활용

2) KDD 분석 방법론의 분석 절차

데이터 분석은 데이터셋(Dataset) 선택, 데이터 전처리, 데이터 변환, 데이터 마이닝, 데이터 마이닝 결과 평가 총 5단계에 걸쳐 진행된다.

단계 내용
1 데이터셋 선택
(Selection)
 - 분석 대상 비즈니스 도메인에 대한 이해 및 프로젝트 목표의 적확한 설정을 선행한다.
 - 데이터베이스 또는 원시 데이터에서 분석에 필요한 데이터를 선택한다.
 - 필요시에 목표 데이터를 푸가적으로 구성하여 활용한다.
2 데이터 전처리
(Preprocessing)
 - 잡음(Noise)과 이상값(Outlier), 결측치(Missing Value)를 식별하고 필요시 제거하거나 대체한다.
 - 데이터가 추가적으로 필요한 경우 데이터 셋 선택 절차부터 다시 실행한다.
3 데이터 변환
(Transformation)
 - 분석 목적에 맞는 변수를 선택하거나 데이터의 차원 축소등을 수행한다.
 - 학습용 데이터와 검증용 데이터로 데이터를 분리한ㄷ다.
4 데이터 마이닝
(Data Mining)
 - 분석 목적에 맞는 데이터 마이닝 기법 및 알고리즘을 선택하여 분석을 수행한다.
 - 필요시 데이터 전처리와 데이터 변환 절차를 추가로 실행하여 데이터 분석 결과의 품질을 높일 수 있다.
5 데이터 마이닝
결과 평가
(Interpretation/
Evaluation)
 - 분석 결과에 대한 해석과 평가 및 분석 목적과의 일치성을 확인한다.
 - 발견된 지식을 업무에 활용하기 위한 방안을 모색한다.
 - 필요한 경우 데이터 셋 선택부터 데이터 마이닝 절차까지 반복하여 수행한다.

4-4. CRISP-DM 분석 방법론

1) CRISP-DM 분석 방법론 분석절차

단계 내용 세부업무
업무 이해
(Business
Understanding)
 - 비즈니스 관점에서 프로젝트의 목적과 요구 사항을 이해하기 위한 단계이다.
 - 도메인 지식을 데이터 분석을 위한 문제정의로 변경한다.
 - 초기 프로젝트 계획을 수립한다.
 - 업무 목적 파악
 - 상황 파악
 - 데이터 마이닝 목표 설정
 - 프로젝트 계획 수립
데이터 이해
(Data Understanding)
 - 분석을 위한 데이터 수집 및 데이터 속성을 이해한다.
 - 데이터 품질 문제를 식별한다.
 - 인사이트를 발견하는 단계이다.
 - 초기 데이터 수집
 - 데이터 기술 분석
 - 데이터 탐색
 - 데이터 품질 확인
데이터 준비
(Data Prepaeration)
 - 수집된 데이터를 분석 기법에 적합한 데이터로 변환한다.  - 분석용 데이터셋 선택
 - 데이터 정제
 - 분석용 데이터셋 편성
 - 데이터 통합
 - 데이터 포맷팅
모델링
(Modeling)
 - 다양한 모델링 기법과 알고리즘으로 모형 파라미터를 최적화한다.
 - 모델링 결과를 테스트용 프로세스와 데이터셋으로 평가하여 모형 과적합 등의 문제를 확인한다.
 - 데이터셋을 추가하기 위해 데이터 준비 절차를 반복할 수 있다.
 - 모델링 기법 선택
 - 모형 테스트 계획 설계
 - 모형 작성
 - 모형 평가
평가
(Evaluation)
 - 분석 모형이 프로젝트의 목적에 부합하는지 평가한다..
 - 데이터 마이닝 결과를 수용할 것인지 최종적으로 판단한다.
 - 분석결과 평가
 - 모델링 과정 평가
 - 모형 적용성 평가
전개
(Deployment)
 - 완성된 분석 모형을 업무에 적용하기 위한 계획을 수립한다.
 - 모니터링과 분석 모형의 유지보수 계획을 마련한다.
 - 프로젝트 종료 관련 프로세스를 수행하여 프로젝트 완료한다.
 - 전개 계획 수립
 - 모니터링과 유지보수 계획 수립
 - 프로젝트 종료 보고서 작성
 - 프로젝트 리뷰

CRISP-DM 절차

2) CRISP - DM과 KDD 분석 방법론의 비교

CRISP-DM 분석 방법론 KDD 분석 방법론
업무 이해 (Business Understanding)  
데이터 이해 (Data Understanding) 데이터셋 선택 (Selection)
데이터 전처리 (Preprocessing)
데이터 준비 (Data Preparation) 데이터 변환 (Transformation)
모델링 (Modeling) 데이터 마이닝 (Data Mining)
평가(Evaluation) 데이터 마이닝 결과 평가
(Interpretation/Evaluation)
전개(Deployment)  

5. 빅데이터 분석 방법론

5-1. 빅데이터 분석 방법론 개요

분석 방법론은 응용 서비스 개발을 위한 3계층으로 구성된다.

단계
(Phase)
 - 데이터 분석을 수행하기 위한 절차이다.
 - 기준선(Baseline)을 설정하고 버전관리를 통해 통제되어야 한다.
태스크
(Task)
 - 각 단계별로 수행되어야 하는 세부 업무이다.
 - 각 태스크가 완료되면 그에 대한 성과를 얻을 수 있다.
스텝
(Step)
 - 단기간 내에 수행 가능한 워크패키지(Work Package)이다.
 - 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스이다.

5-2. 빅데이터 분석 방법론의 개발절차

6. 데이터 분석 거버넌스

6-1. 데이터 분석 거버넌스의 구성 요소

1) 데이터 분석 기획과 관리를 수행하는 조직(Organization)

2) 데이터 분석 과제 기획과 운영 프로세스 (Process)

3) 데이터 분석 지원 인프라 (System)

4) 데이터 거버넌스 (Data)

5) 데이터 분석 교육 및 마인드 육성 체계 (Human Resource)

7. 데이터 분석 수준 진단

7-1. 분석 수준 진단 결과

1) 분석 준비도 및 성숙도 진단 결과

 - 조직의 현재 데이터 분석 수준을 객관적으로 파악할 수 있다.

 *사분면 분석(Analytics Quadrant)

데이터  분석 관점에서 4가지 유형으로 데이터 분석 수준 진단 결과를 구분한다.

 - 향후 고려해야하는 데이터 분석 수준에 대한 목표나 방향을 정의할 수 있으며, 유형별 특성에 따라 개선방안을 수립할 수 있다.

8. 분석 작업 계획

8-1. 분석 작업 개요

분석 작업 계획을 수립하기 위해 데이터 처리 프로세스 전체에 대한 이해가 필요하며, 데이터 처리 영역과 데이터 분석 영역으로 나누어 살펴볼 수 있다. 

9. 데이터 확보 계획

9-1. 데이터 확보를 위한 사전 검토사항

1) 필요 데이터의 정의

 - 분석 목적에 맞는 데이터를 정의하고, 필요한 데이터를 학보한 수 있는지 학인 하여야 하며, 확보할 수 없다면 대안을 함께 고려하여야 한다.

 - 기업 내부 및 외부 공공기관이나 협력관계의 타 기업 담당자, 전문가 등 이해관계자들과 확보 가능한 데이터의 목록과 기대효과 등을 작성한다.

2) 보유 데이터의 현황파악

 - 사전에 정의한 데이터의 존재 여부와 해당 데이터가 최신성을 보장하는지 학인한다.

 - 분석 품질을 보장할 만큼 데이터 품질이 우수한지, 충분한 양이 존재하는지 확인한다.

3) 분석 데이터의 유형

 - 분석 데이터 확보를 위해 수집 대상 데이터의 유형을 고려해야 한다.

 - 어떤 데이터를 어떤 기법을 이용하여 분석할 것인지 수립된 계획에 따라 데이터의 유형을 선택하고 변수를 정의해야 한다.

4) 편향되지 않고 충분한 양의 데이터 규모

 - 데이터 분석 기법에 따라 훈련(Training) 데이터셋. 검증(Validation) 데이터셋. 테스트(Test) 데이터셋이 필요할 수 있다.

 - 신뢰성 높은 데이터 분석 모형 개발과 정확한 데이터 분석을 위해 3가지 데이터셋으로 나누어 사용할 만큼 충분한 데이터가 확보되어야 한다.

5) 내부 데이터의 사용

 - 필요 데이터에 대한 데이터 목록(변수 명칭. 설명. 형태. 기간, 용량. 권한 등)을 작성한다.

 - 필요 테이터에 대한 관련 법률이나 보안적인 요소들을 확인하고. 개인정보일 경우 비식별 조치방안을 함께 고려한다

 - 필요 데이터의 관리 권한이 다른 부서에 있는 경우 협의를 통해 데이터 공유가능여부를 확인한다.

6) 외부 데이터의 수집

 - 필요 데이터에 대한 데이터 목록을 데이터를 보유한 기업의 이름과 데이터 제공 방법(Open API 복제 등)까지 고려하여 작성한다.

 - 필요 데이터의 수집이 관련 법률이나 제도상 제약이 없는지 검토한다.

 - 필요 데이터에 대하여 보유 기업으로부터 데이터 제공 가능여부와 구매 비용등을 협의한다.

10. 분석 프로젝트 관리

10-1. 분석 프로젝트 

분석 프로젝트는 도출된 결과의 재해석을 통한 지속적인 반복과 정교화가 수행되는 경우이다.

1) 분석 프로젝트 특징

 - 데이터 영역과 비즈니스 영역에 대한 이해와 더불어 지속적인 반복이 요구되는 분석 프로세스의 특성을 이해하여 프로젝트 관리방안을 수립해야 한다.

 - 지속적인 개선 및 변경을 염두에 두고 프로잭트 기한 내에 가능한 최선의 결과를 도출할 수 있도록 프로젝트 구성원들과 협업이 필요하다.

2) 분석 프로젝트의 추가적 속성

관리 영역 내용
데이터 크기
(Data Size)
 - 데이터가 지속적으로 생성되어 증가하는 점을 고려한다.
데이터 복잡도
(Data Complexity)
 - 정형, 비정형 데이터와 다양한 시스템에 산재되어 있는 원천 데이터들을 통합하는 진행이 필요하다. 
 - 데이터에 잘 적용될 수 있는 분석 모형의 선정 등을 사전에 고려해야 한다.
속도
(Speed)
 - 분석 결과가 도출되어 이를 활용하는 시나리오 측면에서의 속도까지 고려해야한다.
 - 프로젝트 수행시 분석 모형의 성능과 속도를 고려한 개발과 테스트 수행을 고려해야한다.
분석 모형의 복잡도
(Analytic Model
Complexity)
 - 분석 모형의 정확도와 복잡도는 Trade off 관계에 있다.
 - 분석 모형이 복잡할수록 정확도는 상승하지만 해석이 어려워지므로 이에대한 기준을 정의하고 최적 모형을 탐색해야 한다.
정확도와 정밀도
(Accuracy &
Precision)
 - 분석 결과를 활용한는 측면에서는 Accuracy가 중요하다.
 - 분석 모형의 안정성 측면에서는 Precision이 중요하다.
 - Accuracy와 Precision은 Trade off인 경우가 많다.

3) 정확도와 정밀도의 관점

 

728x90

댓글