민간 자격증/빅데이터전문가

9. 데이터 마이닝

Zoo_10th 2024. 7. 22.

1. 데이터 마이닝의 정의와 이해

 R과 같은 빅데이터 처리 및 분석 도구를 기반으로, 데이터 마이닝의 방법론을 적용하면 수집한 빅데이터로부터 보다 다 
양한 결론을 도출해낼 수 있고 부가가치를 이끌어낼 수 있다.

1-1. 데이터 마이닝의 정의

1) 데이터 마이닝 Data Mining

데이터 마이닝이란, 대규모로 저장된 데이터 안에서 체계적이고 자동적인 통계적 규칙이나 패턴을 찾아내는 일련의 작업을 뜻한다. 특히, 인간의 시선으로 수집된 빅데이터를 한 번에 조망하고 그것으로부터 인사이트(insight)를 이끌어내는 것이 거의 불가능해짐에 따라, 데이터 마이닝을 기반으로 한 다양한 자동화 도구를 통하여 인사이트를 찾아내는 것이 필수가 되었다. 즉, 수습 불가능한 형태가 된 대규모 데이터로부터 의미를 찾아내는 데에 있어 데이터 마이닝의 중요도가 급상승하고 있다.

정의  - 대규모로 저장된 데이터 안에서 체계적이고 자동적인 통계적 규칙이나 패턴을 찾아내는 작업
 - KDD (Knowledge-Discovery in Databases)
빅 데이터의 시대의 
의미
 - 대규모 데이터로부터 의미를 찾아내는 데 있어 그 중요도가 급증

1-2. 데이터 마이닝의 이해

1) 데이터 마이닝의 적용 분야

데이터 마이닝은 분류, 연관성 분석, 연속성 분석, 예측 분석, 군집화 분석 등 다양한 분야에 적용하는 방법론으로 구성되어 있다.

분류
classification
 - 일정한 집단에 대한 특정 정의를 통하여 분류 및 구분의 형태를 추론하는 분야
연관성
association
 - 동시에 발생한 사건 간의 관계를 정의하는 분야
연속성
sequencing
 - 특정 기간에 걸쳐 발생하는 관계를 규명, 연관성 분석과 달리 기간 특성을 고려
예측
forecasting
 - 빅데이터 집합 내의 패턴을 기반으로 미래에 발생하는 데이터의 형태를 예측하는 분야
군집화
clustering
 - 구체적인 특성을 공유하는 군집(cluster)을 찾음
 - 미리 정의된 특성 정보가 없이 군집을 탐색

2. 데이터 마이닝 방법론

2-1. 데이터 마이닝 방법론

① 프로젝트의 목적과 적용 가능성을 확인한다.
② 분석에서 사용할 데이터를 수집한다.
③ 데이터를 전처리한다.
④ 데이터를 축소하고 분할한다.
⑤ 데이터 마이닝 기법을 선택한다.
⑥ 데이터 마이닝을 수행한다.

1) ① 프로젝트의 목적과 적용 가능성을 확인한다.

 - 일회성 프로젝트인 경우→ 프로젝트의 목적을 수립한다.
 - 연속성 프로젝트인 경우→ 프로젝트의 적용 가능성을 확인한다.

2) ② 분석에서 사용할 데이터를 수집한다.

 - 데이터베이스로부터 무작위 표본을 추출하거나, 내부 데이터와 외부 데이터를 수집함으로써 데이터 수집을 완성하는 단계이다. 수집 방법론으로는 수집 데이터를 선정하고, 세부 계획을 수립하고, 이후 테스트 수집을 진행한 후 수집을 진행하는 과정을 거친다.

개요  - 데이터베이스에서 무작위 표본을 추출
 - 내부 데이터와 외부 데이터를 수집
수집 방법론  - 수집 데이터를 선정
 - 세부계획을 수립
 - 테스트 수집 진행 후 수집 진행

3) ③ 데이터를 전처리한다.

데이터 마이닝에서 데이터의 전처리는 필수 과정이라 할 수 있다. 본 단계예서는 데이터의 조건을 검증하고 정제한다. 특히, 산점도, 행렬표 등 다양한 그래프 도구를 사용하여 분석하는 것을 포함한다. 변수에 대하여 명확히 정의하고, 측정단위나 측정기간 등에 대한 일관성의 확인 또한 필수이다. 본 과정에서는 결측치, 변수의 값의 범위, 극단치 등에 대한 고려가 
필요하다.

개요  - 데이터의 조건을 검증하고 정제한다.
 - 산점도, 행렬표 등 그래프를 사용하여 분석
 - 변수에 대한 정의, 측정단위, 측정기간 등에 대한 일관성 확인
고려 사항  - 결측치를 어떻게 처리해야 하는가?
 - 각 변수의 값이 합리적인 범위 내에 있는가?
 - 극단치(최대/최소)가 존재하는가?

4) ④ 데이터를 축소하고 분할한다.

큰 데이터가 항상 이후의 단계에 좋은 것은 아니다. 합리적인 크기로 데이터를 축소하고 분할함으로써 보다 효율적인 분석을 할 수도 있다. 특히 이 단계에서는 불필요한 변수를 제거하고, 분석가능한 형태로 변수의 형태를 전환하며, 새로운 변수를 생성하기도 하며, 데이터를 다양한 집합으로 분할하기도 한다. 특히 데이터를 학습용, 평가용, 검증용 데이터로 분류
하는 것이 필요하다.

개요  - 불필요한 변수를 제거
 - 변수를 분석가능한 형태로 변환
 - 새로운 변수를 생성
 - 데이터를 다양한 데이터 집합으로 분할
 데이터 집합의 종류  - 학습용 데이터 (training)
 - 평가용 데이터 (test, evaluation)
 - 검증용 데이터 (verification)

5) ⑤ 데이터 마이닝 기법을 선택한다.

적절한 데이터 마이닝 기법을 선택함으로써 프로젝트에 적합한 분석 유형을 결정할 수 있다. 특히 고려해야 할 기법으로는, 고전 분석 모델, 딥러닝 분석 모델, 계층적 군집 분석 등이 있다.

개요  - 프로젝트에 적합한 분석 유형을 결정
기법  - 분산분석, 상관분석, 회귀분석 등 고전 분석 모델
 - 신경망 모형 등 딥러닝 분석 모델
 - 계층적 군집 분석 등

6) ⑥ 데이터 마이닝을 수행한다.

이전에 결정한 사항들을 기반으로 데이터 마이닝을 수행한다. 다양한 변인을 적용하여 분석을 수행하고, 평가용 데이터를 이용하여 수행 후 개선되는 변인을 토대로 적용한다. 마지막으로 수행 결과 구축된 모델을 바탕으로 목표로 하는 응용에 시험 적용하여 본다.

개요  - 이전에 결정한 사항을 토대로 데이터 마이닝을 수행
 - 다양한 변인을 적용하여 분석 수행
 - 평가용 데이터를 이용하여 수행 후개선되는 변인을 토대로 적용
 - 수행 결과로 구축된 모델을 바탕으로 시험 적용

7) 학습 방법론

신경망 네트워크, 딥러닝 등에 용하기 위한 학습 방법론은 그 숙지가 필수이다. 특히 지도학습, 자율학습, 반지도학습 등 
에 대한 구분은 필수라고 볼 수 있다.

지도학습
Supervised Learning
출력 데이터에 맞게 출력되도록 학습용 데이터셋을 이용하여 예측변수와 출력변수 간의 관계를 학습
 자율학습
Unsupervised Learning
출력변수가 명확히 정의되지 않은 경우, 예측변수에 대한 자율학습을 통하여 모델을 구축하는 방법
반지도학습
Semi-supervised Learning
지도학습과 자율학습의 방식을 조합하여 예측변수와 출력변수 간의 일부를 자율적으로 모델링하는 한편, 정해진 데이터셋에 대한 학습 또한 수행

3. 데이터 마이닝 적용 사례

3-1. 공공시스템

 - 국세청의 탈세 방지 시스템에 적용
 - 사기방지 솔루션, 소셜 네트워크 분석, 지능형 감지 시스템 구축
 - 세금 누락 및 불필요한 세금 환급 절감 효과 발생
 - 탈세자 수 감소 및 범죄 사건 미연 방지 가능

3-2. GPS 시스템

 - 자동차의 센서 데이터(예:GPS)를 통하여 교통 정보 수집
 - 지능형 교통 정보 시스템을 구축 가능
 - 실시간 교통 정보를 공유하여 최적의 교통 안내 서비스
 - 불필요한 에너지 낭비 방지 및 교통 시스템 효율 증대

3-3. 보건/의료

 - 유전자 정보를 토대로 질병 연구에 활용

 - 새로운 질병에 대한 빠른 진단 서비스
 - 난치병 및 불치병 관련 유전자 정보를 토대로 신치료제 개발
 - 최신 IT 기술 결합으로 치료 확률 상승

3-4. 제조/물류/마케팅

 - 소비자의 니즈를 예측하여 제품을 미리 제조 및 배급
 - 제조/물류/마케팅 비용을 최소화 가능
 - 제품의 소비자 도달 시간 최소화

728x90

댓글