1. 데이터 마이닝의 정의와 이해
R과 같은 빅데이터 처리 및 분석 도구를 기반으로, 데이터 마이닝의 방법론을 적용하면 수집한 빅데이터로부터 보다 다
양한 결론을 도출해낼 수 있고 부가가치를 이끌어낼 수 있다.
1-1. 데이터 마이닝의 정의
1) 데이터 마이닝 Data Mining
데이터 마이닝이란, 대규모로 저장된 데이터 안에서 체계적이고 자동적인 통계적 규칙이나 패턴을 찾아내는 일련의 작업을 뜻한다. 특히, 인간의 시선으로 수집된 빅데이터를 한 번에 조망하고 그것으로부터 인사이트(insight)를 이끌어내는 것이 거의 불가능해짐에 따라, 데이터 마이닝을 기반으로 한 다양한 자동화 도구를 통하여 인사이트를 찾아내는 것이 필수가 되었다. 즉, 수습 불가능한 형태가 된 대규모 데이터로부터 의미를 찾아내는 데에 있어 데이터 마이닝의 중요도가 급상승하고 있다.
정의 | - 대규모로 저장된 데이터 안에서 체계적이고 자동적인 통계적 규칙이나 패턴을 찾아내는 작업 - KDD (Knowledge-Discovery in Databases) |
빅 데이터의 시대의 의미 |
- 대규모 데이터로부터 의미를 찾아내는 데 있어 그 중요도가 급증 |
1-2. 데이터 마이닝의 이해
1) 데이터 마이닝의 적용 분야
데이터 마이닝은 분류, 연관성 분석, 연속성 분석, 예측 분석, 군집화 분석 등 다양한 분야에 적용하는 방법론으로 구성되어 있다.
분류 classification |
- 일정한 집단에 대한 특정 정의를 통하여 분류 및 구분의 형태를 추론하는 분야 |
연관성 association |
- 동시에 발생한 사건 간의 관계를 정의하는 분야 |
연속성 sequencing |
- 특정 기간에 걸쳐 발생하는 관계를 규명, 연관성 분석과 달리 기간 특성을 고려 |
예측 forecasting |
- 빅데이터 집합 내의 패턴을 기반으로 미래에 발생하는 데이터의 형태를 예측하는 분야 |
군집화 clustering |
- 구체적인 특성을 공유하는 군집(cluster)을 찾음 - 미리 정의된 특성 정보가 없이 군집을 탐색 |
2. 데이터 마이닝 방법론
2-1. 데이터 마이닝 방법론
① 프로젝트의 목적과 적용 가능성을 확인한다.
② 분석에서 사용할 데이터를 수집한다.
③ 데이터를 전처리한다.
④ 데이터를 축소하고 분할한다.
⑤ 데이터 마이닝 기법을 선택한다.
⑥ 데이터 마이닝을 수행한다.
1) ① 프로젝트의 목적과 적용 가능성을 확인한다.
- 일회성 프로젝트인 경우→ 프로젝트의 목적을 수립한다.
- 연속성 프로젝트인 경우→ 프로젝트의 적용 가능성을 확인한다.
2) ② 분석에서 사용할 데이터를 수집한다.
- 데이터베이스로부터 무작위 표본을 추출하거나, 내부 데이터와 외부 데이터를 수집함으로써 데이터 수집을 완성하는 단계이다. 수집 방법론으로는 수집 데이터를 선정하고, 세부 계획을 수립하고, 이후 테스트 수집을 진행한 후 수집을 진행하는 과정을 거친다.
개요 | - 데이터베이스에서 무작위 표본을 추출 - 내부 데이터와 외부 데이터를 수집 |
수집 방법론 | - 수집 데이터를 선정 - 세부계획을 수립 - 테스트 수집 진행 후 수집 진행 |
3) ③ 데이터를 전처리한다.
데이터 마이닝에서 데이터의 전처리는 필수 과정이라 할 수 있다. 본 단계예서는 데이터의 조건을 검증하고 정제한다. 특히, 산점도, 행렬표 등 다양한 그래프 도구를 사용하여 분석하는 것을 포함한다. 변수에 대하여 명확히 정의하고, 측정단위나 측정기간 등에 대한 일관성의 확인 또한 필수이다. 본 과정에서는 결측치, 변수의 값의 범위, 극단치 등에 대한 고려가
필요하다.
개요 | - 데이터의 조건을 검증하고 정제한다. - 산점도, 행렬표 등 그래프를 사용하여 분석 - 변수에 대한 정의, 측정단위, 측정기간 등에 대한 일관성 확인 |
고려 사항 | - 결측치를 어떻게 처리해야 하는가? - 각 변수의 값이 합리적인 범위 내에 있는가? - 극단치(최대/최소)가 존재하는가? |
4) ④ 데이터를 축소하고 분할한다.
큰 데이터가 항상 이후의 단계에 좋은 것은 아니다. 합리적인 크기로 데이터를 축소하고 분할함으로써 보다 효율적인 분석을 할 수도 있다. 특히 이 단계에서는 불필요한 변수를 제거하고, 분석가능한 형태로 변수의 형태를 전환하며, 새로운 변수를 생성하기도 하며, 데이터를 다양한 집합으로 분할하기도 한다. 특히 데이터를 학습용, 평가용, 검증용 데이터로 분류
하는 것이 필요하다.
개요 | - 불필요한 변수를 제거 - 변수를 분석가능한 형태로 변환 - 새로운 변수를 생성 - 데이터를 다양한 데이터 집합으로 분할 |
데이터 집합의 종류 | - 학습용 데이터 (training) - 평가용 데이터 (test, evaluation) - 검증용 데이터 (verification) |
5) ⑤ 데이터 마이닝 기법을 선택한다.
적절한 데이터 마이닝 기법을 선택함으로써 프로젝트에 적합한 분석 유형을 결정할 수 있다. 특히 고려해야 할 기법으로는, 고전 분석 모델, 딥러닝 분석 모델, 계층적 군집 분석 등이 있다.
개요 | - 프로젝트에 적합한 분석 유형을 결정 |
기법 | - 분산분석, 상관분석, 회귀분석 등 고전 분석 모델 - 신경망 모형 등 딥러닝 분석 모델 - 계층적 군집 분석 등 |
6) ⑥ 데이터 마이닝을 수행한다.
이전에 결정한 사항들을 기반으로 데이터 마이닝을 수행한다. 다양한 변인을 적용하여 분석을 수행하고, 평가용 데이터를 이용하여 수행 후 개선되는 변인을 토대로 적용한다. 마지막으로 수행 결과 구축된 모델을 바탕으로 목표로 하는 응용에 시험 적용하여 본다.
개요 | - 이전에 결정한 사항을 토대로 데이터 마이닝을 수행 - 다양한 변인을 적용하여 분석 수행 - 평가용 데이터를 이용하여 수행 후개선되는 변인을 토대로 적용 - 수행 결과로 구축된 모델을 바탕으로 시험 적용 |
7) 학습 방법론
신경망 네트워크, 딥러닝 등에 용하기 위한 학습 방법론은 그 숙지가 필수이다. 특히 지도학습, 자율학습, 반지도학습 등
에 대한 구분은 필수라고 볼 수 있다.
지도학습 Supervised Learning |
출력 데이터에 맞게 출력되도록 학습용 데이터셋을 이용하여 예측변수와 출력변수 간의 관계를 학습 |
자율학습 Unsupervised Learning |
출력변수가 명확히 정의되지 않은 경우, 예측변수에 대한 자율학습을 통하여 모델을 구축하는 방법 |
반지도학습 Semi-supervised Learning |
지도학습과 자율학습의 방식을 조합하여 예측변수와 출력변수 간의 일부를 자율적으로 모델링하는 한편, 정해진 데이터셋에 대한 학습 또한 수행 |
3. 데이터 마이닝 적용 사례
3-1. 공공시스템
- 국세청의 탈세 방지 시스템에 적용
- 사기방지 솔루션, 소셜 네트워크 분석, 지능형 감지 시스템 구축
- 세금 누락 및 불필요한 세금 환급 절감 효과 발생
- 탈세자 수 감소 및 범죄 사건 미연 방지 가능
3-2. GPS 시스템
- 자동차의 센서 데이터(예:GPS)를 통하여 교통 정보 수집
- 지능형 교통 정보 시스템을 구축 가능
- 실시간 교통 정보를 공유하여 최적의 교통 안내 서비스
- 불필요한 에너지 낭비 방지 및 교통 시스템 효율 증대
3-3. 보건/의료
- 유전자 정보를 토대로 질병 연구에 활용
- 새로운 질병에 대한 빠른 진단 서비스
- 난치병 및 불치병 관련 유전자 정보를 토대로 신치료제 개발
- 최신 IT 기술 결합으로 치료 확률 상승
3-4. 제조/물류/마케팅
- 소비자의 니즈를 예측하여 제품을 미리 제조 및 배급
- 제조/물류/마케팅 비용을 최소화 가능
- 제품의 소비자 도달 시간 최소화
'민간 자격증 > 빅데이터전문가' 카테고리의 다른 글
10. 정형 데이터 마이닝 (0) | 2024.07.25 |
---|---|
8. 데이터 통계 분석(2) (0) | 2024.07.19 |
7. 데이터 통계 분석(1) (0) | 2024.07.14 |
6. 빅데이터 분석 도구 R(3) (0) | 2024.07.12 |
5. 빅데이터 분석 도구 R (2) (0) | 2024.07.10 |
댓글