민간 자격증/빅데이터전문가

10. 정형 데이터 마이닝

Zoo_10th 2024. 7. 25.

1. 분류(Classification) 분석

1-1. 분류 (Classification)

분류란, 데이터가 어느 그룹에 속하는 지 예측하는 데에 사용하는 데이터 기법이다. 분류는 군집화와 유사하게 데이터를 나눈다는 관점이 있으나, 군집화와 다르게 각 데이터의 범주 (계급)이 어떻게 정의되는 지 알아야 한다.

정의  - 데이터가 어느 그룹에 속하는지 예측하는 데에 사용하는 데이터 기법
 - 군집화(clustering)와 유사하나,각 계급이 어떻게 정의되는지 미리 알아야 한다.

1-2. 분류 방법론

분류 방법론으로는 의사결정나무, 베이지안 정리, 인공 신경망, 지지 벡터 기계 등이 있다.

  k - 최근접 이웃
K-Nearest Neighbors
 - 인접한 k개의 이웃을 통하여 데이터가 소속되는 그룹을 결정
의사결정나무
Decision Tree
 - 어떤 항목에 대한 관측값과 목표값을 연결시키기 위한 트리 구조를 결정
베이지안 정리
Bayesian Theorem
 - 불확실성 하에서 분류 문제를 조건부 확률의 방법으로 해결하는 방법
인공 신경망
Artificial Neural Networks
 - 생물학의 신경망에서 영감을 얻은 방법론으로, 시냅스를 모델링하여 모델 구축
지지 벡터 기계
Support Vector Machines
 - 주어진 데이터 집합을 바탕으로 새로운 데이터 소속 그룹을 판단하는 모델 구축

1) k - 최근접 이웃 K-Nearest Neighbors

KNN 알고리즘은 새로운 데이터가 주어졌을 때, 이 데이터와 가장 가까운 K개의 이웃 데이터들을 찾아서 이 데이터의 클래스 또는 값을 예측하는 방식으로 동작힌다. 여기서 이웃 데이터들은 거리(distance)를 기반으로 판단된다. 즉, 가장 가까운 거리에 있는 K개의 데이터들을 선택하여 그들이 속한 클래스나 값으로 예측하는 것이다.

개요  - 인접한 k개의 이웃의 정보를 토대로 데이터가 소속되는 그룹을 결정
특징  - 잡음 또는 무관 특징이 존재하는 경우, 특징 크기가 중요성과 일치하지 않으면, 정확성이 감소
 - 적절한 k를 선택하는 것이 중

2)  의사결정나무 Decision Tree

의사결정나무는 결정 트리 학습법이라고도 한다. 의사결정나무는 관측값과 목표값 간의 모델을 구축하는 것을 최종 목표로 한다. 의사결정나무의 갈래로는 분류 트리 분석, 회귀 트리 분석 등이 존재한다.

의사결정나무는 주로 지도 분류 학습법에서 사용한다. 특히 분류 속도를 향상시키기 위하여 랜덤 포레스트 등의 방법을 적용할 수 있다.

개요  - 결정 트리 학습법이라고도 하며, 관측값과 목표값 간의 모델을 구축
 - 분류 트리 분석, 회귀 트리 분석 등 존재
특징  - 지도 분류 학습법에서 주요 사용
 - 랜덤 포레스트 (Random Forest) 등의 방법을 이용하여 분류 속도 향상 가능

3) 베이지안 정리 Bayesian Theorem

베이지안 정리는 이전에 학습한 조건부 확률 방법론에 기반한 모델링 방법이다. 특히 지도 학습 환경에서 효율적인 훈련이 가능한 특성이 있다.
베이지안 정리는 최대우도방법(MLE)을 이용하여 모수 추정을 수행한다. 베이지안 정리를 이용하여 도출된 모델은 많은 응용에서 복잡한 실제 상황에서 잘 작동함이 검증되어 있어, 지금도 널리 활용중에 있다. 특히, 불확실성 하에서 의사결정 문제를 확률론적으로 다룰 때 주로 사용하는 방법이다.

개요  - 조건부 확률 모델에 기반
 - 지도 학습 환경에서 효율적 훈련 가능
특징  - 최대우도방법(MLE)를 이용하여 모수 추정 수행
 - 복잡한 실제 상황에서 잘 작동함이 검증
 - 불확실성 하에서 의사결정 문제를 확률론적으로 다룰 때 사용하는 방법

4) 인공 신경망 Artificial Neural Networks

인공 신경망을 이용하여 기계학습과 인지과학에서 생물학의 신경망으로부터 영감을 얻은 통계학적 학습 알고리즘을 분류에 적용할 수 있다. 특히, 지도/반지도/자율 학습을 모두 적용하여 각기 다른 다양한 결론을 이끌어낼 수 있다.
인공 신경망은 역전파 기법과 기반경사 하강법을 기반으로 학습이 이루어진다. 그러나 인공 신경망은 태생적으로 항상 최적의 해를 찾아내지 못하는 문제가 있다. 이러한 문제를 해결하기 위하여 유전 알고리즘 등 다양한 방법을 적용함으로써 보다 최적의 해에 가까운 해를 찾아내는 등, 학습 효과를 극대화하는 것이 가능하다.

개요  - 기계학습과 인지과학에서 생물학의 신경망으로부터 영감을 얻은 통계학적 학습 알고리즘을 분류에 적용
특징  - 지도/반지도/자율 학습 모두 적용 가능
 - 역전파 기법(Backpropagation) 기반경사 하강법(Gradient Descent)
 - 유전 알고리즘 등 다양한 방법을 이용해 학습 효과 극대화 가능

5) 지지 벡터 기계 Support Vector Machines

지지 벡터 기계는 유한 차원 공간에서 데이터를 분류하기 위한 최적 초평면을 모델링하는 방법이다. 특히, 데이터의 수가 적을 때에도 그 일반화 성능이 뛰어나다고 알려져 있다.
지지 벡터 기계 중 선형 지지 벡터 기계는 표본에 대한 최적의 초평면 모델을 모델링하는 것이 가능하다. 특히 소프트 마진 기반의 뛰어난 일반화 성능 덕택에, 새롭게 발생하는 표본에 대하여 분류 성능을 극대화할 수 있다. 한편, 커널 트릭을 이용하여 비선형 데이터에 대한 분류 또한 가능할 수 있다.

개요  - 유한 차원 공간에서 데이터를 분류하는 최적 초평면(hyperplane)을 모델링
특징  - 선형 SVM을 이용하여 현존하는 표본에 대한 최적의 초평면 모델을 모델링 가능
 - 새롭게 발생하는 표본에 대하여 분류 성능을 극대화하기 위한 소프트 마진
 - 커널 트릭(kernel trick)을 이용하여 비선형 분류 또한 가능

2. 군집(Clustering) 분석

정형 데이터 마이닝 분석의 다른 한 갈래인 군집 분석은 데이터의 특성에 대한 정보가 부족하며, 데이터에 대한 명확한 범주가 정의되지 않았을 때 인사이트를 얻기 위한 방법론의 하나이다.

2-1. 군집(Clustering)

군집은 데이터 마이닝 기술의 한 방법으로, 빅데이터에서 데이터의 특성을 고려하여 군집을 정의하고, 각 군집의 대표점을 찾는 방법이다. 특히 빅데이터 분석에 있어 데이터를 분류하는 새로운 인사이트를 발견할 수 있어, 수집한 빅데이터에 대한 정보가 부족할 때, 여건과 비용이 허락한다면 반드시 적용하는 방법론의 하나이다.

정의  - 데이터 마이닝 기술의 한 방법으로 빅데이터에서 데이터의 특성을 고려하여 군집을 정의하고 대표점을 찾는 작업
빅데이터
시대의 의미
 - 데이터를 분류하는 데에 도움
 - 새로운 정보를 발견하는 실마리

2-2. 군집의 구분

군집은 크게 계층적 군집화와 분할적 군집화로 구분할 수 있다. 계층적 군집화에서는 데이터의 점을 하나의 군집으로 설정하고 점 간의 거리를 기반으로 분할/합병한다. 예를 들어 계통도 등은 그러한 한 방법의 갈래라 볼 수 있다. 한편, 분할적 군집화는 여러 개의 분할 기법을 결정하는 기법이다. 다양한 거리 및 평가 함수에 기반하여 작동한다. 대표적으로는 k-Means 알고리즘 등이 알려져 있다.

계층적 군집화  - 데이터의 점을 하나의 군집으로 설정하고 점 간의 거리를 기반으로 분할/합병
 - 예) 계통도 등을 통하여 유사성 확인 가능
분할적 군집화  - 여러 개의 분할 기법을 결정하는 방법
 - 거리 함수 및 평가 함수에 기반
 - 예) k-Means 알고리즘 등

2-3. 군집 방법론

1) 계통도Dendrogram

계통도를 이용하면 각 계층에서 군집의 유사성을 쉽게 확인할 수 있다. 계통도는 흡수 과정 과 분리 과정으로 구분된다. 흡수 과정에서는 아래에서 위 방향으로 처리하여 군집을 흡수한다. 반면, 분리 과정은 위에서 아래로 분리하는 과정이다.

개요  - 각 계층에서 군집의 유사성을 쉽게 확인할 수 있다.
흡수 과정 
Agglomerative
 - 아래에서 위로 처리하여 군집을 흡수
 - n개의 각 군집과 수열의 형태가 연속적인 흡수 군집화 과정으로 처리
분리 과정
Divisive
 - 위에서 아래로 분리하는 과정
 - 하나의 군집에   개의 표본이 있으며, 연속적인 분리 과정으로 수행

2) k-Means 알고리즘

k-Means 알고리즘은 미지의 빅데이터로부터 k개의 분할 영역, 즉, 군집을 결정하는 방법이다. 이러한 군집을 결정하기 위해서는 적절한 거리 함수를 선정하여, 이에 기반하여 분할 영역을 탐색하는 것이 중요하다.

개요  - k개의 분할 영역(군집)을 결정하는 방법
 - 거리 함수에 기반하여 분할 영역 탐색
수행 과정  ① 군집의 개수 를 설정하고 군집의 초기값으로 중심을 1개씩 할당
 ② 주어진 중심점을 기준으로 하여 각 데이터를 가장 가까운 군집에 할당
 ③ 할당된 데이터를 중심으로 각 군집은 새로운 중심점을 계산
 ④ 새로운 중심점이 기존의 중심점과 차이가 없으면 이 단계에서 종료하고, 차이가 있는 경우 2번 단계로 되돌아가서 계속하여 수행

 

728x90

'민간 자격증 > 빅데이터전문가' 카테고리의 다른 글

9. 데이터 마이닝  (3) 2024.07.22
8. 데이터 통계 분석(2)  (0) 2024.07.19
7. 데이터 통계 분석(1)  (0) 2024.07.14
6. 빅데이터 분석 도구 R(3)  (0) 2024.07.12
5. 빅데이터 분석 도구 R (2)  (0) 2024.07.10

댓글