머신러닝과 빅데이터 분석10 군집분석 군집분석(Cluster Analysis)은 비슷한 특성을 가진 데이터들을 묶어주는 기술이다. 이를 통해 데이터 간의 유사성을 파악하고, 데이터를 분류하거나 축소하는 등의 다양한 분석에 활용된다. 군집분석에는 계층적 군집분석과 비계층적 군집분석이 있다. 계층적 군집분석은 데이터 간의 거리나 비유사도를 계산하여 군집을 형성한다. 이러한 계층적 군집분석은 일종의 트리 구조로 표현된다. 루트 노드는 모든 데이터를 포함하고, 하위 노드는 더 작은 군집을 의미한다. 비계층적 군집분석은 군집의 개수를 미리 지정하고 군집을 형성한다. 군집분석은 비지도학습(Unsupervised Learning)의 일종으로, 레이블이 없는(unlabeled) 데이터를 다루는 경우에 유용하다. 이는 레이블이 없는 상태에서 데이터들의 패턴.. 머신러닝과 빅데이터 분석/Machine Learning(비지도학습) 2024. 3. 18. 분류 분석 2 1. 앙상블 모델 여러 개의 분류기를 생성하고 그 예측을 결합하여 보다 정확한 최종 예측을 도출하는 기법을 앙상블(Ensemble) 모델이라고 한다. 이미지, 영상, 음성, 자연어 등 비정형 데이터의 분류는 딥러닝 모델이 뛰어난 성적을 얻고 있지만, 대부분의 정형 데이터 분류에는 앙상블 모델이 뛰어난 성능을 나타내고 있다. 대표적으로 랜덤 포레스트, 그레디언트 부스팅(GBM) 등이 있으며, 사용하기 쉬울 뿐만 아니라 성능 역시 뛰어난다. 1-1. 앙상블의 유형 1) 배깅(Bagging) 배깅(Bagging)은 부트스트랩 집계(Bootstrap Aggregating)의 줄임말로, 여러 개의 부트스트랩을 집계하는 알고리즘이다. 배깅의 가장 큰 특징은 복원 추출을 활용한다는 점이다. 원본 데이터로부터 복원 추.. 머신러닝과 빅데이터 분석/Machine Learning(지도학습) 2024. 3. 15. 분류 분석(분류 모델) 1. 분류의 개요 머신러닝은 인공지능 분야 중 하나로, 데이터를 이용하여 패턴을 학습하고 예측하는 기술이다. 이 중에서 분류모델은 데이터를 특정 카테고리나 그룹으로 분류하는 모델이다. 2. 분류모델의 개념 분류모델은 데이터를 분류하는 모델로, 입력 데이터에 대해 사전에 정해진 카테고리에 속하는지 여부를 판단한다. 지도학습에서는 미리 정해진 레이블(label) 정보를 이용하여 모델을 학습시키고, 새로운 데이터가 들어오면 해당 데이터를 분류한다. 반면, 비지도학습에서는 레이블 정보 없이 데이터의 패턴을 파악하여 그룹을 형성하거나 이상치를 찾아낸다. 3. 분류모델의 종류 3-1. 의사결정나무(Decision Tree) 1) 데이터를 분할하여 트리 구조로 표현하는 모델 2) 각 노드에서는 데이터를 가장 잘 분류.. 머신러닝과 빅데이터 분석/Machine Learning(지도학습) 2024. 3. 12. 회귀분석 1. 회귀 모델 1-1. 선형 회귀 모델 선형 회귀 모델(Linear Regression Model)은 종속 변수와 독립 변수 간의 선형 관계를 모델링하는 회귀 분석 알고리즘dl다. 종속 변수는 예측하고자 하는 변수이며, 독립 변수는 종속 변수를 설명하는 변수다. 선형 회귀 모델은 가장 간단하면서도 널리 사용되는 회귀 모델 중 하나이다. 이 모델은 종속 변수와 독립 변수 간의 선형 관계를 가정하고, 이 관계를 표현하는 최적의 회귀 계수를 찾아내는 것이 핵심이다. 선형 회귀 모델은 보통 최소 제곱법(Least Square Method)이나 경사 하강법(Gradient Descent Method)을 사용하여 회귀 계수를 추정한다. 최소 제곱법은 회귀 직선과 실제 데이터 간의 거리(오차)를 최소화하는 회귀 계.. 머신러닝과 빅데이터 분석/Machine Learning(지도학습) 2024. 3. 12. 머신러닝 1. 머신러닝의 정의 머신러닝은 데이터를 통해 컴퓨터가 스스로 학습하고 예측하는 인공지능 분야다. 머신러닝은 데이터 마이닝, 통계학, 최적화, 인공 신경망 등 다양한 분야에서 발전해 왔다. 머신러닝의 목적은 데이터를 활용하여 예측, 분류, 패턴 인식 등 다양한 작업을 수행하고, 인간의 판단을 대신하여 의사결정을 내리는 것이다. 2. 머신러닝 유형 2-1. 지도학습 지도 학습은 입력 데이터와 출력 데이터를 함께 학습하여, 새로운 입력 데이터가 주어졌을 때 정확한 출력을 예측하는 방법이다. 대표적인 지도 학습 알고리즘으로는 회귀(Regression)와 분류(Classification)가 있다. 회귀는 입력 데이터와 출력 데이터 간의 선형 또는 비선형 관계를 학습하여 연속적인 출력 값이 필요한 문제에 적용된다.. 머신러닝과 빅데이터 분석/Machine Learning(지도학습) 2024. 3. 11. EDA(탐색적 자료분석) EDA(Exploratory Data Analysis, 탐색적 자료 분석) EDA(Exploratory Data Analysis, 탐색적 자료분석)은 데이터를 이해하기 위한 첫 단계다. 데이터로부터 인사이트를 발견하고, 데이터의 특성을 파악하여 이후 분석에 대한 방향성을 제시한다. EDA를 수행하기 위해서는 기술 통계 분석, 시각화, 상관 분석 등 다양한 분석 기법을 사용한다. 1) EDA의 목적 EDA의 가장 큰 목적은 데이터에 대한 이해도를 높이는 것이다. 통계적 가설이나 모형에 집중하는 것이 아니라, 데이터의 통계량이나 시각화 등을 통해 데이터의 분포와 특성을 파악하여 데이터 분석 전 데이터에 대한 이해도를 높이는 것이다. EDA를 위해서는 다양한 시각화가 필요하며, 데이터에 대한 다양한 질문을 통.. 머신러닝과 빅데이터 분석/데이터 전처리 2024. 3. 11. 기초 통계2 1. 확률통계 확률이론은 통계학의 기본 이론으로 추정과 검정이론의 기초 통계적 추론이 확률이론에 기초하고 있기 때문에 의미 있는 통계적 추론을 하기 위해서는 기본적인 확률이론에 대한 이해가 필요하다. 1-1. 확률과 확률변수 1) 확률 발생 가능한 모든 사건들의 집합 표본공간에서 표본공간의 부분집합인 특정 사건 A가 발생할 수 있는 비율을 나타내는 값으로, 0과 1사이의 값이며, 가능한 모든 사건의 확률의 합은 항상 1이다. 어떤 사건이 일어날 가능성을 수치로 나타낸 것 2) 조건부 확률 어떤 사건 A가 일어났을 때 사건 B가 발생할 확률을 뜻한다. 이는 두 사건이 동시에 일어날 확률P(A∩B)을 사건 A가 일어날 확률 P(A)로 나눈 것으로 조건부 확률에 있어서 사건 B가 발생할 확률이 사건 A의 확률.. 머신러닝과 빅데이터 분석/기초 통계(Statics) 2024. 3. 8. 기초 통계 1. 데이터의 이해 1-1. 데이터 데이터란 용어는 1646년 영국문헌에 처음 등장하였으며 라틴어인 dare(주다)의 분사형으로 ‘주어진것’이란 의미로 사용된다. 데이터는 추론과 추정의 근거를 이루는 사실을 나타낸다. 1) 데이터의 특성 존재적 특성 "있는 그대로의 사실"을 나타냄 당위적 특성 "추론, 예측, 전망, 추정"을 위한 정보의 근거 2) 데이터의 유형 - 형태의 따른 분류 정성적 데이터 언어나 문자등과 같이 수치적으로 표현되지않은 데이터 (선호도, 만족도) 정량적 데이터 수치,도형,기호 등 연산이 가능하도록 수치화된데이터 (온도, 풍량, 주가) - 구조에 따른 분류 정형 데이터 정형화된 틀이 있고 연산이 가능(정량적 데이터) 비정형 데이터 정형화된 틀이 없고 연산이 불가능(정성적 데이터) 반정.. 머신러닝과 빅데이터 분석/기초 통계(Statics) 2024. 3. 7. Seaborn 1. Seaborn Seaborn은 파이썬 데이터 시각화 라이브러리 중 하나로서, Matplotlib의 기능을 향상시키고 확장한 것이다. Seaborn은 데이터셋에서 복잡한 패턴을 추출하고 시각화하는 것을 도와주며, Matplotlib보다 간단하고 세련된 시각화를 제공한다. Seaborn은 다양한 종류의 그래프를 그릴 수 있으며, 예쁜 색상 팔레트와 통계적 그래프 기능을 제공한다. 1-1. Seaborn 기능 1) 더 나은 색상 팔레트 제공 2) 통계적 그래프 기능 3) Matplotlib의 기능 확장 4) 다양한 종류의 그래프 제공 2. Seaborn 그래프 2-1. Seaborn 사용 방법 1) Seaborn 라이브러리를 import 한다. 2) Seaborn으로 그래프를 그리기 위한 데이터를 준비한.. 머신러닝과 빅데이터 분석/시각화(Visualization) 2024. 3. 4. Matplotlib 1. 데이터 시각화 1-1. 데이터 시각화란 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정을 말한다. 데이터 시각화의 목적은 도표라는 수단을 사용하여 정보를 명확하고 효과적으로 전달하는 것이다. 데이터 시각화는 데이터를 한눈에 보여주어 데이터의 형태를 통해 새로운 인사이트를 얻고 데이터를 해석할 수 있도록 도와준다. - 파이썬의 데이터 시각화 1) Matplotlib 파이썬에서 사용되는 대표적인 시각화 라이브러리는 Numpy를 기반으로 제작된 Matplotlib이다. 2) Seaborn Matplotlib을 기반으로 하는 Seaborn은 더 많은 그래프와 시각적 효과를 더 높은 수준으로 제공하는 강력한 시각화 라이브러리다. 3) Plotly Plotly(플로틀리)는 inte.. 머신러닝과 빅데이터 분석/시각화(Visualization) 2024. 2. 29. 이전 1 다음 728x90