머신러닝과 빅데이터 분석/기초 통계(Statics)

기초 통계

Zoo_10th 2024. 3. 7.

1. 데이터의 이해

1-1. 데이터

데이터란 용어는 1646년 영국문헌에 처음 등장하였으며 라틴어인 dare(주다)의 분사형으로 ‘주어진것’이란 의미로 사용된다. 데이터는 추론과 추정의 근거를 이루는 사실을 나타낸다.

1) 데이터의 특성

존재적 특성	"있는 그대로의 사실"을 나타냄
당위적 특성	"추론, 예측, 전망, 추정"을 위한 정보의 근거

2) 데이터의 유형

- 형태의 따른 분류

정성적 데이터	언어나 문자등과 같이 수치적으로 표현되지않은 데이터 (선호도, 만족도)
정량적 데이터	수치,도형,기호 등 연산이 가능하도록 수치화된데이터 (온도, 풍량, 주가)

- 구조에 따른 분류

정형 데이터	정형화된 틀이 있고 연산이 가능(정량적 데이터)
비정형 데이터	정형화된 틀이 없고 연산이 불가능(정성적 데이터)
반정형 데이터	형태는 있지만 연산이 불가능

3) DIKW의 정의

지혜(Wisdom)	지식의 축적과 아이디어가 결합된 창의적 산물
지식(Knowledge)	다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합해 고유의 지식으로 내재화된 것
정보(Information)	데이터의 가공, 처리 및 데이터 간 연관관계 속에서 의미가 도출된것
데이터(Data)	가공전의 객관적 사실, 의미가 중요하지않음

1-2. 빅데이터

1) 빅데이터 정의

일반적 정의	큰용량과 복잡성으로 기존 툴로 다루기 어려운 데이터셋의 집합
가트너 정의	향상된 시사점과 나은 의사결정을 위해 사용되는 비용 효율이 높고 혁신적이며 대용량, 고속 및 다양성의 특징을 가진 정보자산
매킨지 정의	데이터베이스 소프트웨어가 저장, 관리, 분석 할 수 있는 범위를 초과하는 규모의 데이터
IDC 정의	대규모 데이터에서 낮은 비용으로 가치를 추출하고, 데이터의 초고속 수집과 발굴을 지원하도록 고안된 차세대 기술 및 아키텍쳐
한국 데이터 진흥원	기존의 접근방식으로 얻을 수 없었던 통찰과 가치를 창출하는 모든 것

2) 빅데이터의 특징(3V)

- 더그레니의 3V와 추가되는 4V

Voulume(양) + Variety(다양성) + Velocity(속도)

Value(가치) + Veracity(정확성) / Visualization(시각화) + Variability(가변성)

3) 빅데이터의 출현 배경

데이터의 양적 증가	컴퓨터와 스마트폰 보급 등의 영향으로 데이터의 양적 증가
산업계의 변화	데이터에 숨어있는 가치를 발굴해 새로운 성장 동력원으로의 기술 확보
학계의 변화	거대 데이터를 다루는 학문 분야가 늘어나면서 필요한 기술 아키텍쳐 및 통계 도구들이 발전
기술의 발전	디지털화, 저장기술의 발달, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅

4) 빅데이터가 만들어내는 변화

과거	현재	내용
사전 처리	사후 처리	가능한 많은 데이터를 모으고 다양한 방식으로 조합하여 새로운 인사이트를 발굴
표본 조사	전수 조사	클라우드 기술의 발전으로 데이터 처리 비용이 감소하여 표본조사에서 전수조사로 활용방법이 변화함
질	양	수집 데이터의 양이 증가할수록 양질의 분석 결과 산출에 긍정적인 영향을 줌
인과관계	상관관계	데이터 기반의 상관관계 분석이 인과관계에 의한 미래예측을 점점 더 압도해가는 시대로 전망됨

2. 기초 통계

2-1. 통계, 수학, 확률의 필요성

1) 수학의 기원

수학은 피타고라스로부터 기원된 것으로 이해

(기존 바빌로니아와 이집트에서도 “Computation”은 있었지만, “증명”은 없었음)

증명(Proofs)을 통해, 수리적 사고를 체계적으로 정당화하여 다른 사람도 동의할 수 있게 함 피타고라스와 같은 그리스 수학자들은 추론/논리/명제 등을 중심하였으며, 이후 로마와 근대 수학의 기초가 됨 피타고라스: Definition/Theorem/Proof를 사용하며, 세계가 숫자로 만들어짐을 주장, 플 라톤도 피타고라스 학파

수학을 통해 결과를 검증하고 이해 가능한 정리와 증명의 체계로 구성되어 있다.

2) 머신러닝에서의 확률, 통계, 수학

1-2. 기초 통계 개념

1) 통계(statistic) 분석의 대상이 되는 집단에 대하여 실시한 조사 및 실험의 결과로, 얻어진 관측값(수치) 또는 그 관측값들의 요약된 형태

2) 통계학(statistics) 특정 의도/목적으로 조사/연구할 때, 자료 수집 방법 및 수집한 자료를 과학적이고 논리적인 이론에 의하여 정리/분석하는 학문 관심의 대상에 대한 관련된 자료를 수집/요약/정리/해석하며, 불확실한 사실에 대한 결론을 도출하는데 필요한 이론/방법을 제시

3) 통계학의 어원 국가산술(國家算術 : state arithmetics)을 의미하고, 세금을 거두기 위해 실시한 인구조사, 지가(地價) 산출로부터 시작 Statistics는 영국의 John Sinclair 경에 의해 1791년부터 1799년 사이에 발간된 책자에 최초로 사용

1-2-1. 통계학

1) 모수(parameter) :불변

- 모집단의 특성을 수치로 나타낸 척도

- 모수들은 전수조사(census)를 통해 얻은 자료로부터 구해짐.

- 모집단의 평균인 모평균(population mean) : 𝜇

2) 통계량(statistic) : 가변

- 표본자료로부터 얻어진 표본의 특성을 수치로 나타낸 척도

1-2-2. 모집단과 표본

1) 모집단 (Population)

- 얻고자 하는 정보와 관련 있는 모든 개체로 부터 얻을 수 있는 모든 관측값들의 집합, 관심을 갖는대상 전체

- 조사 및 관심의 대상이 되는 원소 하나 하나의 전체 집합(모임)

- 모집단은 일반적으로 매우 크고, 실제로 무한히 클 수도 있다.

- 모집단 전체를 조사해서 얻은 통계자료를 모집단자료(Population data)

2) 표본 (Sample)

- 모집단의 일부분으로 원하는 정보를 얻기 위해 수행한 관측을 통해 얻어진 관측값.

- 표본 공간 : 통계적 실험에서 모든 가능한 실험결과들의 집합.

- 모집단의 특성을 파악하기 위하여 추출된 모집단의 일부. 즉, 모집단의 부분집합(subset)

- 모집단의 일부분인 표본으로부터 조사된 자료를 표본자료(sample data)라고 한다.

1-2-3. 표본추출법

1) 단순 랜덤 추출법(Simple Random Sampling)

모집단의 원소들을 무작위로 추출하는 방법으로 추출한 원소를 제외하는 비복원 추출과 추출한 원소를 다시집어넣어 추출하는 복원 추출 방식이 있다. 비복원과 복원 추출 모두 원소가 표본에 포함될 확률은 모두 같다.

2) 계통 추출법(Systematic Sampling)

모집단의 원소에 차례대로 번호를 부여한 뒤 일정한 간격을 두고 데이터를 추출하는 방법. 처음 하 나의 임의로 추출한 원소로부터 일정한 간격을 두고 표본을 추출하는 방식이다.

3) 집락(군집) 추출법 (Cluster Random Sampling)

집락 추출법은 데이터를 여러 집락으로 구분한 뒤, 단순 랜덤 추출법에 의해 선택된 집락의 데이터를 표본으로 사용하는 방법이다. 각 집락은 서로 동질적이며, 집락내 데이터는 서로 이질적이다. 이말은 모집단에서 구분된 집락끼리는 서로 같은 특성을 가지고 집락내의 데이터는 서로 개별적인 특성을 갖는다는 말이다.

4) 층화 추출법(Stratified Random Sampling)

유사한 원소끼리 몇 개의 층(Stratum)으로 나누어 각 층에서 랜덤 추출하는 방법을 말한다. 층화 추출법은 집락 추출법과 유사하지만 집락 추출법과 달리 집락은 서로 이질적이며, 집락 내에 데이터는 서로 동질적이라는 차이가 있다.

1-2-4. 통계량

- 통계적 분석

자료의 분포가 가지고 있는 특성을 찾아내서 그 특성을 숫자로 표시하기 위한 작업 (확률변수)

1) 분포의 특성

- 집중화 경향 (중심값 - 산술평균, 중앙값, 최빈값): 자료가 어느 위치에 집중되어 있는가를 나타낸다.

- 산포도 (범위, 분산, 표준편차, 백분위수):자료가 산술평균을 중심으로 흩어져 있는 정도 흩어져있는지 나타낸다.

1-3. 기술통계와 추론통계

1) 기술통계

자료의 특성을 표, 그림, 통계량 등을 사용하여 쉽게 파악할 수 있도록 정리/요약, 자료를 요약하는기초적 통계

중심위치의 측도: 표본평균, 중앙값 산포의 측정: 분산, 표준편차,사분위범위수, 백분위수, 변동계수, 평균의 표준오차 분포의 형태에 관한 측도: 왜도(양수->왼쪽으로 치우친, 음수->우측으로 치우친),첨도

2) 추론통계

- 모수 추정(Parameter estimation)

* 점추정(Point Estimation): 모수가 특정한 값일 것이라고 추정, 표본의 평균/중위수/최빈값 등을 사용, 불편성/효율성/일치성/충족성 (표본 평균과 표본 분산)

* 구간추정(Interval Estimation): 점추정의 정확성을 보완하기 위해 확률로 표현된 믿음의 정도하에서 모수가 특정한 구간에 있을 것이라고 선언 (추정량의 분포에 대한 전제 필요, 구해진 구간 내 모수가 있을 가능성의 크기(신뢰수준) 필요)

- 가설검정(Hypothesis Test)

모집단에 대한 어떤 가설을 설정한 뒤, 표본 관찰을 통해 가설의 채택여부 결정

* 표본관찰이나 실험을 통해 귀무가설과 대립가설 중 택1

* 귀무가설이 옳다는 전제 하 검정통계량을 구하여, 이 값이 나타날 가능성의 크기로 판단

* 귀무가설/대립가설/검정통계량/유의수준/기각역/채택역

* 제1종 오류/제2종 오류

1-4. 통계량_중심치

1) 측정(Measurement)과 척도

측정이란 표본조사를 실시하는 경우 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하게 관측해 자료를 얻는 것을 말하며, 척도란 관측 대상의 속성을 측정하여 그 값이 숫자로 나타나도록 일정한 규칙을 정하여 바꾸는 도구를 말한다.

2) 평균

(산술)평균(mean; arithmetic mean; average), 균형점(자료의 중심), 모든 관측값의 크기(정보)를 반영, 이상값(outlier)의 영향을 받는다.

3) 중앙값

4) 최빈값

최빈값(mode): 가장 빈번하게 관찰/측정되는 값

모든 척도에 가능하나 주로 범주변수(명목척도, 서열척도)에 사용

1-5. 통계량 산포도

1) 분산(Variance)

각 자료가 평균에서 얼마나 퍼져있는지를 보는 정도. 각 자료의 평균과의 차이에 대한 평균 모분산(population variance): 모집단으로부터 전수조사를 하여 얻은 관측값인 경우 모집단의 분산한다.

표본분산(sample variance): 표본에서 측정된 분산

분모가 다른 이유는 n에서 1을 빼는 것을 자유도(degree of freedom) 조정이라고 하며, 표본평균이 이미 한 개의 추정값으로 사용되어 데이터 중 하나의 자유를 제한하기 때문에 자유도를 n-1로 설정한다.

*자유도란

데이터 세트에서 표본분산을 계산할 때 사용되는 자유도는 일반적으로 n-1이다. 여기서 n은 표본의 크기를 의미한다. 표본평균을 이미 계산한 후에는, 마지막 데이터 포인트는 자유롭게 변할 수 없다. 왜냐하면 처음 n-1개의 데이터 포인트와 표본평균이 이미 정해져 있기 때문에, 마지막 데이터 포인트는 이들 값에 의해 제약을 받기 때문이다. 따라서, n-1이 자유도가 된다.

2) 표준편차

모분산이나 표본분산은 관측값들의 편차를 제곱하여 계산하므로 모분산이나 표본분산의 측정단위는 관측값들의 측정단위와 일치하지 않으며, 그렇기 때문에 관측값의 측정단위와 일치시키기 위해서는 분산의 양의 제곱근을 사용한다.

3) 사분위수

전체 데이터를 작은 값부터 큰 값까지 순서대로 나열한 후 4등분 하였을 때, 각 지점에 해당하는 값이다.

- 제1사분위수(Q1): 25% 지점

- 제2사분위수(Q2): 50% 지점 = 중간값

- 제3사분위수(Q3): 75%

- 제1사분위수와 제3사분위수 사이의 구간에는 항상 전체 데이터의 50%가 포함 된다.

- 사분위는 임의로 정하는 기준이므로 필요에 따라 십분위 등으로 변경 가능하다.

평균과 표준편차는 자료의 분포에 대해 중요한 정보를 제공하지만, outlier 등의 영향을 받을 수 있으며,자료 분포의 치우침 등에 대한 정보는 아니다.

4) 이상 값(Outlier)

이상값이란 존재하지 않는 결측값과 달리 다른 데이터와 비교하였을 때 극단적으로 크거나 극단적으로 작은값을 의미한다.

5) 사분위수를 이용한 이상 값 제거

728x90

저작자표시 비영리 변경금지

'머신러닝과 빅데이터 분석 > 기초 통계(Statics)' 카테고리의 다른 글

기초 통계2 (4)	2024.03.08