머신러닝과 빅데이터 분석/기초 통계(Statics)

기초 통계2

Zoo_10th 2024. 3. 8.

1. 확률통계

확률이론은 통계학의 기본 이론으로 추정과 검정이론의 기초 통계적 추론이 확률이론에 기초하고 있기 때문에 의미 있는 통계적 추론을 하기 위해서는 기본적인 확률이론에 대한 이해가 필요하다.

1-1. 확률과 확률변수

1) 확률

발생 가능한 모든 사건들의 집합 표본공간에서 표본공간의 부분집합인 특정 사건 A가 발생할 수 있는 비율을 나타내는 값으로, 0과 1사이의 값이며, 가능한 모든 사건의 확률의 합은 항상 1이다.

어떤 사건이 일어날 가능성을 수치로 나타낸 것

2) 조건부 확률

어떤 사건 A가 일어났을 때 사건 B가 발생할 확률을 뜻한다. 이는 두 사건이 동시에 일어날 확률P(A∩B)을 사건 A가 일어날 확률 P(A)로 나눈 것으로 조건부 확률에 있어서 사건 B가 발생할 확률이 사건 A의 확률에 영향을 받는다는 것을 나타낸다.

3) 조건부 확률의 이해

(1) 지지도(Support)

전체 거래 중에서 A와 B라는 두 개의 품목이 동시에 포함된 거래의 비율로, 지지도가 높다는 것은 그 두개의 아이템이 같이 잘 팔린다는 것을 의미한다.

(2) 신뢰도(Confidence)

어떤 하나의 품목이 구매되었을 때 다른 품목 하나가 구매될 확률로, 조건부확률로 나타낼 수 있다. A가 구매되었을 때 B가 구매될 확률인 신뢰도(A→B)와 B가 구매되었을 때 A가 구매될 확률인 신뢰도(B→A)는 다르다.

(3) 향상도(Lift)

품목 A가 구매되지 않았을 때 품목 B가 구매될 확률 대비 품목 A가 구매될 때 품목 B가 구매될 확률을 나타낸값이다. 즉 이값이 높다면 우연에 의한 연관성이 높다는 뜻이다. 신뢰도와 달리 향상도(A→B)는 향상도(B→A)와 같다.

*몬티홀 문제

세개의 문뒤에 염소 2개와 슈퍼카 1대가 있다. 여러분이 하나의 문을 선택한뒤에 저는 염소가 있는 문을 열어서 보여줌 그리고 여러분이 두개의 문중에 다시 하나를 선택할 기회를 준다. 바꾸는게 유리한가? 안바꾸는게 유리한가?

4) 확률변수

확률 변수란 확률 현상에 기인해 결과값이 확률적으로 정해지는 변수를 의미한다. 예를 들어 동전의 앞면은 1, 뒷면은 0 이라고 했을 때, 0과 1이 확률변수인 것이다. 이러한 확률변수는 이산확률변수와 연속확률변수로 나뉠 수 있다.

1-2. 확률 분포

확률분포란 확률변수의 모든 값과 그에 대응하는 확률이 어떻게 분포하고 있는가를 말한다.

1) 이산확률분포

이산확률변수는 확률변수가 특정한 값들로 구성되어 있거나 일정한 범위로 나타나는 경우를 말한다.

- 베르누이 분포

사건의 결과가 0 또는 1, 성공 또는 실패와 같이 둘 중 하나의 결과만 나오는 경우의 확률분포를 베르누이 분포라 한다. 예를 들어 동전을 던져서 앞면이 나올 확률, 제비뽑기에 당첨될 확률, 어떤 선수가 안타를 칠 확률등이 베르누이 분포를 따른다.

베르누이분포 참조

2) 연속확률분포

연속확률변수는 변수가 연속적인 숫자이거나 무한한 경우와 같이 셀 수 없는 경우를 말한다.

- 정규분포

정규분포는 가장 대표적인 연속형 확률분포 중 하나로 평균인 μ가 그래프의 중앙에 위치하고 변곡점인 표준편차가 σ인 분포를 의미한다. 정규 분포는 1학년의 수학점수나 전국 남성의 키와 같은것이 정규분포의 예다. 정규분포는 평균의 근처에서 가장 큰 빈도수를 갖으며, 평균에서 멀어질 수록 빈도가 낮아지는 종모양의 그래프를 갖는다.

정규분포 참조

1-3. 중심 극한 정리

무작위로 추출된 표본의 크기가 커질수록 표본 평균의 분포는 모집단의 분포 모양과는 관계없이 정규분포에 가까워진다는 정리. 이때 표본 평균의 평균은 모집단의 모 평균과 같고, 표본 평균의 표준 편차는 모집단의 모 표준 편차를 표본 크기의 제곱근으로 나눈 것과 같다.

일반적으로 표본의 크기가 30 이상인 경우 표본평균의 분포는 정규분포와 유사하다.

2. 가설검정

2-1. 추정

추정이란 표본으로부터 모수를 추측하는 것을 말한다. 일반적으로 모집단의 전체를 대상으로 조사하는것은 쉽지않다. 그렇기 때문에 우리는 표본을 추출하여 통계량으로 모수를 추정해야한다. 여기서 중요한것은 모수란 모집의 평균이나 분산 같은 값들이기 때문에 모집단이 변하지 않으면 모수는 항상 같은 값을 가진다. 그러나 통계량은 추출된 표본에 따라 그 값이 확률적으로 변화한다. 따라서 모수를 추정하는 것은 즉 확률적인 통계량에 의해 결정되는 것이다.

1) 점추정

점추정이란 모수가 특정한 값이라고 추정하는 것이다. 점추정에 해당하는 통계량으로는 평균, 중위수, 최빈값등이 있다. 점추정의 목적은 통계량이 모수와 같을 것이라고 주장하기 위해 불편추정량을 사용한다. 불편 추정량은 추정하는 값과 실제 모수의 값의 차이의 기대값이 0일 때 가장 이상적인 값이 된다.(불편성) 또한 분산이 적을수록(효율성) 표본의 크기가 커질 수록(일치성) 마지막으로 추정량은 모수에 대하여 모든 정보를 제공(충족성)해야 이상적인 추정량이라 할 수 있다.

2) 구간추정

구간추정이란 모수가 특정한 구간안에 존재할 것이라고 예상하는 것이다. 구간추정은 모수가 특정 구간안에 포함될 확률인 신뢰도(신뢰수준)가 필요하다.

2-2. 가설 검정

통계적 가설 검정은 모집단의 특성에 대한 주장 또는 가설을 세우고 표본에서 얻은 정보를 이용해 가설이 옳은지를 판정하는 과정이다.

1) 귀무가설

귀무가설이란 모집단이 어떠한 특징일 것이라고 주장되는 가설로 일반적으로 “차이가 없다” “같다(=)기호를 사용하여 나타낼 수 있는 가설을 말하며, 실험이나 연구를 통해 어떤 가설을 귀무가설(H_0 )이라고 한다면 귀무가설이 기각되야만 새로운 가설을 채택할 수 있다. 귀무가설은 영어로 Null hypothesis로 가설이 없다 즉, 이전에 주장되던 바가 바뀌지 않았다는 뜻이다.

2) 대립가설

대립가설이란 귀무가설에 반대되는 가설로 귀무가설이 틀렸다고 판단될 경우 채택되는 가설을 말하며, 실험이나 연구를 통해 어떤 가설을 주장하기 위한 새로운 가설(H )을 말한다. 대립 가설은 영어로 Alterantive hypothesis로 대안 가설 즉, 귀무가설이 기각되어야 사용될 가설을 말한다.

3) 통계적 오류

제1종 오류 : 귀무가설(H_0)이 사실인데 귀무가설(H_0)이 틀렸다고 결정하는 오류

제2종 오류 : 귀무가설(H_0)이 사실이 아님에도 불구하고 귀무가설(H_0)이 옳다고 결정하는 오류

	H0채택 ( H1 기각)	H0 기각 ( H1 채택)
H0 가 사실	올바른 결정	제 1종 오류
H0 가 거짓	제 2종 오류	올바른 결정

4) 검정통계량

관찰된 표본으로부터 구하는 통계량, 검정시 가설의 진위판단(귀무가설의 옳고 그름)을 판단하는 기준

5) 기각역

귀무가설을 기각하게 될 검정통계량의 영역으로, 검정통계량이 기각역 내에 있으면 귀무가설을 기각한다. 기각역의 경계값을 임계값이라 한다.

6) 유의수준

귀무가설을 기각하게 되는 확률의 크기로 귀무가설이 참인데도 이를 잘못 기각(제1종 오류)하는 오류를 범할 확률의 최대 허용 한계로 일반적으로 1%와 5%를 주로 사용한다.

7) 유의확률 (P-Value)

유의확률이란 쉽게 생각하면 귀무가설이 맞을 확률이다. 정확한 의미로 확률분포에서 우리가 계산한 통계량이 기각역에 포함되지 않음을 이야기한다. 유의확률은 나타난 통계량이 귀무가설의 확률분포에서 어느 위치일지에 대한 확률값을 말한다. 따라서 유의확률이 유의수준보다 낮을 경우 귀무가설은 기각되고 대립가설을 채택한다.