빅데이터분석기사/필기

(2과목) 빅데이터 탐색③

Zoo_10th 2024. 3. 30.

1. 기술 통계

1-1. 표본추출

1) 전수조사와 표본조사

전수조사란 분석 대상이 되는 대상 집단 전체를 조사하는 방법을 말하며, 표본조사란 분석 대상이 되는 대상 집단 중 일부만 조사하는 방법을 말한다.

용어 설명
모집단 (Population) 조사하고자 하는 대상 집단 전체
원소 (Element) 모집단을 구성하는 개체
표본 (Sample) 조사하기 위해 추출한 모집단의 일부 원소
모수 (Parameter) 표본 관측에 의해 구하고자 하는 모집단에 대한 정보로써 모집단의 특성을 나타내는 수치
통계량 (Statistics) 모집단에서 추출한 표본에 특성을 나타내는 수치(통계량의 목적은 모수를 추정하기 위해 사용되며, 모수는 변하지 않지만 통계량은 표본에 의해서 결정되기 때문에 확률적으로 변화될 수 있다.)

2) 표본 추출 방법

 - 단순 랜덤 추출법(Simple Random Sampling)

모집단의 원소들을 무작위로 추출하는 방법으로 추출한 원소를 제외하는 비복원 추출과 추출한 원소를 다시 집어넣어 추출하는 복원 추출 방식이 있다. 비복원과 복원 추출 모두 원소가 표본에 포함될 확률은 모두 같다.

 - 계통 추출법(Systematic Sampling)

모집단의 원소에 차례대로 번호를 부여한 뒤 일정한 간격을 두고 데이터를 추출하는 방법. 처음하나의 임의로 추출한 원소로부터 일정한 간격을 두고 표본을 추출하는 방식이다.

 - 집락(군집) 추출법 (Cluster Random Sampling)

집락 추출법은 데이터를 여러 집락으로 구분한 뒤, 단순 랜덤 추출법에 의해 선택된 집락의 데이터를 표본으로 사용하는 방법이다. 각 집락은 서로 동질적이며, 집락내 데이터는 서로 이질적이다. 모집단에서 구분된 집락끼리는 서로 같은 특성을 가지고 집락내의 데이터는 서로  개별적인 특성을 갖는다

 - 층화 추출법(Stratified Random Sampling)

유사한 원소끼리 몇 개의 층(Stratum)으로 나누어 각 층에서 랜덤 추출하는 방법을 말한다. 층화 추출법은 집락 추출법과 유사하지만 집락 추출법과 달리 집락은 서로 이질적이며, 집락 내에 데이터는 서로 동질적이라는 차이가 있다.

비례 층화 추출법 비례 층화 추출법은 전체 데이터의 분포를 반영하여 각 군집별 데이터를 추출하는 방식이다. 예를들어 어느 학교의 학생을 모집단으로 할 때 1학년이 200명 2학년이 300명 3학년이 500명일 경우 표본을 추출할때 이와 같은 비율인 2:3:5의 비율을 유지하여 표본을 추출하는 방식이다.
불비례 층화 추출법 불비례 층화 추출법은 전체 데이터의 분포를 반영하지 않고 각 군집에서 원하는 개수의 데이터를 추출하는 방법으로 원하는 군집에서 원하는 표본의 개수를 추출한다.

3) 측정(Measurement)과 척도

특정이란 표본조사를 실시하는 경우 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하게 관측해 자료를 얻는것을 말하며, 척도란 관측 대상의 속성을 측정하여 그 값이 숫자로 나타나도록 일정한 규칡을 정하여 바꾸는 도구를 말한다.

 - 측정 방법

구분 특징 예시
질적척도 명목척도 측정 대상이 어느 집단에 속하는지 나타내는 척도 성별, 지역 등
순서척도
(서열척도)
측정 대상이 명목척도이면서 서열관계를(순서)를 나타내는 척도 선호도, 신용도, 학년 등
양적척도 구간척도 측정 대상이 가지고 있는 속성의 양을 측정할 수 있으며 두 구간 사이에 의미가 있는 자료 온도, 지수 등
비율 척도 측정 대상이 구간 척도이며, 절대적 기준 0이 존재하여 사칙연산이 가능한 자료 무게, 나이, 시간, 거리 등

4) 기술 통계(Descriptive Statistic)와 통계적 추론(Inference Statistics)

 - 기술 통계(Descriptive Statistic)

기술 통계란 주어진 자료로부터 어떤 판단이나 예측을 배제하고 통계집단들의 여러 특성을 수치화하여 객관적인 데이터(표본의 특성인 평균, 표준편차, 중위수, 최빈값, 그래프, 왜도, 첨도)를 구하는 것을 말한다. (DIKW 데이터에서 정보를 만드는 과정이라고 생각하면 된다.) 통계분석의 목적은 자료를 요약하고 조직화, 단순화하여 데이터 특성을 파악하는데 있다.

 - 통계적 추론(추측통계 : Inference statistics)

통계적 추론이란 수집된 자료를 이용해 대상 집단에 대한 의사결정을 하는 것으로 표본을 통해 모집단 추정하는 것을 의미한다. 

2. 확률

발생 가능한 모든 사건들의 표본 공간에서 표본 공간의 부분 집합인 특성 A가 발생할 수 있는 비율을 나타내는 값으로, 0과 1사이의 값이며, 가능한 모든 사건의 확률의 합은 항상 1이다.

 - 조건부 확률

어떤 사건 A가 일어났을 때 사건 B가 발생할 확률을 뜻한다. 이는 두 사건이 동시에 일어날 확률 P(A∩B)을 사건 A가 일어날 확률 P(A)로 나눈것으로 조건부 확률에 있어서 사건 B가 발생할 확률이 사건 A의 확률에 영향을 받는다는 것을 나타낸다.

 - 독립 사건

서로에게 영향을 주지 않는 두 개의 사건을 말한다. 조건부 확률에서 두 사건 A와 B가 독립인 경우에는 A가 발생했을 때를 가정하더라도 B의 확률은 변하지 않는다.

 - 배반 사건

두 사건 A와 B에대한 교집합, 즉 공통된 부분이 없는 경우를 배반 사건이라 한다. 사건 A가 발생하면 사건B는 발생하지 않는 것을 말한다.

 - 확률 변수(Random Variable)

확률 현상에 이인해 결과값이 확률적으로 정해지는 변수를 의미한다. 예를들어 동전의 앞면은 1, 뒷면은 0이라고 했을때 0과 1이 확률변수이다. 

2-1. 확률분포

확률분포란 확률변수의 모든 값과 그에대응하는 확률이 어떻게 분포하고 있는가를 말한다.

1) 이산확률분포

이산확률변수는 확률변수가 특정한 값들로 구성되어 있거나 일정한 범위로 나타나는 경우를 말하며, 이산확률변수의 분포는 히스토그램으로 나타낼 수 있다.

 - 베르누이 분포 

사건의 결과가 0 또는 1, 성공 또는 실패와 같이 둘중 하나의 결과만 나오는 경우의 확률분포를 베르누이 분포라 한다.

예를들어 동전을 던져서 앞면이 나올 확률, 제비뽑기에 당첨될 확률, 어떤 선수가 안타를 칠 확률등이 베르누이 분포를 따른다.

 - 이항 분포

베르누이 시행(성공 또는 실패)를 n번 시도할 경우 K번 성공할 확률의 분포를 말한다.

예를 들어 하나의 동전을 3번(n) 던져서 앞면이 2번(K) 나올 확률이나 5번(n) 타석에 들어가 3번(k) 안타를 칠 확률 등이 이항분포에 해당한다.

 - 기하 분포

성공 확률이 p인 베르누이 시행에서 처음으로 성공이 나올 때까지 k번 실패할 확률의 분포이다.

예를 들어 동전 앞면이 나오는걸 성공이라고 하면 동전의 앞면이 나올 때까지 던져서 처음 앞면이 나올 때의 동전을 던진 횟수를 확률변수로 갖는 확률분포를 말한다.

 - 다항 분포

이항 분포를 확장한 개념으로, n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률의 분포를 의미한다. 즉 확인하고 싶은 결과가 3개 이상이 되는 경우가 다항 분포이다.

예를 들어 주사위를 던져서 처음에 2의 배수가 나오고, 두번째는 3의 배수가 나오고 마지막으로 6이 나올 확률처럼 시행의 결과가 3개 이상인 경우를 다항 분포라고 한다.

 - 포아송 분포

단위 시간 또는 단위 공간 내에서 발생할 수 있는 사건의 발생 횟수에 대한 확률 분포를 의미한다.

예를 들어 책에 오타가 5페이지 당 10개씩 나온다고 할 때 한 페이지에 오타가 3개 나올 확률은 포아송 분포에 해당한다.

2) 연속확률분포

연속확률변수는 변수가 연속적인 숫자이거나 무한한 경우와 같이 셀 수 없는 경우를 말하며, 연속 확률 변수의 분포는 그래프로 나타낼 수 있다.

 - 균일분포

균일 분포는 연속형 확률 변수인 X가 취할수 있는 모든 값에 대하여 같은 확률을 갖고 있는 분포를 의미한다. 연속확률변수란 이산확률변수와 달리 특정 값에 대한 확률을 정의할 수 없다. 연속이라는 말은 값을 특정할 수 없다는 말과 같다. 따라서 연속확률분포의 확률변수는 특정 값이 아닌 범위를 대상으로 한다. 

예를 들어 버스가 5분에 한대씩 도착한다고 가정하면 내가 버스정류장에 도착하고 1분 사이에 버스가 올 확률과 같이 범위를 기준으로 확률변수를 구한다 연속확률분포중 균일분포는 모든 범위에서 같은 확률 값을 갖는 것이다.

 - 정규분포

가장 대표적인 연속형 확률분포 중 평균 μ가 그래프의 중앙에 위치하고 변곡점인 표준편차가 σ인 분포를 의미한다. 평균 근처에서 가장 큰 빈도수를 갖으며, 평균에서 멀어질 수록 빈도가 낮아지는 종모양의 그래프를 갖는다.

예를 들면 1학년의 수학 점수, 전국 남성의 키 이다.

 - t-분포

표준 정규분포(평균이 0인 정규분포)와 같이 평균이 0을 중심으로 좌우가 동일한 분포이며 표준정규분포보다 평균이 낮고 평균에서 멀어지면 표준정규분포보다 높은 빈도를 갖는다. t-분포는 자유가 커질수록 표준정규분포와 거의 같은 분포로 이동한다. t-분포의 경우 두 집단의 평균이 동일한지 계산하기 위한 검정 통계량으로 활용된다.

자유도란 표본의 자료들이 독립변수의 수를 말한다. n개의 변수를 갖는 경우 자유도는 n-1이 된다.

 - 지수분포

어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포이다. 사건이 서로 독립적일 때, 일정 시간 동안 발생하는 사건의 획수가 포아송분포를 따른다면 다음 사건이 일어날 때까지 대기시간은 지수분포를 따른다.

 - 카이제곱 분포

모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용되는 분포로서 두집단 간의 동질성 검정에 활용된다.

동질성 검정이란 표본의 내부 특성이 모집단의 내부 특성 비율과 얼마나 같은지를 검정하는 것을 말한다.

 - F분포

서로 독립인 두 카이제곱 분포를 따르는 확률변수V1, V2를 각각의 자유도 K1,K2로 나누었을 때 서로의 비율 X는 자유도가 (K1, K2)인 F분포를 따른다. 카이제곱(X²)분포는 한 개의 분산을 구하는데 사용되는 분포이며, F분포는 두 집단의 분산이 동일한지를 검사하기 위해 사용된다.

3. 추론 통계

3-1. 추정

표본으로부터 모수를 추축하는 것을 말한다. 일반적으로 모집단의 전체를 대상으로 조사하는 것은 쉽지 않다. 그렇게 떄문에 우리는 표본을 추출하여 통계량으로 모수를 추정해야 한다. 모수란 모집의 평균이나 분산 같은 값이기 때문에 모집단이 변하지 않으면 모수는 항상 같은 값을 가진다. 통계량은 추출된 표본에 따라 그 값이 확률적으로 변한다. 따라서 모수를 추정하는 것은 확률적인 통계량에 의해 결정되는 것이다.

1) 점추정

점추정이란 모수가 특정한 값이라고 추정하는 것이다. 점추정에 해당하는 통계량으로 평균, 중위수, 최빈 값 등이 있다. 점추정의 목적은 통계량이 모수와 같을 것이라고 주장하기 위해 불편 추정량을 사용한다. 불편 추정량은 추정하는 값과 실제 모수의 값 차이의 기대값이 0일때 가장 이상적인 값이 된다.(불편성) 또한 분산이 적을수록(효율성) 표본의 크기가 커질수록(일치성) 마지막으로 추정량은 모수에 대해 모든 정보를 제공(충족성)해야 이상적인 추정량이라 할 수 있다.

2) 구간추정

모수가 특정한 구간 안에 존재할 것이라고 예상하는 것이다. 구간추정은 모수가 특정 구간안에 포함될 확률인 신뢰도(신뢰수준)가 필요하다.

3-2. 가설검정

통계적 가설 검정은 모집단의 특성에 대한 주장 또는 가설을 세우고 표본에서 얻은 정보를 이용해 가설이 옳은지를 판정하는 과정이다.

1) 귀무가설

모집단이 어떠한 특징일 것이라고 주장되는 가설로 일반적으로 "차이가 없다", "같다(=)" 기호를 사용하여 나타낼 수 있는 가설을 말하며, 실험이나 연구를 통해 어떤 가설을 귀무가설이라고 하면 귀무가설이 기각되야만 새로운 가설을 채택할 수 있다. 귀무가설은 영어로 Null hypothesis로 가설이 없다. 즉 이전에 주장되던 바가 바뀌지 않았다는 뜻이다.

2) 대립가설

귀무가설에 반대되는 가설로 귀무가설이 틀렸다고 판단될 경우 채택되는 가설을 말하며, 실험이나 연구를 통해 어떤 가설을 주장하기 위한 새로운 가설을 말한다. 대립가설은 Alterantive hypothesis로 대안가설 즉 귀무가설이 기각되어야 사용될 가설을 말한다.

3) 통계적 오류

 - 제1종 오류 : 귀무가설이 사실인데 귀무가설이 틀렸다고 결정하는 오류

 - 제2종 오류 : 귀무가설이 사실이 아님에도 불구하고 귀무가설이 옳다고 결정하는 오류

  H₁채택(H₂기각) H₁기각(H ₂ 채택)
H₁가 사실 올바른 결정 제 1종 오류
H₁가 거짓 제 2종 오류(좀 더 크리티컬 하다) 올바른 결정

4) 검정통계량

관찰된 표본으로부터 구하는 통계량, 검정시 가설의 진위판단(귀무가설의 옳고 그름)을 판단 하는 기준

5) 기각역

귀무가설을 기각하게 될 검정통계량의 영역으로, 검정통계량이 기각역 내에 있으면 귀무가설을 기각한다. 기각역의 경계값을 임계값이라 한다.

6) 유의수준

귀무가설을 기각하게 되는 확률의 크기로 귀무가설이 참인데도 이를 잘못 기각(제 1종 오류)하는 오류를 범할 확률의 최대 허용 한계로 일반적으로 1%와 5%를 주로 사용한다.

7) 유의확률(P-Value)

유의확률이란 쉽게 생각하면 귀무가설이 맞을 확률이다. 정확한 의미로 확률 분포에서 우리가 계산한 통계량이 기각역에 포함되지 않음을 이야기한다. 유의확률은 나타난 통계량이 귀무가설의 확률분포에서 어느 위치일지에 대한 확률 값을 말한다. 따라서 유의확률이 유의수준보다 낮을 경우 귀무가설은 기각되고 대립가설을 채택한다.

2-3. 비모수 검정

모수검정은 표본의 정규성을 갖는다는 모수적 특성을 이용하는 통계 방법이고 비모수검정은 모수의 분포에 대한 아무 가정을 하지 않는 검정을 말한다.

모수검정 (Parametric test) 비모수검정 (Nonparametric test)
등간척도, 비율척도 명목척도, 서열척도
평균 중앙값
피어슨 상관계수 스피어만 순위상관계수
일표본 t-검정, 이표본 t-검정, 대응표본 t-검정, 분산분석 부호검정, Wilcoxon, 부호순위검정, Mann-Whitney 검정, Kruskal Wallis 검정

3. 통계용어

1) 기댓값

각 사건이 벌어졌을 때의 이득과 사건이 벌어질 확률을 곱한 것을 전체 사건에 대해 합한 값을 말한다. 즉 어떤 확률적 사건에 대한 평균을 의미한다.

2) 분산

관측 값에서 평균을 뺀 값을 제곱하고 모두 더한 후 전체 개수로 나눈 값을 말하며 즉 관측 값이 평균에서 얼마나 퍼져있는지를 알기 위해 사용되는 값이다.

3) 표준편차

자료의 산포도를 나타내는 수치로, 분산의 양의 제곱근으로 정의된다. 제곱해서 값이 부풀려진 분산을 제곱근해서 다신 원래 크기로 만들어 준다. 분산은 기본 자료의 제곱을 한 값이기 떄문에 표준편차를 사용하여 기존 자료와의 데이터 단위를 맞추기 위해 사용된다.

4) 첨도

확률 분포의 뾰족한 정도를 나타내는 척도로서 값이 3에 가까울수록 정규분포 모양을 갖는다.

5) 왜도

확률분포의 비대칭 정도를 나타내는 척도로 왜도 값이 0인 경우에는 정규분포와 유사한 모습으로 평균, 중앙값, 최빈값이 모두 같다.

6) 공분산 

두 확률 변수 X,Y의 상관정도를 나타내는 값으로 하나의 확률변수가 증가할 때 다른 확률변수가 증가하는지 혹은 감소하는지를 알 수 있다. 공분산이 양수이면 X가 증가할 때 Y도 증가하고 공분산이 음수이면 X가 증가할 때 Y는 감소한다. 공분산의 값으로는 두 확률 변수가 상관성이 어느정도인지 확인이 어렵기 때문에 상관계수를 활용하여 상관성의 정도를 파악할 수 있으며 변수의 크기에 따라 달라진다.

7) 상관계수

공분산의 문제를 해결한 값으로 -1과 1사이의 값을 가지며 공분산을 X의 표준 편차와 Y의 표준편차 모두로 나눈 값이다.

4. 가설 검정 기법

4-1. t-검정

검정통계량이 귀무가설하에 t-분포를 따르는 통계적 가설 검정 방법이다. t-검정은 정규분포에서 평균을 측정할 때 주로 사용된다. t-검정의 귀무가설은 "두 집단간의 평균은 차이가 없다"이며 대립 가설은 "두 집단간의 평균은 차이가 있다"이다.

1) 일 표본 t-검정(one sample t-test)

하나의 모집단의 평균(n)값을 특정 값과 비교하는 경우 사용하는 통계적 분석 방법이다.

 - 일 표본 단측 검정

모수에 대한 검정을 할 때 모수 값이 "~보다 크다" 혹은 "~보다 작다"와 같이 한쪽으로의 방향성을 갖는 경우 수행되는 검정 방법이다.

 - 일 표본 양측 검정

단측 검정과는 다르게 모수 값이 "~이 맞다" 혹은 "~가 아니다"와 같이 방향성이 없는 경우 수행되는 검정 방법이다.

2) 이(독립) 표본 t-검정(independent sample t-test)

서로 독립적인 두개의 집단에 대해 모수(모평균)의 값이 같은 값을 갖는지 통계적으로 검정하는 방법이다.

 - 이 표본 단측 t-검정

두 집단에 대해 모수를 비교할 때 "~이 ~보다 크다" 혹은 "~이 ~보다 작다"와 같이 두 집단 사이에 대소가 있는 경우 수행되는 검정 방법이다.

 - 이 표본 양측 t-검정

두 집단에 대해 모수 비교를 할 때 "두 집단이 같다" 혹은 "두 집단이 다르다"와 같이 두 집단 사이에 대소가 없는 경우 수행되는 검정 방법이다.

3) 대응 표본 t-검정(paired t-test)

동일 대상에 대해 두 가지 관측치가 있는 경우 이를 비교하여 차이가 있는지 검정할 때 사용된다. 주로 실험 전 후의 효과를 비교하기 위해 사용한다.

예를 들면 두 집단에 신약 투약 이후의 전 후 수치 비교나 새로운 정책이 시행된 후의 부동산 가격의 전 후 병화와 같은 데이터를 분석할 때 사용되는 방법이다.

4-2. 분산 분석(ANOVA : ANalysis Of VAriance)

세개 이상의 모집단이 있을 경우에 여러 집단 사이의 평균을 비교하는 검정 방법이다. 분산 분석의 귀무가설은 "집단간의 평균 차이가 없다"이다. 따라서 귀무가설을 기각할 경우 집단간의 평균이 어떻게 차이가 나는지는 알 수 없다. 그래서 분산 분석에서는 사후 검정을 통해 집단간의 차이를 확인할 수 있다.

사후 검정의 방법은 Scheffe, Turkey, Duncan, Fisher'sLSD, Dunnett, Bonferroni 등이 있다. 분산 분석의 독립변수는 범주형 데이터이고 종속 변수는 연속형이여야 한다. 분산 분석에는 F-분포(분산의 비교를 통해 얻어진 분포(집단간 분산) / (집단내 분산))를 활용한다.

1) 일원분산분석(one-way ANOVA)

셋 이상의 집단 간 평균을 비교하는 상황에서 하나의 집단에 속하는 독립변수와 종속변수 모두 한 개일 때 사용한다. 

예를 들어 연령대별(유아, 청소년, 성인, 중장년) 유튜브 시청시간 차이를 알아볼 때 연령대가 독립변수이고 시청시간이 종속 변수이다.

2) 이원분산분석(two-way ANOVA)

일원분산분석 수행시 독립변수의 수가 두개 이상일 때 사용한다. 이원 분산 분석은 독립변수간 상호작용이 있다고 판단될 때는 "반복이 있는 실험"을하고, 교호작용이 없다고 판단될 때, 즉 두 독립 변수가 독립인 경우에는 "반복 없는 실험"을 한다.

예를 들면 연령대별, 성별 유튜브 시청시간의 차이를 알아볼 때와 같은 경우이다.

4-3. 교차분석

범주형 자료(명목, 서열)간의 관계를 알아보고자 할 때 사용되는 부석 방법이다. 교차 분석은 카이제곱(X²) 검정 통계량을 이용한다. 적합도 검정, 독립성 검정, 동질성 검정에 사용된다.

1) 적합도 검정

실험 결과 얻어진 관측값(관측도수)이 예상값(기대도수)과 일치하는지 여부를 검정하는 방법이다. 모집단 분포에 대한 가정이 옳게 됐는지 관측값과 비교하여 검정하는 것을 말하며 실험결과 관측값이 예측값과 일치하면 실제 분포와 예측 분포간 차이가 없다고 볼 수 있다. 적합도 검정에서 귀무가설은 “두분포가 일치한다”이다.

2) 독립성 검정

독립성 검정은 모집단이 두 개의 변수에 의해 범주화됐을 때 그 두 변수들 사이의 관계가 독립적인지 아닌지 검정하는 것을 의미한다. 독립성 검정 결과는 두 범주형 변수 간에 관계가 있는지 없는지만 나타낼 뿐이며, 두 변수 간 관계의 강도를 말해주지 않는다.

3) 동질성 검정

동질성 검정은 관측값들이 정해진 범주 내에서 서로 비슷하게 나타나고 있는지를 검정하는 것이다. 두집단의 분포가 동일한 모집단에서 추출된 것인지를 검정한다. 즉, 부모집단별로 요인에 대한 차이가 있는지 검정하는 것이 동질성 검정이다.

4-4. 상관분석

상관분석은 두 변수 간의 상관성을 알아보기 위한 분석방법으로 상관계수를 활용하여 상관관계를 정의 할 수 있다. 상관계수는 -1과 1사이의 값을 갖는데, 1에 가까울수록 강한 양의 상관관계이며, -1에 가까울 수록 음의 상관관계이다. 상관계수가 0에 가깝다면 상관관계가 존재하지 않음을 의미한다. 상관분석에서의 귀무가설은 “두 변수는 아무 상관관계가 없다”이다.

1) 피어슨 상관분석(선형적 상관관계)

피어슨 상관계수는 모수적 방법의 하나로 두 변수가 모두 정규분포를 따른다는 가정이 필요하다.

2) 스피어만 상관분석(비선형적 상관관계)

측정된 두 변수들이 서열척도일 때 사용하는 상관계수이다. 스피어만 상관계수는 비모수적 방법으로 관측값의 순위에 대하여 상관계수를 계산하는 방법이다. 스피어만 상관 계수는 서열척도인 변수간의 피어슨 상관 계수로 정의할 수 있다.

구분 선형적 상관관계 비선형적 상관관계
개념 등간척도 이상으로 측정된 두 변수들의 상관 관계 측정 서열 척도인 두 변수들의 상관관계 측정방식
특징 연속형 변수, 정규성을 가정
대부분 많이 사용
순서형 변수, 비모수적 방법
순위를 기준으로 상관관계 측정
상관계수 피어슨 상관계수 스피어만 상관계수

 

728x90

댓글