1. 분석 결과 해석
1-1. 분석 모델별 결과 해석
1) 분석 모형 해석
분석 후 적합한 모형을 도출하는데 지표가 사용되며 각 모델마다 평가되는 해석 지표들이 다르다.
①회귀 모델
- 회귀 모델의 평가를 위한 지표는 일반적으로 잔차, 결정계수 등이 있다.
- 잔차는 회귀모형으로 실제 값과 예측 값의 차이를 의미하는 것이며, 잔차에는 패턴이나 추세가 있어서는 안 된다.
- 결정 계수는 추정된 회귀식이 변동을 얼마나 잘 성명했는가에 대한 지표로, 값이 1에 가까울수록 실제 관측값이 회귀선상에 정확히 일치함을 의미한다.
ⓐ [잔차] MAE(Mean Absolute Error)
예측값과 실제값 차이를 절대값으로 변환, 더한 뒤의 평균
ⓑ [잔차] MSE(Mean Squared Error)
예측값과 실제 값 차이를 제곱, 더한 뒤의 평균
ⓒ [잔차]MAPE(Mean Absolute Percentage Error)
MAE를 퍼센트로 변화한값
ⓓ [잔차]RMSE(Root Mean Squared Error)
MSE에 루트를 씌운 값
ⓔ [결정계수]R²(R squared, Coefficient of Determination)
총 제곱합(SST)에 대한 회귀제곱합(SSR)
ⓕ [결정계수]수정된 R²(adjusted R squared)
표본크기(n)와 독립변수 개수(p) 추가 고려(학습 데이터 또는 독립변수가 많아질수록 모형 예측 능력과 상관 없이 결정 계수가 커지는 경향 방지)
2. 분석결과 시각화
2-1. 데이터 시각화
1) 데이터 시각화 특성
- 자료로부터 정보를 습득하는 시간을 절감ㅎ사고 데이터에 대한 즉각적인 판단이 가능하다.
- 데이터 시각화는 데이터의 특징과 패턴, 추세를 직관적으로 제공하여 데이터의 의미에 대한 이해를 효과적으로 돕는다.
- 하나의 시각화 자료를 통해 시간, 공간, 분포 등 다양한 측면에서의 표현이 가능하다.
- 그래픽 도구를 이용함으로써 데이터의 의미, 관계, 차이, 분포등을 선명하게 표현한다.
2) 데이터 시각화 방법
시각화 방법 | 주요 도구 |
시간 시각화 | 막대그래프, 누적막대그래프, 점/선그래프 |
분포 시각화 | 히스토그램, 파이차트, 도넛차트, 트리맵, 누적연속그래프 |
관계 시각화 | 산점도, 버블차트, 히트맵 |
비교 시각화 | 히트맵, 체르노프페이스, 스타차트, 평행좌표계, 다차원척도법 |
공간 시각화 | 지도 매핑 |
2-2. 데이터 시각화 영역
1) 정보 시각화(Information Visualization)
- 정보시각화는 방대한 양의 정보를 한 번에 사용자가 보고 이해할 수 있도록 직관적으로 표현하는 방법에 중심을 두고 있다.
- 데이터 시각화는 그래픽을 이용해 정보를 명확하게 표현하는 것을 강조하며, 정보시각화는 큰 범위의 집합에 대한 시각적 표현 방법을 강조한다.
- 수치정보 뿐만 아니라 텍스트나 지형정보 같은 비수치 정보까지 포함한다.
- 데이터 시각화에서 한단계 더 정보 형태의 가공 과정을 거친다.
- 카토그램(Cartogram, 지도도표), 분기도(Cladogram), 개념도(Concept Map), 계통도(Dendrogram, 덴드로그램), 네트워크 다이어그램(Network diagram), 트리맵(Tree map), 하이퍼볼릭 트리(Hyperbolic tree) 등 다양한 도구를 사용한다.
2) 인포그래픽(Infographic)
- 복잡한 수치나 글로 표현되어 있는 정보와 지식을 차트, 지도, 픽토그램, 다이어그램, 일러스트레이션 등을 활용하여 한눈에 파악할 수 있도록 시각적으로 표현하는 것이다.
- 설득형 메시지를 전달하기 위해서 주로 사용되며, 정보를 빠르고 분명하게 표현하는 것에 중심을 둔다.
- 인포그래픽은 스토리를 통해 정보를 전달하려는 경향이 강하다.
- 데이터 시각화가 전문 영역에서 활용된는 반면 인포그래픽은 일반일을 대상응로 특정 정보와 메시지를 전달하기에 적합하다.
기본 요소 | 비주얼(Visual), 내용(Content), 지식(Knowledge) |
유형 | 통계 기반, 타임라인 기반, 프로세스 기반, 위치 및 지리기반 등 |
장점 | - 시각적인 즐거움 - 이해 쉬운 전달 - 오랜 기억 전달 유지 - 자발적 확산 |
2-3. 시간 시각화
1) 시간 시각화의 특징과 도구
유형 | 주요 특징 및 도구 |
이산형(분절형) | 특정 시점 또는 특정 시간의 구간 값을 표현한다. - 도구 : 막대그래프, 누적막대그래프, 묶은막대그래프, 점그래프 |
연속형 | 어떤 구간에서 지속적으로 변화하는 값을 표현한다. - 도구 : 꺽은선그래프, 계단그래프, 추세선 |
2) 막대그래프
- 데이터 값을 길이로 표현한 막대를 배치함으로써 상대적인 차이를 한눈에 알아보도록 표현하는 방법이다.
- 시간축(가로축, X축)은 주로 시간 순서대로 정렬된 특정 시점을 나타내며, 값축(세로축, y축)은 그래프의 크기(범위)를 나타낸다.
- 데이터 값은 막대의 길이에만 영향을 미치며, 막대의 폭이나 간격에는 무관하다.
3) 묶은막대그래프
- 두 개 이상의 변수를 동시에 다루는 경우에 사용하며 첫번째 변수(X축)의 각 위치에 나머지 변수의 값을 각각의 막대로 표현한다.
- 그래프를 구성하는 세부항목의 값의 변화를 표현할 수 있지만, 변수의 누적합계나 추이를 파악하기는 어렵다.
- y값의 단위가 같아야한다.
2-4. 비교 시각화
1) 비교 시각화 정의
- 하나의 변수가 아닌 둘 이상의 변수를 비교하는 경우 대상의 수와 비교하려는 변수의 수만큼 다양한 경우가 존재하기 때문에 하나 또는 그 이상의 그래프를 통하여 전체를 비교 분석 할 수 있어야 한다.
2) 체르노프 페이스(Chernoff Faces)
실생활에서 사람의 얼굴을 쉽게 구분한다는 점에 착안하여, 데이터 표현에 따라 달라지는 차이를 얼굴의 모양으로 나타내는 방법으로 사람의 얼굴 모양에서 귀, 머리카락, 눈, 코 등을 각각의 변수에 대응하여 달리해서 표현하는 방법이다.
체르노프 페이스에서 얼굴을 표현할 때 사용되는 요소는 다음과 같다.
① 얼굴형 : 얼굴길이, 얼굴너비, 얼굴윤곽
② 입 : 입의 높이, 입의 넓이, 입 모양
③ 눈 : 눈의 높이, 눈의 넓이
④ 머리카락 : 머리카락 높이, 머리카락 넓이, 머리카락 모양
⑤ 코 : 코의 높이, 코의 넓이
⑥ 귀 : 귀의 높이
3) 스타차트(Star Chart)
하나의 공간에 각각의 변수를 표현하는 몇 개의 축을 그리고, 축에 표시된 해당 변수의 값들을 연결하여 별 모양(또는 거미줄 모양)으로 표현하는 그래프이다.
- 하나의 변수마다 축이 시작되는 시작점(중점)은 최소값을, 가장 먼 끝점은 최대 값을 나타낸다.
- 값이 적은 축에 해당하는 부분이 다른 부분에 비해 들어가 보이기 떄문에 여러 변수 값들을 비교하여 부족하거나 넘치는 변수를 표현하는데 적합하다.
- 연결된 선의 모양이나 색을 다르게 하는 경우 여러 속성을 한 번에 표현할 수 있다.
'빅데이터분석기사 > 필기' 카테고리의 다른 글
(2과목) 빅데이터 탐색③ (0) | 2024.03.30 |
---|---|
(4과목) 빅데이터 결과 해석 ② (0) | 2024.03.28 |
(4과목) 빅데이터 결과 해석 ① (0) | 2024.03.26 |
(2과목) 빅데이터 탐색 ② (1) | 2024.03.21 |
(2과목) 빅데이터 탐색 ① (0) | 2024.03.19 |
댓글