빅데이터분석기사/필기

(4과목) 빅데이터 결과 해석 ③

Zoo_10th 2024. 3. 28.

1. 분석 결과 해석

1-1. 분석 모델별 결과 해석

1) 분석 모형 해석

분석 후 적합한 모형을 도출하는데 지표가 사용되며 각 모델마다 평가되는 해석 지표들이 다르다.

①회귀 모델

 - 회귀 모델의 평가를 위한 지표는 일반적으로 잔차, 결정계수 등이 있다.

 - 잔차는 회귀모형으로 실제 값과 예측 값의 차이를 의미하는 것이며, 잔차에는 패턴이나 추세가 있어서는 안 된다.

 - 결정 계수는 추정된 회귀식이 변동을 얼마나 잘 성명했는가에 대한 지표로, 값이 1에 가까울수록 실제 관측값이 회귀선상에 정확히 일치함을 의미한다.

ⓐ [잔차] MAE(Mean Absolute Error)

예측값과 실제값 차이를 절대값으로 변환, 더한 뒤의 평균

ⓑ [잔차] MSE(Mean Squared Error)

예측값과 실제 값 차이를 제곱, 더한 뒤의 평균

ⓒ [잔차]MAPE(Mean Absolute Percentage Error)

MAE를 퍼센트로 변화한값

ⓓ [잔차]RMSE(Root Mean Squared Error)

MSE에 루트를 씌운 값

ⓔ [결정계수]R²(R squared, Coefficient of Determination)

총 제곱합(SST)에 대한 회귀제곱합(SSR)

ⓕ [결정계수]수정된 R²(adjusted R squared)  

표본크기(n)와 독립변수 개수(p) 추가 고려(학습 데이터 또는 독립변수가 많아질수록 모형 예측 능력과 상관 없이 결정 계수가 커지는 경향 방지)

2. 분석결과 시각화

2-1. 데이터 시각화

1) 데이터 시각화 특성

 - 자료로부터 정보를 습득하는 시간을 절감ㅎ사고 데이터에 대한 즉각적인 판단이 가능하다.

 - 데이터 시각화는 데이터의 특징과 패턴, 추세를 직관적으로 제공하여 데이터의 의미에 대한 이해를 효과적으로 돕는다.

 - 하나의 시각화 자료를 통해 시간, 공간, 분포 등 다양한 측면에서의 표현이 가능하다.

 - 그래픽 도구를 이용함으로써 데이터의 의미, 관계, 차이, 분포등을 선명하게 표현한다.

2) 데이터 시각화 방법

시각화 방법 주요 도구
시간 시각화 막대그래프, 누적막대그래프, 점/선그래프
분포 시각화 히스토그램, 파이차트, 도넛차트, 트리맵, 누적연속그래프
관계 시각화 산점도, 버블차트, 히트맵
비교 시각화 히트맵, 체르노프페이스, 스타차트, 평행좌표계, 다차원척도법
공간 시각화 지도 매핑

2-2. 데이터 시각화 영역

1) 정보 시각화(Information Visualization)

 - 정보시각화는 방대한 양의 정보를 한 번에 사용자가 보고 이해할 수 있도록 직관적으로 표현하는 방법에 중심을 두고 있다.

 - 데이터 시각화는 그래픽을 이용해 정보를 명확하게 표현하는 것을 강조하며, 정보시각화는 큰 범위의 집합에 대한 시각적 표현 방법을 강조한다.

 - 수치정보 뿐만 아니라 텍스트나 지형정보 같은 비수치 정보까지 포함한다.

 - 데이터 시각화에서 한단계 더 정보 형태의 가공 과정을 거친다.

 - 카토그램(Cartogram, 지도도표), 분기도(Cladogram), 개념도(Concept Map), 계통도(Dendrogram, 덴드로그램), 네트워크 다이어그램(Network diagram), 트리맵(Tree map), 하이퍼볼릭 트리(Hyperbolic tree) 등 다양한 도구를 사용한다.

코스피 수익률 시세 정보 트리맵

2) 인포그래픽(Infographic)

 - 복잡한 수치나 글로 표현되어 있는 정보와 지식을 차트, 지도, 픽토그램, 다이어그램, 일러스트레이션 등을 활용하여 한눈에 파악할 수 있도록 시각적으로 표현하는 것이다.

 - 설득형 메시지를 전달하기 위해서 주로 사용되며, 정보를 빠르고 분명하게 표현하는 것에 중심을 둔다.

 - 인포그래픽은 스토리를 통해 정보를 전달하려는 경향이 강하다.

 - 데이터 시각화가 전문 영역에서 활용된는 반면 인포그래픽은 일반일을 대상응로 특정 정보와 메시지를 전달하기에 적합하다.

기본 요소 비주얼(Visual), 내용(Content), 지식(Knowledge)
유형 통계 기반, 타임라인 기반, 프로세스 기반, 위치 및 지리기반 등
장점  - 시각적인 즐거움
 - 이해 쉬운 전달
 - 오랜 기억 전달 유지
 - 자발적 확산

기업 재무현황 인포그래픽

2-3. 시간 시각화

1) 시간 시각화의 특징과 도구

유형 주요 특징 및 도구
이산형(분절형) 특정 시점 또는 특정 시간의 구간 값을 표현한다.
 - 도구 : 막대그래프, 누적막대그래프, 묶은막대그래프, 점그래프
연속형 어떤 구간에서 지속적으로 변화하는 값을 표현한다.
 - 도구 : 꺽은선그래프, 계단그래프, 추세선

월별 강수량 그래프

2) 막대그래프

 - 데이터 값을 길이로 표현한 막대를 배치함으로써 상대적인 차이를 한눈에 알아보도록 표현하는 방법이다.

 - 시간축(가로축, X축)은 주로 시간 순서대로 정렬된 특정 시점을 나타내며, 값축(세로축, y축)은 그래프의 크기(범위)를 나타낸다.

 - 데이터 값은 막대의 길이에만 영향을 미치며, 막대의 폭이나 간격에는 무관하다.

3) 묶은막대그래프

 - 두 개 이상의 변수를 동시에 다루는 경우에 사용하며 첫번째 변수(X축)의 각 위치에 나머지 변수의 값을 각각의 막대로 표현한다.

 - 그래프를 구성하는 세부항목의 값의 변화를 표현할 수 있지만, 변수의 누적합계나 추이를 파악하기는 어렵다.

 - y값의 단위가 같아야한다.

2-4. 비교 시각화

1) 비교 시각화 정의

 - 하나의 변수가 아닌 둘 이상의 변수를 비교하는 경우 대상의 수와 비교하려는 변수의 수만큼 다양한 경우가 존재하기 때문에 하나 또는 그 이상의 그래프를 통하여 전체를 비교 분석 할 수 있어야 한다.

2) 체르노프 페이스(Chernoff Faces)

실생활에서 사람의 얼굴을 쉽게 구분한다는 점에 착안하여, 데이터 표현에 따라 달라지는 차이를 얼굴의 모양으로 나타내는 방법으로 사람의 얼굴 모양에서 귀, 머리카락, 눈, 코 등을 각각의 변수에 대응하여 달리해서 표현하는 방법이다.

체르노프 페이스에서 얼굴을 표현할 때 사용되는 요소는 다음과 같다.

① 얼굴형 : 얼굴길이, 얼굴너비, 얼굴윤곽

② 입 : 입의 높이, 입의 넓이, 입 모양

③ 눈 : 눈의 높이, 눈의 넓이

④ 머리카락 : 머리카락 높이, 머리카락 넓이, 머리카락 모양

⑤ 코 : 코의 높이, 코의 넓이

⑥ 귀 : 귀의 높이

체르노프 페이스

3) 스타차트(Star Chart)

하나의 공간에 각각의 변수를 표현하는 몇 개의 축을 그리고, 축에 표시된 해당 변수의 값들을 연결하여 별 모양(또는 거미줄 모양)으로 표현하는 그래프이다.

 - 하나의 변수마다 축이 시작되는 시작점(중점)은 최소값을, 가장 먼 끝점은 최대 값을 나타낸다.

 - 값이 적은 축에 해당하는 부분이 다른 부분에 비해 들어가 보이기 떄문에 여러 변수 값들을 비교하여 부족하거나 넘치는 변수를 표현하는데 적합하다.

 - 연결된 선의 모양이나 색을 다르게 하는 경우 여러 속성을 한 번에 표현할 수 있다.

728x90

댓글