빅데이터분석기사9 (2과목) 빅데이터 탐색③ 1. 기술 통계 1-1. 표본추출 1) 전수조사와 표본조사 전수조사란 분석 대상이 되는 대상 집단 전체를 조사하는 방법을 말하며, 표본조사란 분석 대상이 되는 대상 집단 중 일부만 조사하는 방법을 말한다. 용어 설명 모집단 (Population) 조사하고자 하는 대상 집단 전체 원소 (Element) 모집단을 구성하는 개체 표본 (Sample) 조사하기 위해 추출한 모집단의 일부 원소 모수 (Parameter) 표본 관측에 의해 구하고자 하는 모집단에 대한 정보로써 모집단의 특성을 나타내는 수치 통계량 (Statistics) 모집단에서 추출한 표본에 특성을 나타내는 수치(통계량의 목적은 모수를 추정하기 위해 사용되며, 모수는 변하지 않지만 통계량은 표본에 의해서 결정되기 때문에 확률적으로 변화될 수 있다.. 빅데이터분석기사/필기 2024. 3. 30. (4과목) 빅데이터 결과 해석 ③ 1. 분석 결과 해석 1-1. 분석 모델별 결과 해석 1) 분석 모형 해석 분석 후 적합한 모형을 도출하는데 지표가 사용되며 각 모델마다 평가되는 해석 지표들이 다르다. ①회귀 모델 - 회귀 모델의 평가를 위한 지표는 일반적으로 잔차, 결정계수 등이 있다. - 잔차는 회귀모형으로 실제 값과 예측 값의 차이를 의미하는 것이며, 잔차에는 패턴이나 추세가 있어서는 안 된다. - 결정 계수는 추정된 회귀식이 변동을 얼마나 잘 성명했는가에 대한 지표로, 값이 1에 가까울수록 실제 관측값이 회귀선상에 정확히 일치함을 의미한다. ⓐ [잔차] MAE(Mean Absolute Error) 예측값과 실제값 차이를 절대값으로 변환, 더한 뒤의 평균 ⓑ [잔차] MSE(Mean Squared Error) 예측값과 실제 값 차.. 빅데이터분석기사/필기 2024. 3. 28. (4과목) 빅데이터 결과 해석 ② 1. 분석 모형 개선 1-1. 과대적합 방지 훈련시 높은 성능을 보이지만 테스트 데이터에 대해서는 낮은 성능을 보여주는 과대적합을 방지하고, 일반화된 모델을 생성하기 위해 방향을 제시한다. 1) 모델의 낮은 복잡도 훈련 데이터를 더 많이 획득할 수 없다면 정규화, 드롭아웃 등을 활용하여 적절한 복잡도를 가진 모델을 자동으로 탐색한다. - 학습을 하면서 지속적으로 바뀌는 가중치 매개변수가 아닌 상수값인 하이퍼파라미터(학습률, 각 층의 뉴런 수 등)는 과대적합의 위험을 줄이기 위해 제약을 가하는 규제의 양을 결정하는 인수로, 큰 값을 지정할수록 복잡도가 낮은 모델을 얻게 된다. - 드롭아웃(Dropout) * 신경망 모델에서 은닉층의 뉴런을 임의로 삭제하면서 학습하는 방법이다. 훈련시에는 삭제할 뉴런을 선택.. 빅데이터분석기사/필기 2024. 3. 28. (4과목) 빅데이터 결과 해석 ① 1. 평가지표 1-1. 지도학습 - 분류모델 평가 지표 실제 답 True False 예측 결과 Positive True Positive False Positive Negative False Nagative True Negative 오차행렬(혼동행렬, Confusion Matrix) - True Positive(TP) : 실제 True인 답을 True라고 예측(정답) - False Positive(FP) : 실제 False인 답을 True라고 예측(오답) - False Negative(FN) : 실제 True인 답을 False라고 예측(오답) - True Negative(TN) : 실제 False인 답을 False라고 예측(정답) 1) 오차행렬(Confusion Matrix) 훈련을 통한 예측 성능을 측정.. 빅데이터분석기사/필기 2024. 3. 26. (2과목) 빅데이터 탐색 ② 1. 데이터 탐색의 개요 1-1. 탐색적 데이터 분석(EDA : Exploratory Data Analysis 수집한 데이터가 들어왔을 때 다양한 방법을 통해서 자료를 관찰하고 이해하는 과정을 의미하는 것으로 본격적인 데이터 분석 전에 자료를 직관적인 방법으로 통찰하는 과정이다. 1-2. 이상치의 검출 이상치가 왜 발생했는지 의미를 파악하는 것이 중요하다. 그리고 그러한 의미를 파악했으면 어떻게 대처해야할지(제거, 대체, 유지 등)를 판단한다. 1) 통계값 활용 - 적절한 요약 통계 지표(SummaryStatistic)를 사용할 수 있다. - 데이터의 중심을 알기 위해서는 평균(mean), 중앙값(median), 최빈값(mode)을 사용할 수 있다. - 데이터의 분산도를 알기 위해서는 범위(range),.. 빅데이터분석기사/필기 2024. 3. 21. (2과목) 빅데이터 탐색 ① 1. 데이터 내에 내제된 변수 1-1. 데이터 관련 정의 1) 데이터(Data) : 이론을 세우는 기초가 되는 사실 또는 자료를 지칭하여 컴퓨터와 연관되어 프로그램을 운용할 수 있는 형태로 기호화 수치화한 자료를 말한다. 2) 단위(Unit) : 관찰되는 항목 또는 대상을 지칭한다. 3) 관측값(Observation) : 각 조사단위별 기록정보 또는 특성을 말한다. 4) 변수(Variable) : 각 단위에서 측정된 특성 결과이다. 5) 원자료(Raw Data) : 표본에서 조사된 최초의 자료를 이야기한다. 1-2. 데이터의 종류 1) 단변량자료(Unvariate Data) : 자료의 특성을 대표하는 특성 변수가 하나인 자료이다. 2) 다변량자료(Multivariate Data) : 자료의 특성을 대표하.. 빅데이터분석기사/필기 2024. 3. 19. (1과목) 빅데이터 분석 기획 ③ 1. 데이터 수집 및 전환1-1. 데이터 수집데이터 처리 시스템에 들어갈 데이터를 모으는 과정으로 여러 장소에 있는 데이터를 한 곳으로 모으는 것이다.1) 데이터 수집 수행자료 - 용어집 - 서비스 흐름도 - 업무 메뉴얼 - 데이터 명세서 - 데이터 수집 계획서 - 원천 데이터 담당자 정보 - 비즈니스 및 원천 데이터 파악을 위한 비즈니스 모델 - 원천 데이터 소유 기관 정보 - 데이터 수집 기술 메뉴얼 - 인프라 구성도 - 소프트웨어 아키텍쳐 개념도 - 수집 솔루션 메뉴얼 - 하둡 오퍼레이션 메뉴얼2) 데이터 수집 기술① 데이터 유형별 데이터 수집 기술데이터 유형데이터 수집 방식/기술설명정형데이터ETL(Extract Transform Load)수집 대상 데이터를 추출 및 가공하여 데이터 웨어 하우스에 .. 빅데이터분석기사/필기 2024. 3. 18. (1과목) 빅데이터 분석 기획 ② 1. 분석 방안 수립 1-1. 데이터 분석 기획 1) 분석 기획의 특징 ① 분석 대상과 방법에 따른 분류 - 분석 주제와 방법에 대한 특성상 4가지 유형을 넘나들며 분석을 하고 도출하는 과정을 반복한다. ② 목표 시점에 따른 분류 단기적 접근 방식 (과제 중심적 접근) - 당면한 과제를 빠르게 해결하기 위한 목적이다. - 명확한 해결을 위해 Quick-Win 방식으로 분석한다. 중장기적 접근 방식 (마스터 플랜 접근) - 지속적인 분석 문화를 내재화하기 위한 목적이다. - 전사적으로 장기적 관점에서 과제를 도출하여 수행한다. 혼합 방식 (분석 기획시 적합) - 마스터 플랜을 수립하고 장시적 관점에서 접근하는것이 바람직하다. - 분석의 가치를 증명하고 이해관계자들의 동의를 얻기 위해 과제를 빠르게 해결하여.. 빅데이터분석기사/필기 2024. 3. 17. (1과목) 빅데이터 분석 기획 ① 1. 빅데이터 개요 및 활용 1-1. 데이터의 정의 1) 데이터는 추론과 추정의 근거를 이루는 사실이다. 2) 현실세계에서 관찰하거나 측정하여 수집한 사실이다. 1-2. 데이터 특징 1) 단순한 객체로도 가치가 있으며 다른 객체와의 상호관계 속에서 더 큰 가치를 갖는다. 2) 개고간적 사실이라는 존재적 특성을 갖는다. 3) 추론, 추정, 예측, 전망을 위한 근거로써 당위적 특성을 갖는다. 1-3. 데이터의 구분 1) 정량적 데이터(Quantitative Data) : 주로 숫자로 이루어진 데이터이다. 2) 정성적 데이터(Qualitative Data) : 문자와 같은 텍스트로 구성되며 함축적 의미를 가지고 있는 데이터이다. 1-4. 데이터 유형 1) 정형데이터(structured Data) : 정해진 형.. 빅데이터분석기사/필기 2024. 3. 17. 이전 1 다음 728x90