민간 자격증/빅데이터전문가

1. 빅데이터의 개념

Zoo_10th 2024. 7. 1.

1. 빅데이터란 무엇인가?

1-1. 빅데이터 (Big Data)

 - 기존의 데이터 처리 응용 소프트웨어가 처리하기에 매우 거대(large)하거나 복잡 한 (complex) 데이터 집합

  * 데이터를 취급하기 위한 전혀 다른 새로운 방법론의 필요성 대두

 - 정보 통신 기술의 주도권 ⇨ “데이터(data)”로 이동

 - 제타(Zeta) 시대에 돌입

  * 현존하는 데이터의 양이 1ZB를 초과

 - 모바일 시대 ⇨ 스마트 시대에 중요성 증대

 - 미래의 경쟁력과 가치 창출의 원천

1-2. 빅데이터의 역사

PC 시대  - 데이터베이스 개념 정립, PC통신 시작
 - 데이터의 규모가 작고 교류가 적음
인터넷 시대  - 초고속 인터넷의 도입, 포털 서비스
 - 데이터의 규모 및 절대적 교류량 증가
모바일 시대  - 모바일 인터넷 혁명, 소셜 네트워크
 - 빅데이터 개념 정립 및 문제점 대두
스마트 시대  - 인공지능(AI), 기계학습(ML), 딥러닝
 - 사물인터넷(IoT) 등 지능을 가지는 시대

1-3. 빅데이터의 3가지 특성 (3V)

규모
Volume
 - 디지털 정보량이 기하급수적으로 급증⇧
 - 정보량 증가에 대한 데이터 처리 수요 증가
다양성
Variety
 - 로그, SNS, 소비 등 데이터 종류 증가⇧
 - 다양한 데이터에 대한 수용 및 처리 방법론 필요
속도
Velocity
 - IoT, 스트리밍 등 실시간 정보와 속도⇧
 - 데이터를 빠르게 처리하고 분석하는 플랫폼 필요

1-4. 빅데이터의 새로운 특성

정확성
Veracity
 - 거대 데이터는 신뢰성이 부족할 수 있음
 - 수집한 데이터의 다양한 품질에 대처하는 방법론
가치
Value
 - 트렌드, 감정, 진실성, 진정성, 개인의 취향 등
 - 변화하는 대규모 데이터 시대에 가치의 필요성 증대
가변성
Variability
 - 맥락(context)에 따라 의미(meaning)가 변화
 - 데이터의 본래 의미를 찾기 위한 방법론 필요
시각화
Visualization
 - 데이터의 분석으로부터 얻어낸 결론에 대한 표현
 - 사용자의 이해도를 고려한 효과적인 방법론 필요

1-5. 빅데이터의 종류

정형 데이터
Structured Data
 - 고정형 필드(field)에 저장된 데이터
 - 예) 관계형 데이터베이스(RDBMS), 스프레드시트 등
반정형 데이터
Semi-Structured Data
 - 메타데이터, 스키마를 이용하여표현되는 데이터
 - 예) XML, HTML 등
비정형 데이터
Unstructured Data
 - 정형/반정형이 아닌 모든 데이터
 - 예) 텍스트 문서, 멀티미디어 콘텐츠
 - 가장 큰 증가⇧를 보이는 데이터 유형

2. 빅데이터 방법론

2-1. 빅데이터의 처리 과정과 기술

빅데이터는 생성, 수집, 저장, 처리, 분석, 표현 과정을 거쳐 필요한 정보를 추출해낼 수 있다. 빅데이터 전문가라면 빅데이터의 처리 과정을 기억해두는 것이 매우 중요하다.

생성 → 수집 → 저장 → 처리 → 분석 → 표현

1) 생성

내부 데이터  - 로컬 환경에 저장되어 교류가 없는 데이터
 - 데이터베이스, 파일 관리 시스템 등
외부 데이터  - 네트워크에서 교류를 통해 발생하는 데이터
 - 텍스트, 멀티미디어 콘텐츠, 스트림 등

2) 수집

로그
(Log)
시스템 내부 활동 로그 수집
 - 크롤링 (Crawling) : 인터넷 로봇을 사용한 데이터 수집
센싱
(Sensing)
각종 센서를 이용한 수집
ETL
(Extraction, Transformation, Loading)
 - 소스 데이터의 추출, 변환, 적재
 - 데이터 웨어하우스(data warehouse)

3) 저장

서버
(Server)
데이터에 효과적으로 접근하기 위한 장치
스토리지
(Storage)
데이터를 저장하는 매체
NoSQL 데이터베이스 비정형 데이터 관리에 특화된 데이터베이스

4) 처리

맵리듀스
(MapReduce)
분산 병렬 컴퓨팅에서 대용량 데이터를 처리하기 위한 소프트웨어 프레임워크
R, Hadoop, MATLAB 등 데이터 분석을 효과적으로 수행하기 위한 다양한 처리 도구

5) 분석

통계 분석
(Statistical Analysis)
고전 통계, 확률 모델링 등으로 분석 수행
기계학습
(Machine Learning)
인공지능(AI)의 한 갈래이며 반자동 또는 자동으로 데이터의 패턴 발견
NLP
(Natural Language Processing)
인간의 언어 현상을 분석하는 인공지능

6) 표현

시각화
(Visualization)
 - 다양한 도표와 그래픽으로 이해를 도움
 - 고전적인 표현 방식에 얽매이지 않고 형태, 색상, 매체, 구도 등을 변화하여 다양 한 표현 적용

3. 빅데이터의 전망

3-1. 빅데이터의 변화 추이

데이터의 다양성은 과거에 비해 현재 매우 증가한 상황이 고, 미래가 될수록 더 다양한 가치 추구 등으로 말미암아 대폭 증가할 것으로 예상된다. 스 마트 기기는 현재 90% 이상이 보급되어 있는 상황이나, 해가 갈수록 보급률은 100%를 초 과하게 될 것이며, 이에 따라 차별화된 빅데이터 기반의 정보 제공 및 서비스 전략이 필요 할 것이다. 마지막으로 빅데이터의 분석 결과에 대한 반환 요구 시간은 점차로 감소하게 될 것이다.

3-2. 빅데이터의 활용 분야

공공 서비스  - 방대한 데이터를 국가적으로 활용 가능
 - 각종 자원 관리, 스마트 그리드, 재난 방재 등
과학 연구  - 데이터로부터 새로운 의미 발견 가능
 - 데이터를 표현하는 새로운 방법론 적용
의료 서비스  - 의료 데이터의 효율적, 효과적 수집 및 공유
 - 진단, 처방, 시술, 수술 등에 의료 혁명 예상
물류/유통  - 데이터를 통해 소비자의 니즈(needs)를 파악
 - 보다 효과적인 물류 유통이 가능
제조 산업  - 제품의 수율을 극대화하기 위하여 데이터를 활용
 - 불량률을 최소화할 수 있고 제조의 효율화 가능
정보 통신  - 모바일 기기(스마트폰)의 보급 확대로 개인 데이터⇧
 - 개인화된 서비스 및 목표 마케팅 가능

3-3. 빅데이터의 활용 사례

정치  - 유권자 DB에서 유권자를 분류하고 성향 파악
 - 소셜 미디어를 통하여 유권자 정보 수집
 - 유권자 별 맞춤형 선거 전략으로 효과적인 선거
 - 예) 2008년 미국 대통령 선거, 대한민국 제19대 총선
경제  - 고객의 구매나 활동 기록을 분석하여 취향 분석
 - 개인화 된 추천 시스템(recommender system)
문화  - 정형 및 비정형 데이터를 수집 및 분석
 - 효율적인 팀의 운영을 가능케 함
과학  - 통계학의 비약적인 발전
 - 유전자의 분석 및 발현과 조절에 획기적인 변화

3-4. 빅데이터의 미래 전망

데이터 혁명 정치, 경제, 사회, 문화, IT 등 데이터가 발생하는 전(全) 분야에 도입 ⇨ 사회 전반의 데이터 혁명
새로운 가치와 분야 창출 기존 데이터 뿐만 아니라 미래의 데이터로부터 새로운 의미를 찾아내고 가치와 분야 창출 기대
728x90

'민간 자격증 > 빅데이터전문가' 카테고리의 다른 글

3. 빅데이터 저장소  (0) 2024.07.04
2. 빅데이터의 수집  (0) 2024.07.02

댓글