1. 빅데이터란 무엇인가?
1-1. 빅데이터 (Big Data)
- 기존의 데이터 처리 응용 소프트웨어가 처리하기에 매우 거대(large)하거나 복잡 한 (complex) 데이터 집합
* 데이터를 취급하기 위한 전혀 다른 새로운 방법론의 필요성 대두
- 정보 통신 기술의 주도권 ⇨ “데이터(data)”로 이동
- 제타(Zeta) 시대에 돌입
* 현존하는 데이터의 양이 1ZB를 초과
- 모바일 시대 ⇨ 스마트 시대에 중요성 증대
- 미래의 경쟁력과 가치 창출의 원천
1-2. 빅데이터의 역사
PC 시대 | - 데이터베이스 개념 정립, PC통신 시작 - 데이터의 규모가 작고 교류가 적음 |
인터넷 시대 | - 초고속 인터넷의 도입, 포털 서비스 - 데이터의 규모 및 절대적 교류량 증가 |
모바일 시대 | - 모바일 인터넷 혁명, 소셜 네트워크 - 빅데이터 개념 정립 및 문제점 대두 |
스마트 시대 | - 인공지능(AI), 기계학습(ML), 딥러닝 - 사물인터넷(IoT) 등 지능을 가지는 시대 |
1-3. 빅데이터의 3가지 특성 (3V)
규모 Volume |
- 디지털 정보량이 기하급수적으로 급증⇧ - 정보량 증가에 대한 데이터 처리 수요 증가 |
다양성 Variety |
- 로그, SNS, 소비 등 데이터 종류 증가⇧ - 다양한 데이터에 대한 수용 및 처리 방법론 필요 |
속도 Velocity |
- IoT, 스트리밍 등 실시간 정보와 속도⇧ - 데이터를 빠르게 처리하고 분석하는 플랫폼 필요 |
1-4. 빅데이터의 새로운 특성
정확성 Veracity |
- 거대 데이터는 신뢰성이 부족할 수 있음 - 수집한 데이터의 다양한 품질에 대처하는 방법론 |
가치 Value |
- 트렌드, 감정, 진실성, 진정성, 개인의 취향 등 - 변화하는 대규모 데이터 시대에 가치의 필요성 증대 |
가변성 Variability |
- 맥락(context)에 따라 의미(meaning)가 변화 - 데이터의 본래 의미를 찾기 위한 방법론 필요 |
시각화 Visualization |
- 데이터의 분석으로부터 얻어낸 결론에 대한 표현 - 사용자의 이해도를 고려한 효과적인 방법론 필요 |
1-5. 빅데이터의 종류
정형 데이터 Structured Data |
- 고정형 필드(field)에 저장된 데이터 - 예) 관계형 데이터베이스(RDBMS), 스프레드시트 등 |
반정형 데이터 Semi-Structured Data |
- 메타데이터, 스키마를 이용하여표현되는 데이터 - 예) XML, HTML 등 |
비정형 데이터 Unstructured Data |
- 정형/반정형이 아닌 모든 데이터 - 예) 텍스트 문서, 멀티미디어 콘텐츠 - 가장 큰 증가⇧를 보이는 데이터 유형 |
2. 빅데이터 방법론
2-1. 빅데이터의 처리 과정과 기술
빅데이터는 생성, 수집, 저장, 처리, 분석, 표현 과정을 거쳐 필요한 정보를 추출해낼 수 있다. 빅데이터 전문가라면 빅데이터의 처리 과정을 기억해두는 것이 매우 중요하다.
생성 → 수집 → 저장 → 처리 → 분석 → 표현 |
1) 생성
내부 데이터 | - 로컬 환경에 저장되어 교류가 없는 데이터 - 데이터베이스, 파일 관리 시스템 등 |
외부 데이터 | - 네트워크에서 교류를 통해 발생하는 데이터 - 텍스트, 멀티미디어 콘텐츠, 스트림 등 |
2) 수집
로그 (Log) |
시스템 내부 활동 로그 수집 - 크롤링 (Crawling) : 인터넷 로봇을 사용한 데이터 수집 |
센싱 (Sensing) |
각종 센서를 이용한 수집 |
ETL (Extraction, Transformation, Loading) |
- 소스 데이터의 추출, 변환, 적재 - 데이터 웨어하우스(data warehouse) |
3) 저장
서버 (Server) |
데이터에 효과적으로 접근하기 위한 장치 |
스토리지 (Storage) |
데이터를 저장하는 매체 |
NoSQL 데이터베이스 | 비정형 데이터 관리에 특화된 데이터베이스 |
4) 처리
맵리듀스 (MapReduce) |
분산 병렬 컴퓨팅에서 대용량 데이터를 처리하기 위한 소프트웨어 프레임워크 |
R, Hadoop, MATLAB 등 | 데이터 분석을 효과적으로 수행하기 위한 다양한 처리 도구 |
5) 분석
통계 분석 (Statistical Analysis) |
고전 통계, 확률 모델링 등으로 분석 수행 |
기계학습 (Machine Learning) |
인공지능(AI)의 한 갈래이며 반자동 또는 자동으로 데이터의 패턴 발견 |
NLP (Natural Language Processing) |
인간의 언어 현상을 분석하는 인공지능 |
6) 표현
시각화 (Visualization) |
- 다양한 도표와 그래픽으로 이해를 도움 - 고전적인 표현 방식에 얽매이지 않고 형태, 색상, 매체, 구도 등을 변화하여 다양 한 표현 적용 |
3. 빅데이터의 전망
3-1. 빅데이터의 변화 추이
데이터의 다양성은 과거에 비해 현재 매우 증가한 상황이 고, 미래가 될수록 더 다양한 가치 추구 등으로 말미암아 대폭 증가할 것으로 예상된다. 스 마트 기기는 현재 90% 이상이 보급되어 있는 상황이나, 해가 갈수록 보급률은 100%를 초 과하게 될 것이며, 이에 따라 차별화된 빅데이터 기반의 정보 제공 및 서비스 전략이 필요 할 것이다. 마지막으로 빅데이터의 분석 결과에 대한 반환 요구 시간은 점차로 감소하게 될 것이다.
3-2. 빅데이터의 활용 분야
공공 서비스 | - 방대한 데이터를 국가적으로 활용 가능 - 각종 자원 관리, 스마트 그리드, 재난 방재 등 |
과학 연구 | - 데이터로부터 새로운 의미 발견 가능 - 데이터를 표현하는 새로운 방법론 적용 |
의료 서비스 | - 의료 데이터의 효율적, 효과적 수집 및 공유 - 진단, 처방, 시술, 수술 등에 의료 혁명 예상 |
물류/유통 | - 데이터를 통해 소비자의 니즈(needs)를 파악 - 보다 효과적인 물류 유통이 가능 |
제조 산업 | - 제품의 수율을 극대화하기 위하여 데이터를 활용 - 불량률을 최소화할 수 있고 제조의 효율화 가능 |
정보 통신 | - 모바일 기기(스마트폰)의 보급 확대로 개인 데이터⇧ - 개인화된 서비스 및 목표 마케팅 가능 |
3-3. 빅데이터의 활용 사례
정치 | - 유권자 DB에서 유권자를 분류하고 성향 파악 - 소셜 미디어를 통하여 유권자 정보 수집 - 유권자 별 맞춤형 선거 전략으로 효과적인 선거 - 예) 2008년 미국 대통령 선거, 대한민국 제19대 총선 ![]() |
경제 | - 고객의 구매나 활동 기록을 분석하여 취향 분석 - 개인화 된 추천 시스템(recommender system) |
문화 | - 정형 및 비정형 데이터를 수집 및 분석 - 효율적인 팀의 운영을 가능케 함 |
과학 | - 통계학의 비약적인 발전 - 유전자의 분석 및 발현과 조절에 획기적인 변화 |
3-4. 빅데이터의 미래 전망
데이터 혁명 | 정치, 경제, 사회, 문화, IT 등 데이터가 발생하는 전(全) 분야에 도입 ⇨ 사회 전반의 데이터 혁명 |
새로운 가치와 분야 창출 | 기존 데이터 뿐만 아니라 미래의 데이터로부터 새로운 의미를 찾아내고 가치와 분야 창출 기대 |
728x90
'민간 자격증 > 빅데이터전문가' 카테고리의 다른 글
3. 빅데이터 저장소 (0) | 2024.07.04 |
---|---|
2. 빅데이터의 수집 (0) | 2024.07.02 |
댓글