민간 자격증/AI활용전문가1급

3. 데이터 과학과 인공지능의 관계

Zoo_10th 2024. 7. 5.

1.데이터 과학

1-1. Data Science의 개요

다양한 데이터와 프로그램, 인공지능 기술 등에 대해 연구하고 학습하는 학문을 “데이터 과학(Data Science)”이라고 한다. 즉, 데이터로부터 지식과 통찰(Insight)을 추출하도록 하는 학문 분야로 이에는, 통계학, 컴퓨터 과학, 정보과학 및 논리학 등 여러 분야의 학문이 얽혀 있다.

1) 데이터 마이닝(Data Mining)

필요한 데이터를 수집하고 추출 하는 과정으로 수집된 정보 즉, 수많은 데이터를 수집하고 추출하여 분석하는 과정이 데이터 마이닝이다.

2) Garbage Collection

어쩌다 한 번 들르는 고객의 정보는 가치가 없으며, 해로운 동영상이나 불법적인 정보는 데이터로 취급해서는 안 된다. 이러한 쓸모없는 데이터나 불편한 자료를 걸러내는 작업이 Garbage Collection인바. 이 또한 데이터 관리에 아주 중요한
과정이며 기술이다.

3) 데이터 분석(Data Analysis)

정보기술(ICT)이나 인공지능, 스마트 공장 등 다양한 컴퓨터 산업을 활용하고 개발하는 기업들, 예를 들면, 구글, 네이버, 엔비디아, 애플 등의 기업들은 다양한 데이터를 수집하고 추출하여 빅데이터를 쌓아 두고 활용하는데, 이에 앞서 데이터를 잘 분석할 필요가 있다. 수천만~수억 개의 데이터를 그대로 사용할 수 없는바, 이를 용도와 필요에 맞도록, 비즈니스 성과를 낼 수 있도록 “가치 있는 데이터”를 골라내는 과정이 데이터 분석이다. 

1-2. 데이터 과학의 주요 기술

1) Data Mining

데이터에 숨겨져 있거나 이전에 알려지지 않은 패턴을 추출하고 쓸모 없는 데이터를 찾아내는 기술이다.

2) Machine Learning

컴퓨터가 데이터를 학습하여 스스로 문제를 해결하는 방법론이다.

3) Big Data 분석 및 Data 시각화

1-3. 데이터 과학의 중요성

1) 데이터를 기반으로 한 의사 결정

데이터는 기업이나 단체, 다양한 조직에서 중요한 의사 결정으로 하는 기본 자료가 되며, 데이터를 객관적으로 분석을 해서 경영 전략을 수립하거나 시장의 미래를 예측하는 데 활용된다.

2) 혁신과 경쟁력 강화

어떤 비즈니스 모델을 개발하고 서비스를 하는가에 따라 시장에서의 경쟁력을 강화하거나 우위를 선점할 수도 있으므로, 같은 데이터를 갖고 있다고 해서 그 데이터의 활용 방법에 따라 가치를 달리할 수 있다.

3) 사회적 영향

공공 분야에서는 물론, 의료, 교통, 에너지 등 다양한 분야에서 업무 효율성을 향상시킬 수 있으며, 업무 개선과 자동화를 통한 인건비 등을 절감할 수 있다. 최근에 의료 진찰을 인공지능에 맡길 수 있고, 교통안전과 통제를 로봇이 대신할 수 있다는 소식이 전해지고 있다.

2. 빅데이터 활용법

2-1. 인공지능을 개발 및 테스트

1) 필요한 데이터를 검색하고 추출

필요한 데이터란 기업이나 고객이 요구하는 사항을 확인하여, 그에 필요한 데이터를 선별하는 것이다. 이는 백화점이나 은행, 공장, 공공기관 등 기업이나 단체의 특성과 비즈니스 타입 등에 따라 다를 수 있으므로 정형화할 수는 없다.

2) 데이터 분석 및 모델링 테스트

다양한 알고리즘을 개발하고 실험과 시험을 거쳐 가장 바람직하고 탁월한 알고리즘을 선택하도록 한다.

다양한 인공지능과 로봇을 개발하기 위해 다양한 모델을 디자인하고 개발하여 실험을 하게 된다. 개발한 모델 또한 예측할 수 있는 여러 가지 “경우의 수(數)”를 예측하여 가상적 시나리오로 설계하여 “실험(Simulation)”을 하여야 한다.

3) 실전에 적합한지 확인하고 검증

현실에 적합하지 않은 알고리즘이나 너무 이상적인 모델을 개발할 경우에는 시장성이 없을 수 있고, 고객이 활용하기 힘든, 복잡하고 어려운 인공지능이 될 우려도 있으므로, 이를 수시로 확인하고 검증해야 한다.

2-2. 데이터 처리의 변화

이터가 성과와 결과를 분석하는 데 주로 사용되었지만, 현재는 최적화 된 데이터(Optimized Data)로 미래를 예측하고 시장을 이끌어 가기도 한다.

1) 데이터의 형태

특정 형식, 특정 일시 -> 형식, 일시 무관

2) 데이터 처리 속도

일괄처리(Batch Processing) -> 실시간 처리(Real Time)

3) 데이터 처리 목적

과거 분석 -> 최적화 및 예측

4) 데이터 처리 비용

정부 지원 -> 개별 기업 차원, 개인 부담 등

 

728x90

댓글