민간 자격증/빅데이터전문가

4. 빅데이터 분석 도구 R (1)

Zoo_10th 2024. 7. 5.

1. R의 이해와 설치

1-1. R이란?

R은 통계 분석, 그래픽 표현, 보고 작성을 위한 프로그래밍 언어 및 소프트웨어 환경이다. 
R의 통계 분석으로는 선형 및 비선형 모델링, 통계 검정, 시계열 분석, 분류, 군집화 등의 작업이 가능하다.

R의 그래픽 표현 및 보고 작성 기능을 이용하여 막대형 그래프, 원형 그래프, 3차원 그래프 등 다양한 출력이 가능하다. 

1) R의 특징

 - 효과적인 데이터 핸들링 및 저장소 기능

 - 선형대수 연산에 적합한 연산자 제공

 - 일관성 있으며 통합된 데이터 분석 도구

 - 데이터 분석의 그래픽 및 출력 기능

 - 견고하면서도 간결하고 효과적인 프로그래밍 언어
(조건문, 루프, 사용자 정의 재귀 함수, 입출력 기능 등)

2) R의 설치

 - 설치 명령문

  * Dpkg 기반인 경우

$ apt-get install r-base r-base-dev

  * RPM 기반인 경우 

$ yum install R

3) RStudio : R의 통합개발도구(IDE)

R의 기능 중 그래픽 유저 인터페이스(GUI) 기능을 보완한 것이 바로 RStudio이다. 처음 R을 이용하여 데이터 분석을 하는 빅데이터 전문가라면 RStudio를 이용하여 통합 개발 도구 환경에서 개발하는 것이 권장된다.

 - 좀더 편리한 분석 환경을 위하여 그래픽 사용자 인터페이스 (GUI) 제공 필요성 대두
 - 소스코드 편집기, 디버깅, 시각화 도구를 포함
 - http://www.rstudio.com 을 통하여 다운로드 가능
 - 데스크톱 버전 : 오픈소스 에디션과 상업 라이선스 버전
  * 일반 사용자의 경우 오픈소스 에디션으로 충분
 - 서버에서 구동되는 통합개발도구 및 실험 환경도 제공

4) 특징 (오픈소스 에디션의 경우)

 -  소스코드 편집기를 이용하여 R의 명령문을 실행 가능
 -  소스코드 편집기에서는 문법 하이라이트, 자동완성,들여쓰기 등의 다채로운 기능 제공
 - 프로젝트와 작업 디렉터리의 관리 기능 제공
 -  통합된 도움말 및 문서 기능 제rhd

5) R 기능

 메뉴
(Menu)
 - 파일, 편집, 코드, 보기 그래프(plots),세션, 빌드, 디버그, 프로파일, 도구,도움말 등의 기능에 접근 가능
도구 바
(toolbar)
 - 자주 쓰는 기능을 아이콘으로 정의하여 편리하게 접근할 수 있도록 한 UI
 - 사용자가 직접 원하는 기능을 등록하여 사용 가능
소스코드 편집 탭 
(Editor)
 - R 언어로 작성하는 소스코드를 입력
 -  문법(syntax)에 따른 하이라이트 기능
 -  자동 완성(auto completion) 기능
 -  자동 들여쓰기(auto-indent) 기능
콘솔 탭 
(Console)
 -  R 언어로 된 명령문을 직접 입력하여 실행 가능
 -  입력한 명령문의 실행 결과는 콘솔창으로 실시간 출력
 -  명령문을 이용하여 그래프 출력, 파일 입출력 가능
환경 탭 
(Environment)
 - 현재 환경에서 정의된 변수의 일람을 볼 수 있는 곳
 - 변수의 이름, 변수의 값 등을 볼 수 있음
파일 탭 
(Environment)
 - 시스템의 파일 읽기, 저장, 삭제 등
 - 디렉터리 생성, 변경, 삭제 등
플롯 탭 
(Plots)
 - 그래프 명령어를 통한 결과가 나타나는 탭
 - 그래프의 설정을 직접 바꿀 수 있는 GUI 제공
 - 출력된 그래프를 추출(export) 가능

2. R의 기본 문법

R은 일종의 프로그래밍 환경이므로, 프로그래밍 언어로서의 기본적인 문법에 대하여 숙지가 필요하다.

2-1. 대입(할당) 연산자의 사용

<- 연산자 또는 -> 연산자를 이용하여 변수에 값을 대입

# 변수 a에 3을 대입
a<-3
# 변수 b에 a+3의 결과를 대입
a+3 -> b
# 변수 1에 리스트를 생성하여 대입
1<-list("pizza", 3, 119.2)

2-2. 주석의 사용

주석(comments) : 실제로 실행되지 않는 코드의 메모

# 기호를 이용하여 주석 정의 가능

# 아래 명령문은 연산의 가능성을 알아보기 위한 부분이다
a<-3
b<-4
c<-a+b

3. 변수의 사용

R에서는 다양한 데이터를 변수로서 다루게 된다. 여기서는 변수의 명명법, 변수 관련 함수의 용법

3-1. 변수 (Variables)

- 모든 변수는 문자, 숫자, 점(.), 밑줄 문자(_)만 사용 가능 
- 첫번째 문자는 숫자와 밑줄 문자(_)로 시작할 수 없음
- 첫번째 문자가 점(.)인 경우 ⇨ 두번째 문자는 숫자 외 사용

3-2. 변수 관련 함수

1) class( ) : 변수의 데이터형을 알아내기 위한 함수

# 변수 a의 데이터 형 알아내기 위함
class(a)

2)  ls( ) : 현재 사용하고 있는 변수의 목록 출력

# 사용하고 있는 변수 목록을 보려고 할 때
ls()
# 사용하고 있는 변수 중 글자 v를 포함한 변수
ls(pattern='v')

3) rm( ) : 변수를 지우는 함수

# a 변수를 지우고자 함
rm("a")
ls()
# 사용하고 있지 않는 a 변수를 지우려고 하는 경우
rm("a")
728x90

'민간 자격증 > 빅데이터전문가' 카테고리의 다른 글

6. 빅데이터 분석 도구 R(3)  (0) 2024.07.12
5. 빅데이터 분석 도구 R (2)  (0) 2024.07.10
3. 빅데이터 저장소  (0) 2024.07.04
2. 빅데이터의 수집  (0) 2024.07.02
1. 빅데이터의 개념  (0) 2024.07.01

댓글