1. R의 이해와 설치
1-1. R이란?
R은 통계 분석, 그래픽 표현, 보고 작성을 위한 프로그래밍 언어 및 소프트웨어 환경이다.
R의 통계 분석으로는 선형 및 비선형 모델링, 통계 검정, 시계열 분석, 분류, 군집화 등의 작업이 가능하다.
R의 그래픽 표현 및 보고 작성 기능을 이용하여 막대형 그래프, 원형 그래프, 3차원 그래프 등 다양한 출력이 가능하다.
1) R의 특징
- 효과적인 데이터 핸들링 및 저장소 기능
- 선형대수 연산에 적합한 연산자 제공
- 일관성 있으며 통합된 데이터 분석 도구
- 데이터 분석의 그래픽 및 출력 기능
- 견고하면서도 간결하고 효과적인 프로그래밍 언어
(조건문, 루프, 사용자 정의 재귀 함수, 입출력 기능 등)
2) R의 설치
- 설치 명령문
* Dpkg 기반인 경우
$ apt-get install r-base r-base-dev
* RPM 기반인 경우
$ yum install R
3) RStudio : R의 통합개발도구(IDE)
R의 기능 중 그래픽 유저 인터페이스(GUI) 기능을 보완한 것이 바로 RStudio이다. 처음 R을 이용하여 데이터 분석을 하는 빅데이터 전문가라면 RStudio를 이용하여 통합 개발 도구 환경에서 개발하는 것이 권장된다.
- 좀더 편리한 분석 환경을 위하여 그래픽 사용자 인터페이스 (GUI) 제공 필요성 대두
- 소스코드 편집기, 디버깅, 시각화 도구를 포함
- http://www.rstudio.com 을 통하여 다운로드 가능
- 데스크톱 버전 : 오픈소스 에디션과 상업 라이선스 버전
* 일반 사용자의 경우 오픈소스 에디션으로 충분
- 서버에서 구동되는 통합개발도구 및 실험 환경도 제공
4) 특징 (오픈소스 에디션의 경우)
- 소스코드 편집기를 이용하여 R의 명령문을 실행 가능
- 소스코드 편집기에서는 문법 하이라이트, 자동완성,들여쓰기 등의 다채로운 기능 제공
- 프로젝트와 작업 디렉터리의 관리 기능 제공
- 통합된 도움말 및 문서 기능 제rhd
5) R 기능
메뉴 (Menu) |
- 파일, 편집, 코드, 보기 그래프(plots),세션, 빌드, 디버그, 프로파일, 도구,도움말 등의 기능에 접근 가능 |
도구 바 (toolbar) |
- 자주 쓰는 기능을 아이콘으로 정의하여 편리하게 접근할 수 있도록 한 UI - 사용자가 직접 원하는 기능을 등록하여 사용 가능 |
소스코드 편집 탭 (Editor) |
- R 언어로 작성하는 소스코드를 입력 - 문법(syntax)에 따른 하이라이트 기능 - 자동 완성(auto completion) 기능 - 자동 들여쓰기(auto-indent) 기능 |
콘솔 탭 (Console) |
- R 언어로 된 명령문을 직접 입력하여 실행 가능 - 입력한 명령문의 실행 결과는 콘솔창으로 실시간 출력 - 명령문을 이용하여 그래프 출력, 파일 입출력 가능 |
환경 탭 (Environment) |
- 현재 환경에서 정의된 변수의 일람을 볼 수 있는 곳 - 변수의 이름, 변수의 값 등을 볼 수 있음 |
파일 탭 (Environment) |
- 시스템의 파일 읽기, 저장, 삭제 등 - 디렉터리 생성, 변경, 삭제 등 |
플롯 탭 (Plots) |
- 그래프 명령어를 통한 결과가 나타나는 탭 - 그래프의 설정을 직접 바꿀 수 있는 GUI 제공 - 출력된 그래프를 추출(export) 가능 |
2. R의 기본 문법
R은 일종의 프로그래밍 환경이므로, 프로그래밍 언어로서의 기본적인 문법에 대하여 숙지가 필요하다.
2-1. 대입(할당) 연산자의 사용
<- 연산자 또는 -> 연산자를 이용하여 변수에 값을 대입
# 변수 a에 3을 대입
a<-3
# 변수 b에 a+3의 결과를 대입
a+3 -> b
# 변수 1에 리스트를 생성하여 대입
1<-list("pizza", 3, 119.2)
2-2. 주석의 사용
주석(comments) : 실제로 실행되지 않는 코드의 메모
# 기호를 이용하여 주석 정의 가능
# 아래 명령문은 연산의 가능성을 알아보기 위한 부분이다
a<-3
b<-4
c<-a+b
3. 변수의 사용
R에서는 다양한 데이터를 변수로서 다루게 된다. 여기서는 변수의 명명법, 변수 관련 함수의 용법
3-1. 변수 (Variables)
- 모든 변수는 문자, 숫자, 점(.), 밑줄 문자(_)만 사용 가능
- 첫번째 문자는 숫자와 밑줄 문자(_)로 시작할 수 없음
- 첫번째 문자가 점(.)인 경우 ⇨ 두번째 문자는 숫자 외 사용
3-2. 변수 관련 함수
1) class( ) : 변수의 데이터형을 알아내기 위한 함수
# 변수 a의 데이터 형 알아내기 위함
class(a)
2) ls( ) : 현재 사용하고 있는 변수의 목록 출력
# 사용하고 있는 변수 목록을 보려고 할 때
ls()
# 사용하고 있는 변수 중 글자 v를 포함한 변수
ls(pattern='v')
3) rm( ) : 변수를 지우는 함수
# a 변수를 지우고자 함
rm("a")
ls()
# 사용하고 있지 않는 a 변수를 지우려고 하는 경우
rm("a")
'머신러닝과 빅데이터 분석 > R' 카테고리의 다른 글
R 조건문 (0) | 2024.07.17 |
---|---|
R의 데이터형 및 연산자 (0) | 2024.07.17 |
댓글