일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- Convolution
- NomadCoder
- mutate( )
- 생활코딩
- Sequential Model
- 네이버커넥트
- aitech
- group_by( )
- convolution 역전파
- dplyr
- regular expression
- 부스트캠프
- Multi-Layer Perceptron
- Filter
- r
- LinearNeuralNetwork
- JavaScript
- 베이즈통계학
- RNN
- 네이버커넥트재단
- col_names
- 정규표현식
- regex
- 부스트캠프 aitech3기
- summarise( )
- 부스트캠프aitech3기
- Beyond Linear Neural Networks
- 자바스크립트
- 역전파알고리즘
- 모각공
- Today
- Total
clear_uncertainty
R - R언어 dplyr 함수로 데이터 전처리 하기 (select( ) , arrange( ), desc( )) 본문
이번 포스트에서는 R언어로 데이터 전처리하는 방법에 대해 서술하겠습니다.
'데이터 전처리(Data Preprocessing)'은 분석에 적합하게 데이터를 가공하는 작업입니다. 일부를 추출하거나, 종류별로 나누거나 여러 데이터를 합치는 등 데이터를 자유롭게 가공할 수 있어야 목적에 맞게 분석할 수 있습니다.
dplyr은 데이터 전처리 작업에 가장 많이 사용되는 패키지입니다. dplyr의 대표적인 함수를 정리하면 아래와 같습니다.
dplyr 함수 | 기능 |
filter( ) | 행추출, 2023.01.12 - [언어/R] - R - R언어 dplyr로 데이터 전처리하기 (filter( ), %>%, %in%) |
select( ) | 열 추출 |
arrange( ) | 정렬 |
mutate( ) | 변수 추가 |
summarise( ) | 통계치 산출 |
group_by( ) | 집단별로 나누기 |
left_join( ) | 데이터 합치기(열) |
bind_rows( ) | 데이터 합치기(행) |
select( )
이번 포스트에서는 select( ) 함수에 대해 알아보겠습니다.
select( ) 는 데이터에 들어 있는 수많은 변수 중 일부 변수만 추출해 활용하고자 할 때 사용합니다.
exam에서 데이터프레임에서 math 변수만 추출해보도록 하겠습니다.
filter( ) 함수와 마찬가지로 select ( ) 또한 %>%을 이용해 추출합니다.
- 등호와 함께 이용한다면 제외하고 추출할 수 있습니다.
select(-math)은 math를 제외한 columns을 추출합니다.
dplyr 패키지는 %>%을 이용해 조합할 수 있다는 장점이 있습니다.
# filter( ) , select( ) 을 조합해 1반의 영어점수를 추출해봅시다.
같은 코드를 줄바꿈을 통해 가독성 좋게 바꿀 수 있습니다.
마찬가지로, 내장함수인 head도 사용하여 일부만을 추출할 수 있습니다.
arrange( )
arrange( )를 이용하면 데이터를 원하는 순서로 정렬할 수 있습니다. arrange( ) 에 정렬 기준으로 삼을 변수명을 입력하면 됩니다.
arrange(math)를 이용하면 math 데이터를 오름차순으로 정렬합니다.
만약 내림차순으로 정렬하고 싶다면 desc( ) 를 적용하면 됩니다.
정렬 기준을 두개 이상으로 만든다면 쉼표를 이용해 변수명을 나열하면 됩니다.
이럴 경우 앞에 있는 변수부터 정렬한 후, 같을 경우 뒤에 있는 변수를 정렬합니다.
# mpg 데이터를 이용해 분석하기
# audi가 생산한 자동차 중 hwy가 높은 5개의 자동차의 데이터를 추출
출처
Do it 쉽게 배우는 R 데이터 분석 ...
18,000원
itempage3.auction.co.kr
'언어 > R' 카테고리의 다른 글
R - R언어 dplyr로 데이터 전처리하기 ( mutate( ), group_by( ), summarise( ) ) (0) | 2023.01.12 |
---|---|
R - R언어 dplyr로 데이터 전처리하기 (filter( ), %>%, %in%) (0) | 2023.01.12 |
R - R언어로 파생변수만들기(조건문 ifelse, 중첩조건문 ifelse, hist, table, qplot) (0) | 2023.01.11 |
R - R언어로 데이터 파악하기 (head, tail, View, dim, str, summary) (0) | 2023.01.11 |
R - CSV, RDS 불러오기 + 저장하기 (read.csv, write.csv, saveRDS, readRDS) (0) | 2023.01.10 |