R - R언어 dplyr 함수로 데이터 전처리 하기 (select( ) , arrange( ), desc( ))
이번 포스트에서는 R언어로 데이터 전처리하는 방법에 대해 서술하겠습니다.
'데이터 전처리(Data Preprocessing)'은 분석에 적합하게 데이터를 가공하는 작업입니다. 일부를 추출하거나, 종류별로 나누거나 여러 데이터를 합치는 등 데이터를 자유롭게 가공할 수 있어야 목적에 맞게 분석할 수 있습니다.
dplyr은 데이터 전처리 작업에 가장 많이 사용되는 패키지입니다. dplyr의 대표적인 함수를 정리하면 아래와 같습니다.
dplyr 함수 | 기능 |
filter( ) | 행추출, 2023.01.12 - [언어/R] - R - R언어 dplyr로 데이터 전처리하기 (filter( ), %>%, %in%) |
select( ) | 열 추출 |
arrange( ) | 정렬 |
mutate( ) | 변수 추가 |
summarise( ) | 통계치 산출 |
group_by( ) | 집단별로 나누기 |
left_join( ) | 데이터 합치기(열) |
bind_rows( ) | 데이터 합치기(행) |
select( )
이번 포스트에서는 select( ) 함수에 대해 알아보겠습니다.
select( ) 는 데이터에 들어 있는 수많은 변수 중 일부 변수만 추출해 활용하고자 할 때 사용합니다.
exam에서 데이터프레임에서 math 변수만 추출해보도록 하겠습니다.
filter( ) 함수와 마찬가지로 select ( ) 또한 %>%을 이용해 추출합니다.
- 등호와 함께 이용한다면 제외하고 추출할 수 있습니다.
select(-math)은 math를 제외한 columns을 추출합니다.
dplyr 패키지는 %>%을 이용해 조합할 수 있다는 장점이 있습니다.
# filter( ) , select( ) 을 조합해 1반의 영어점수를 추출해봅시다.
같은 코드를 줄바꿈을 통해 가독성 좋게 바꿀 수 있습니다.
마찬가지로, 내장함수인 head도 사용하여 일부만을 추출할 수 있습니다.
arrange( )
arrange( )를 이용하면 데이터를 원하는 순서로 정렬할 수 있습니다. arrange( ) 에 정렬 기준으로 삼을 변수명을 입력하면 됩니다.
arrange(math)를 이용하면 math 데이터를 오름차순으로 정렬합니다.
만약 내림차순으로 정렬하고 싶다면 desc( ) 를 적용하면 됩니다.
정렬 기준을 두개 이상으로 만든다면 쉼표를 이용해 변수명을 나열하면 됩니다.
이럴 경우 앞에 있는 변수부터 정렬한 후, 같을 경우 뒤에 있는 변수를 정렬합니다.
# mpg 데이터를 이용해 분석하기
# audi가 생산한 자동차 중 hwy가 높은 5개의 자동차의 데이터를 추출
출처
Do it 쉽게 배우는 R 데이터 분석 ...
18,000원
itempage3.auction.co.kr