clear_uncertainty

R - R언어 dplyr 함수로 데이터 전처리 하기 (select( ) , arrange( ), desc( )) 본문

언어/R

R - R언어 dplyr 함수로 데이터 전처리 하기 (select( ) , arrange( ), desc( ))

SOidentitiy 2023. 1. 12. 13:31
728x90

이번 포스트에서는 R언어로 데이터 전처리하는 방법에 대해 서술하겠습니다.

'데이터 전처리(Data Preprocessing)'은 분석에 적합하게 데이터를 가공하는 작업입니다. 일부를 추출하거나, 종류별로 나누거나 여러 데이터를 합치는 등 데이터를 자유롭게 가공할 수 있어야 목적에 맞게 분석할 수 있습니다.

dplyr은 데이터 전처리 작업에 가장 많이 사용되는 패키지입니다. dplyr의 대표적인 함수를 정리하면 아래와 같습니다.

dplyr 함수 기능
filter( ) 행추출, 2023.01.12 - [언어/R] - R - R언어 dplyr로 데이터 전처리하기 (filter( ), %>%, %in%)
select( ) 열 추출
arrange( ) 정렬
mutate( ) 변수 추가
summarise( ) 통계치 산출
group_by( ) 집단별로 나누기
left_join( ) 데이터 합치기(열)
bind_rows( ) 데이터 합치기(행)

 


select( )

이번 포스트에서는 select( ) 함수에 대해 알아보겠습니다. 

select( ) 는 데이터에 들어 있는 수많은 변수 중 일부 변수만 추출해 활용하고자 할 때 사용합니다.

exam에서 데이터프레임에서 math 변수만 추출해보도록 하겠습니다.

filter( ) 함수와 마찬가지로 select ( ) 또한 %>%을 이용해 추출합니다.

- 등호와 함께 이용한다면 제외하고 추출할 수 있습니다. 

select(-math)은 math를 제외한 columns을 추출합니다.

 

dplyr 패키지는 %>%을 이용해 조합할 수 있다는 장점이 있습니다. 

# filter( ) , select( ) 을 조합해 1반의 영어점수를 추출해봅시다.

같은 코드를 줄바꿈을 통해 가독성 좋게 바꿀 수 있습니다.

마찬가지로, 내장함수인 head도 사용하여 일부만을 추출할 수 있습니다.


arrange( )

arrange( )를 이용하면 데이터를 원하는 순서로 정렬할 수 있습니다. arrange( ) 에 정렬 기준으로 삼을 변수명을 입력하면 됩니다.

arrange(math)를 이용하면 math 데이터를 오름차순으로 정렬합니다. 

만약 내림차순으로 정렬하고 싶다면 desc( ) 를 적용하면 됩니다.

정렬 기준을 두개 이상으로 만든다면 쉼표를 이용해 변수명을 나열하면 됩니다.
이럴 경우 앞에 있는 변수부터 정렬한 후, 같을 경우 뒤에 있는 변수를 정렬합니다.

 

# mpg 데이터를 이용해 분석하기

# audi가 생산한 자동차 중 hwy가 높은 5개의 자동차의 데이터를 추출


 

 


출처

 

Do it 쉽게 배우는 R 데이터 분석 ...

18,000원

itempage3.auction.co.kr

 

728x90