clear_uncertainty

네이버 부스트캠프 모각공 캠페인 6일차 - Pandas 본문

네이버 부스트캠프 - AI Tech 3rd/꼭 알아야하는 파이썬 기초지식

네이버 부스트캠프 모각공 캠페인 6일차 - Pandas

SOidentitiy 2021. 11. 14. 19:54
728x90

모든 설명 및 자료의 출처는 네이버 부스트코스의 <[부스트캠프  AI Tech 3기] Pre-Course>입니다.

(https://www.boostcourse.org/onlyboostcampaitech3/joinLectures/329424)

 

<꼭 알아야하는 파이썬 기초 지식>

 Pandas

 

구조화된 데이터 처리를 지원하는 Python 라이브러리, Python 계의 엑셀

panel data = pandas

고성능 array 계산 라이브러리인 numpy와 통합하여, 강력한 "스프레드시트" 처리기능을 제공

인덱싱, 연산용 함수, 전처리 함수를 제공

데이터 처리 및 통계 분석을 위해 사용

가로 한줄 : instance, tuple, row
세로 한줄 : feature, vector, col
값 한개 : data
하나의 Col = Serise

 

pandas 설치

 

데이터로딩

read_csv를 통해 데이터 로딩을 할 수 있습니다.

head()는 상위 5개의 row를 출력합니다. (head(3)은 3개를 출력)

 

 

colums 를 통해 clolums의 index를 설정할 수 있습니다.

 

pandas의 구성

 

Series

-column vector를 표현하는 object

Series는 index 이름을 지정할 수 있습니다.(list와 차이점)

 

dict type으로도 생성할 수 있습니다. - Key값이 index값이 됩니다.

 

↑ 기본적으로 Series 데이터는 index가 기준, index에 있는 만큼 값을 생성

 

dataframe

 

Data Table 전체를 포함하는 Object

 

Dataframe memory 구조

Series를 모아서 만든 Data Table  - 기본 2차원

 

dataframe 생성

 

loc & iloc

loc는 index 이름

iloc는 index number

 

 

selection 

 

 

index 변경

 

Boolean , loc, iloc , selection

 

data drop

 

 

df 자체가 바뀌는 것은 아닙니다. df 자체를 바꿀려면 inplace = True 또는 del 함수를 이용해야합니다.

 

dataframe operation

series operation

 

map for seires

pandas 의 series type의 데이터에도 map 함수 사용가능

function 대신 dict, sequence형 자료등으로 대체가능

 

replace function

Map 함수의 기능 중 데이터 변환 기능만 담당

데이터 변환시 많이 사용하는 함수

 

apply for dataframe

 

map과 달리 series 전체(column)에 해당 함수를 적용

입력 값이 series 데이터로 입력 받아 handling 가능

 

내장 연산 함수(Ex - mean, std)를 사용할 때도 똑같은 효과

scalar 값 이외에 series 값의 반환도 가능

 

applymap for dataframe

series 단위가 아닌 element단위로 함수를 적용

series 단위에 apply를 적용시킬 때와 같은 효과

 

pandads built-in function

 

describe  Numeric type 데이터의 요약정보를 보여줌

 

unique  series data 의 유일한 값을 list로 반환함

 

sum  기본적인 column 또는 row 값의 연산을 지원 / sub, mean, min, max, count, median, mad, var 등

 

isnull  column 또는 row 값의 NaN 값의 index 를 반환 / df.isnull().sum() 꼴로 많이 활용

sort_values  column 값을 기준으로 데이터를 sorting

 

 

Correlation & Covariance 상관계수와 공분산을 구하는 함수 / corr, cov, corrwith

&amp;nbsp;

 


출처

 

[부스트캠프 AI Tech 3기] Pre-Course

www.boostcourse.org

부스트캠프 #aitech #부스트캠프aitech3기 #모각공 #네이버커넥트 #네이버커넥트재단

728x90