일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 역전파알고리즘
- Convolution
- 네이버커넥트재단
- 모각공
- 부스트캠프
- aitech
- group_by( )
- summarise( )
- 정규표현식
- col_names
- r
- 자바스크립트
- convolution 역전파
- Sequential Model
- NomadCoder
- 부스트캠프aitech3기
- Multi-Layer Perceptron
- LinearNeuralNetwork
- Filter
- 부스트캠프 aitech3기
- 베이즈통계학
- JavaScript
- RNN
- Beyond Linear Neural Networks
- mutate( )
- 네이버커넥트
- regex
- regular expression
- 생활코딩
- dplyr
- Today
- Total
clear_uncertainty
네이버 부스트캠프 모각공 캠페인 6일차 - Pandas 본문
네이버 부스트캠프 모각공 캠페인 6일차 - Pandas
SOidentitiy 2021. 11. 14. 19:54
모든 설명 및 자료의 출처는 네이버 부스트코스의 <[부스트캠프 AI Tech 3기] Pre-Course>입니다.
(https://www.boostcourse.org/onlyboostcampaitech3/joinLectures/329424)
<꼭 알아야하는 파이썬 기초 지식>
Pandas
구조화된 데이터 처리를 지원하는 Python 라이브러리, Python 계의 엑셀
panel data = pandas
고성능 array 계산 라이브러리인 numpy와 통합하여, 강력한 "스프레드시트" 처리기능을 제공
인덱싱, 연산용 함수, 전처리 함수를 제공
데이터 처리 및 통계 분석을 위해 사용
가로 한줄 : instance, tuple, row
세로 한줄 : feature, vector, col
값 한개 : data
하나의 Col = Serise
pandas 설치
데이터로딩
read_csv를 통해 데이터 로딩을 할 수 있습니다.
head()는 상위 5개의 row를 출력합니다. (head(3)은 3개를 출력)
colums 를 통해 clolums의 index를 설정할 수 있습니다.
pandas의 구성
Series
-column vector를 표현하는 object
Series는 index 이름을 지정할 수 있습니다.(list와 차이점)
dict type으로도 생성할 수 있습니다. - Key값이 index값이 됩니다.
↑ 기본적으로 Series 데이터는 index가 기준, index에 있는 만큼 값을 생성
dataframe
Data Table 전체를 포함하는 Object
Dataframe memory 구조
Series를 모아서 만든 Data Table - 기본 2차원
dataframe 생성
loc & iloc
loc는 index 이름
iloc는 index number
selection
index 변경
Boolean , loc, iloc , selection
data drop
df 자체가 바뀌는 것은 아닙니다. df 자체를 바꿀려면 inplace = True 또는 del 함수를 이용해야합니다.
dataframe operation
series operation
map for seires
pandas 의 series type의 데이터에도 map 함수 사용가능
function 대신 dict, sequence형 자료등으로 대체가능
replace function
Map 함수의 기능 중 데이터 변환 기능만 담당
데이터 변환시 많이 사용하는 함수
apply for dataframe
map과 달리 series 전체(column)에 해당 함수를 적용
입력 값이 series 데이터로 입력 받아 handling 가능
내장 연산 함수(Ex - mean, std)를 사용할 때도 똑같은 효과
scalar 값 이외에 series 값의 반환도 가능
applymap for dataframe
series 단위가 아닌 element단위로 함수를 적용
series 단위에 apply를 적용시킬 때와 같은 효과
pandads built-in function
describe Numeric type 데이터의 요약정보를 보여줌
unique series data 의 유일한 값을 list로 반환함
sum 기본적인 column 또는 row 값의 연산을 지원 / sub, mean, min, max, count, median, mad, var 등
isnull column 또는 row 값의 NaN 값의 index 를 반환 / df.isnull().sum() 꼴로 많이 활용
sort_values column 값을 기준으로 데이터를 sorting
Correlation & Covariance 상관계수와 공분산을 구하는 함수 / corr, cov, corrwith
출처
'네이버 부스트캠프 - AI Tech 3rd > 꼭 알아야하는 파이썬 기초지식' 카테고리의 다른 글
네이버 부스트캠프 모각공 캠페인 7일차 - Pandas(2) (0) | 2021.11.16 |
---|---|
네이버 부스트캠프 모각공 캠페인 5일차 - Numerical Python - numpy (0) | 2021.11.12 |
네이버 부스트캠프 모각공 4일차 - Python Data Handling (0) | 2021.11.11 |
네이버 부스트캠프 모각공 3일차 - File/Exception/Log Handling (0) | 2021.11.10 |
네이버 부스트캠프 모각공 캠페인 3일차 - Module and Project (0) | 2021.11.10 |