빅데이터 분석/파이썬

파이썬 판다스(Pandas) 라이브러리

류창 2021. 10. 24. 14:42
반응형

 

 

Pandas란? 

 

구조화된 데이터(structured data)를 빠르고 쉽게 다양한 형식으로 가공할 수 있는 강력
한 데이터 분석 환경 제공

 

 

판다스(pandas)를 이용해서, 빅데이터를 수정, 추가, 가공해서 볼 수 있다.

 

 

판다스 선언

 

import pandas //  import pandas as pd 를 쓰기도함

 

판다스의 객체

 

-> Series 객체 형태로 출력됨.

 

Series는 딕셔너리와 같이, index값을 유연하게 변경할수있다.  Key, value형식 활용가능.

 

Ex)dat = pd.Series([0.3, 0.7, 0.2])
    dat[2] //0.2

    dat = pd.Series([0.3, 0.7, 0.2], index=['a1','a2','a3']) ->인덱스값을 바꿀수있다.
    dat['a2'] // 0.7

 

 

판다스의 핵심 기능 (DataFrame)

 

DataFrame 객체
§ 테이블 형식의 칼럼-기반 데이터 구조
§ 행과 열에 레이블이 부착된 다차원 배열
   ü 유연한 행 인덱스 / 유연한 열 이름
§ 여러 가지 타입의 데이터를 허용 (데이터 누락도 포함 : NaN)

 

DataFrame 생성 

 

pd.DataFrame(data, index, columns, dtype, copy) 

 

Ex)

Data : 0~100 까지 5행 2열로 랜덤한 숫자 생성

index: 1 6 9 6 5 로 설정

colums 이름: 'mid, 'final'로 설정

 

 

scores.index #Index 객체  -> 인덱스들이 출력
scores.columns #column 객체 -> 컬럼 ,열값들이 출력
scores.values #ndarray 객체 -> 모든값이 배열형태로 출력

 

 

§ 인덱서(indexer)
ü iloc 인덱서 : 암묵적인 파이썬 스타일의 인덱스 참조
ü loc 인덱서 : 명시적인 인덱스를 참조하는 인덱싱과 슬라이싱

 

-> iloc vs loc?

 

iloc는   사용자가 index를 바꾸기전에 0,1,2,3... 을 기준으로 탐색한다.

 

loc는    사용자가 index이름을 바꾼값을 기준으로 탐색한다.

 

 

 

판다스의 빅 데이터 읽기

 

 

read_csv, read_excel, read_html, read_json, read_hdf, read_sql 등의 함수를 읽을수있다.

 

Ex)

 

판다스만의 다양한 데이터 가공

 

isnull, notnull -> 각 데이터마다 null인지 아닌지 확인

 

dropna() -> null값있는행 모두삭제  (axis=1 추가하면, 열로 삭제)

 

fillna() -> null값을 대신 무언가로 채우는 메소드

 

 

 

 

판다스의 열 추가, 열 삭제

 

 

 

 

판다스의  배열 합치기 메소드

 

 

배열 합치기 -> concat

 

concat 메소드는 디폴트로  Outer조인을 지원한다.

 

outer 조인은 값이없어도 모두 가져오고, inner 조인은 값이없으면 제외한다.

 

concat과 비슷한 merge 함수는,

 

디폴트로 inner조인을 지원한다.

 

 

 

 

판다스의 데이터프레임 그룹화

 

데이터를 그룹화 해서 볼수있다. 

 

데이터를 그룹화 하면,  다양한 집계메소드로 정보를 가져올수있다.

 

집계 메서드 : count(),first(),last(),mean(),median(),min(),max(),std(),var(),sum()..

반응형