본문 바로가기

Programming👩🏻‍💻/Python

[pandas 🐼] - 기본 데이터 구조

판다스는 판다들 아니고 파이썬 데이터 처리 라이브러리이다.

1.판다스 데이터  구조

판다스 데이터 구조는 Series, 1차원, DataFrame, 2차원으로 나누어져있다.

데이터 처리 시 필요한 데이터 세트는 2차원 데이터로 구성 되어있다.

 

  • 1차원 Series : 같은 유형의 배열로 표시된 1차원 데이터
  • 2차원 DataFrame : 유형이 지정되어있으며 크기가 가변적인 테이블 형식으로 행렬 형태

판다스 핵심 객체는 DataFame이다.

 

1.2 index와 Series

-Index는 RDMS의 PK처럼 개별 데이터를 고유하게 식별하는 Key값

-Series는 칼럼이 하나뿐인 데이터 구조체

 

Series와 DataFrame의 가장 큰 차이는 Series는 컬럼이 한 개, DataFrame은 칼럼이 여러 개 데이터 구조체

 

 

 

1.3 pivot_table

엑셀에서 피벗테이블 기능을 생각하면 될 것 같다.

행, 열, 값으로 나누어서 데이터를 재구성한다.

데이터를 재구성하여서 지정된 집계 함수들을 사용해서 합계나 평균등을 낸다.

 

pivot_result = m.data.pivot_table(
    values=["Y_YY_DFN_MEDI_KCUR_AMT"],  # 집계 대상 열
    index=["OFFC_NM"],                  # 행 기준 열
    aggfunc="sum"                       # 집계 함수
)
print(pivot_result)
  • values(집계 대상 선택): 집계되는 데이터 값
  • index(데이터 그룹화): 행방향으로 그룹화 
  • aggfuc(집계 함수 적용): 기본값은 'mean'이고 다른 옵션으로 'sum', 'max', 'min'등등 사용 가능

 

pandas cheet sheet

https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf