본문 바로가기

Python/Pandas

Pandas

1. pandas란

pandas는 데이터 분석을 위해 널리 사용되는 파이썬 라이브러리 패키지이다. (python게의 엑셀이다.)

고성능 array 계산 라이브러리인 numpy와 통합하여, 강력한 "스프레드시트" 처리 기능을 제공한다.

인덱싱, 연산용 함수, 전처리 함수 등을 제공한다.

pandas는 과학용 파이썬 배포판인 아나콘다(Anaconda)에서 기본적으로 제공되지만, 아나콘다를 사용하지 않을 경우에는 pip install pandas를 통해 설치할 수 있다. 

2. pandas사용법

pandas를 사용하기 위해서는 먼저 pandas를 import해야한다.

import pandas as pd

 

pands는 크게 세가지 자료구조를 지원하고 있다.

1차원 자료구조인 Series, 2차원 자료구조인 DataFrame, 그리고 3차원 자료구조인 Panel을 지원한다.

Series

DataFrame 중 하나의 Column에 해당하는 데이터의 모음 Object이다.

가장 간단한 1차원 자료구조인 Series는 배열/리스트와 같은 일련의 시퀀스 데이터를 받아들이는데, 별도의 인덱스 레이블을 지정하지 않으면 자동적으로 0부터 시작되는 디폴트 정수 index를 사용한다.

 

다음과 같이 index이름을 지정할 수 있다.

 

또한, dictionary를 이용해서 data와 index 이름을 지정한 뒤 data type을 설정하고 series 이름을 설정할 수 있다.

다음과 같이 값 리스트만 볼 수 있고

Index 리스트만도 볼 수 있다.

Data에 대한 정보를 다음과 같이 저정할 수도 있다.

DataFrame

Data Table 전체를 포함하는 Object로 numpy array와 비슷하다.

각 column은 다른 type을 가질 수 있다.

row index와 column index가 있고 size가 mutable하다.

 

pandas와 series를 합치면 broadcasting이 발생한다.

 

참고: www.boostcourse.org/ai222/lecture/23822/