LearnRun
[Pandas] 개요 본문
◆ Contents
Pandas Import
import pandas as pd
Pandas란?
Pandas는 Json와 더불어, csv 등의 스프레드시트 처리에 상당한 효율을 보이는 라이브러리입니다.
스프레드 시트의 데이터에서 원하는 데이터만 선택하거나, 그를 Join하거나 선별하여 Grouping을 할 수 있습니다.
즉, 데이터 분석, 가공, 연산 등 빅데이터 분야에서도 굉장히 요긴하게 쓰입니다.
실제로, 내가 openpyxl을 통해서 시트 데이터를 처리해왔던 때에는 데이터 처리에 갖은 고생을 했으나,
Pandas를 직접 사용한 후, openpyxl은 그냥 엑셀로 출력하는 데에만 그 용도를 두게 되었습니다. (...)
Pandas의 데이터 구조체
Series [1D]
- 시트의 한 열(Col), 한 줄을 의미합니다.
- 1차원 배열과 같은 구조입니다.
- row가 없으므로, 일반적으로 정렬되지 않은 값입니다.
- Index가 함께 출력됩니다.
DataFrame [2D]
- 시트의 행(Row), 열(Col) 을 합쳐 지칭합니다.
- 2차원 데이터로, 일반적인 스프레드시트 데이터가 이에 해당합니다.
- Pandas에서 가장 핵심적으로 다루는 데이터입니다.
- 여러개의 Series들로 이루어져 있습니다.
Pannel [3D]
- 3차원 데이터로, 대개 해당 데이터는 numpy에서 다루므로 이 장에서는 제외합니다.
Comments