LearnRun

[Pandas] 개요 본문

메모장/Data

[Pandas] 개요

PROMPT_ 2023. 1. 17. 04:40

◆ Contents

     

    Pandas Import

    import pandas as pd

     

    Pandas란?

    Pandas는 Json와 더불어, csv 등의 스프레드시트 처리에 상당한 효율을 보이는 라이브러리입니다.

    스프레드 시트의 데이터에서 원하는 데이터만 선택하거나, 그를 Join하거나 선별하여 Grouping을 할 수 있습니다.

    즉, 데이터 분석, 가공, 연산 등 빅데이터 분야에서도 굉장히 요긴하게 쓰입니다.

     

    실제로, 내가 openpyxl을 통해서 시트 데이터를 처리해왔던 때에는 데이터 처리에  갖은 고생을 했으나,

    Pandas를 직접 사용한 후, openpyxl은 그냥 엑셀로 출력하는 데에만 그 용도를 두게 되었습니다. (...)

     

    Pandas의 데이터 구조체

     Series [1D]

     - 시트의 한 열(Col), 한 줄을 의미합니다.
     - 1차원 배열과 같은 구조입니다.
     - row가 없으므로, 일반적으로 정렬되지 않은 값입니다.

     - Index가 함께 출력됩니다.

     

     DataFrame [2D]

     - 시트의 행(Row), 열(Col) 을 합쳐 지칭합니다.
     - 2차원 데이터로, 일반적인 스프레드시트 데이터가 이에 해당합니다.
     - Pandas에서 가장 핵심적으로 다루는 데이터입니다.
     - 여러개의 Series들로 이루어져 있습니다.

     

     Pannel [3D]

     - 3차원 데이터로, 대개 해당 데이터는 numpy에서 다루므로 이 장에서는 제외합니다.

    ‌ ‌ ‌
    Comments