Pandas 라이브러리
- 데이터를 조작 및 분석 등 다루기 위한 파이썬의 라이브러리
- 시리즈(Series)와 데이터프레임(DataFrame)이라는 데이터 구조 제공(데이터 분석에 유용)
pandas라이브러리를 통해 아래와 같은 작업을 진행할수 있으며
터미널에 pip install padas로 라이브러리를 설치해야한다.
(1) 데이터 확인
일부분만 확인하는 경우 head(), tail() 메서드로 앞(혹은 뒤)의 일부 행을 미리 볼수 있다.
df2.head()
df2.tail()
info() : 데이터의 정보를 확인할수 있다. (시리즈 데이터에 대해서도 호출 가능)
# 인덱스 정보, 컬럼의 정보(개수.이름), 각 컬럼의 데이터 개수와 데이터 타입을 확인 가능
df.info()
그외에도 df.shape(행과 열의 개수를 투플로 출력), df.colums(컬럼의 이름 목록), df.dtypes(각 컬럼의 데이터 정보) 등이있다.
데이터 변환
df.info()를 통해 각 컬럼의 데이터 타입을 보면 수치형이어야할 데이터가 텍스트형이거나 그 반대인 경우가 있다.
텍스트 타입인 경우 수치형 연산이 불가능 하여 타입을 변환 해주어야한다.
pandas메서드는 본사본 데이터프레임에 적용하여 반환하기에 원본에 반영 하려면 덮어쓰기 작업이 필요
# 특정컬럼을 실수형으로 변환
df["특정컬럼"].astype(int)
# 숫자형으로 변환
pd.to_numeric(df['특정컬럼'])
# 날짜형으로 변환
pd.to_datetime(df['특정컬럼'])
# 날짜형컬럼은 또 dt속성을 통하여 원하는 형태의 시간을 나타낼수 있다.
df['날짜컬럼'].dt.연산자

** 데이터 값을 매핑하여 시리즈 변환하기
간혹 숫자값으로 구성된 컬럼을 범주형으로 매핑하고싶을 경우 별도 딕셔너리를 생성하여 값을 변환하는 방법이 있다.
ex) 요일 컬럼 : 0(월),1(화),2(수),3(목),4(금),5(토),6(일)
# map()을 이용하여 시리즈 값 변환
week = {0: "월",1 : "화",2 : "수", 3 : "목" , 4 : "금" , 5 : "토", 6 : "일"}
df["요일"] = df["요일"].map(week)
데이터 요약하기
방대한 데이터를 한눈에 파악하는 것은 불가능핟.
그리하여 먼저 전반적인 형태를 요약하여 데이터 정보를 미리 파악해 추후 분석 방향을 판단 가능하도록 해야한다.
(1) 통계함수로 요약하기
| 대표값 | .mean() , .median(), mode() |
| 산포도 | .std(), .max(), .quantile() |
| 합계 | .sum(), .cumsum() - 누적합 |
(2) 그룹화하여 요약하기
# 컬럼으로 그룹화 한 후 집계컬럼을 기준으로 집계값을 계산한다.
df.groupby("컬럼")["집계컬럼"].집계합수
# "컬럼1","컬럼2"을 그룹화 (컬럼2가 세부그룹)
df.groupby(["컬럼1","컬럼2"])["집계컬럼"].집계합수
'Study > DATA-DE(AI)' 카테고리의 다른 글
| NEXT AI 13일차 Pandas 심화 복습 (0) | 2025.11.18 |
|---|---|
| NEXT AI 12일차 Pandas 심화(데이터 추출, 데이터 삭제, 데이터 병합) (0) | 2025.11.18 |
| NEXT AI 데이터 엔지니어 5일차 모듈과 IO (0) | 2025.11.07 |
| NEXT AI 데이터 엔지니어 4일차 함수와 클래스 (0) | 2025.11.07 |
| NEXT AI 데이터 엔지니어 3일차 반복문과 복합 자료형 (0) | 2025.11.07 |