Python/Pandas

[파이썬 Pandas] Pandas 패키지 익히기

Delants 2022. 7. 26. 12:56

<본 내용은 "이것이 데이터 분석이다 with 파이썬"의 내용을 토대로 하되, 다른 부분이 있을 수 있습니다.> 

<구글 코랩으로 코드 작성을 하였습니다.>

 

오늘은 패키지 익히기에 대해 알아보도록 하겠습니다.

패키지란, 라이브러리라고도 하며 보통 함수를 사용하기 위해 설치합니다.

데이터 분석을 하기 위해 필요한 패키지 중 pandas, numpy, Matplotlib를 알아볼 예정입니다.

 

1. pandas 패키지의 특징

- 파이썬에서 가장 널리 사용되며, Data Frame자료구조를 사용합니다.

- 엑셀과 유사한 형태입니다.

 

2. pandas패키지 활용

(1) 패키지 삽입

위와 같은 형태로 함수를 import할 수 있습니다. as뒤에 pd를 붙여서 pandas를 별명으로 pd라고 하겠다는 뜻을 적었습니다.

 

(2) 리스트 형태로 저장

다음으로는 데이터 프레임을 생성해 보도록 하겠습니다.

다섯 개의 이름과, 나이, 그리고 임의의 숫자를 custom이라는 변수로 두고 리스트 형태로 만들었습니다. 아직까지는 데이터 프레임이 만들어지지 않았고 리스트형태입니다. 그렇기에 데이터 프레임을 만드려면 다음과 같은 추가적인 작업을 진행해야 합니다. 

 

(3) 리스트를 이용한 데이터 프레임 생성

먼저 list()와 zip()함수로 데이터셋을 생성합니다.
pd.dataframe(data=사용할 데이터셋, columns=[컬럼명])

먼저 list()와 zip()함수를 사용해서 BabyDataSet이라는 데이터셋을 생성합니다.

이후에는 판다스 패키지를 사용하여 데이터 프레임을 만들게 되는데, 이 데이터 프레임을 만드는 함수가 바로 DataFrame입니다. 

df를 적으면 이렇게 데이터 프레임 형태로 출력됩니다. raw데이터보다는 훨씬 보기 편하며, 추후 이 데이터를 가공할 때도 매우 편리하게 사용할 수 있습니다.

 

 

 

 

 

 

 

 df.head(3)을 적었을 경우 상위 3개의 행을 보여주게 됩니다.

 

 

 

 

 

 

 

(4) 데이터 프레임 기본 정보 출력하기

데이터 프레임의 열의 타입정보를 표시하는 .dtypes함수입니다.

각 열들의 타입을 확인할 수 있습니다.

 

 

 

데이터프레임의 인덱스 정보를 표시하는 .index함수입니다.

 

 

 

데이터프레임의 열의 형태정보를 출력하는 .columns함수입니다.

 

 

 

(5) 데이터 프레임 기본 정보 검색하기

데이터프레임명['열이름']을 했을 경우 왼쪽 사진처럼 해당 열의 정보만 나오게 됩니다.

df.['name']을 입력하면 name열에 대한 정보만 나오게 되지요.

또한 dtype, 즉 열의 타입 대한 정보도 확인할 수 있습니다.

 

 

 

또한, 0번째부터 3번째까지 인덱스에 있는 데이터를 검색하고 싶을 때는 

데이터명[시작인덱스:끝인덱스]로 표시합니다.

참고로, 파이썬에서는 0이 첫번째라는 뜻을 가집니다.

 

 

 

 

(6) 데이터 프레임 필터링

pandas패키지를 활용하여 df데이터셋에서 df의 열 중에서 나이가 40이상인 사람만 추출할 수 있습니다.

 

 

 

 

 

 

또한 이렇게 df데이터셋의 나이 열에서 나이의 평균을 구할 수도 있습니다.

 

 

 

이번에는 이렇게 pandas패키지에 대해 알아보았습니다. 다음에는 numpy패키지에 대해 알아보겠습니다.