[데이터분석을 위한 판다스 입문 - #1]
01. 판다스 시작하기
- 1. 데이터 집합 불러오기
- 2. 데이터 추출하기
- 3. 기초적인 통계 계산하기
- 4. 그래프 그리기
### 판다스는 데이터를 효율적으로 다루기 위해 시리즈(Series)와 데이터프레임(DataFrame)이라는 자료형을 사용합니다.
### type() 메서드는 자료형을 출력해줍니다.
### 데이터프레임은 자신이 가지고 있는 데이터의 행과 열의 크기에 대한 정보를 shape라는 속성에 저장하고 있습니다.
print(df.shape)
(행의크기, 열의크기)
### columns 속성을 사용하면 데이터프레임의 열 이름을 확인할 수 있습니다.
print(df.columns)
Index(['열이름1', '열이름2' ... ])
### 데이터프레임을 구성하는 값의 자료형은 데이터프레임의 dtypes 속성이나 info 메서드로 쉽게 확인할 수 있습니다.
print(df.dtypes)
print(df.info())
### 열단위로 데이터를 추출하기
country_df = df['country']
print(country_df.head())
### 행 단위 데이터 추출하기
속성
loc : 인덱스를 기준으로 행 데이터 추출
iloc : 행 번호를 기준으로 행 데이터 추출
### loc 속성에 대괄호를 이용하여 인덱스를 전달하면 행 데이터를 추출할 수 있습니다.
다음은 인덱스가 0인 행 데이터를 추출한 것입니다.
print(df.loc[0])
### 데이터프레임의 마지막 행 데이터를 추출하는 또 다른 방법으로 tail 메서드를 사용하는 방법이 있습니다.
다음과 같이 tail 메서드의 인자 n에 1을 전달하면 마지막 행의 데이터를 추출할 수 있습니다.
print(df.tail(n=1))
### loc, iloc 속성 자유자재로 사용하기
loc, iloc 속성을 좀 더 자유자재로 사용하려면 추출할 데이터의 행과 열을 지정하는 방법을 알아야 합니다.
즉, df.loc[[행], [열]]이나 df.iloc[[행], [열]]과 같은 방법으로 코드를 작성하면 됩니다.
이때 행과 열을 지정하는 방법은 슬라이싱 구문을 사용하는 방법과 range 메서드를 사용하는 방법이 있습니다.