Pandas 시리즈 series 생성 및 기본

파이썬/Pandas|2019.08.09 08:32

pandas 판다스

구조화된 데이터의 처리를 지원하는 파이썬 라이브러리

파이썬계의 엑셀

 

시리즈 Series - 데이터프레임 중 하나의 column에 해당하는 데이터의 모음

시리즈는 인덱스와 데이터로 이뤄짐

리스트에서 더 발전된 형태

 

데이터프레임 DataFrame - 시리즈들의 모음

 

넘파이를 기본으로 사용하여 넘파이에서 사용하는 기능을 사용할 수 있다.

 

pandas의 Series를 import 한다

from pandas import Series

리스트로 시리즈 생성

data_list = [1, 2, 3, 4, 5]
series = Series(data=data_list)
series
0    1
1    2
2    3
3    4
4    5
dtype: int64

data 인자에 리스트나 딕셔너리 데이터, index 인자에 인덱스 리스트를 넘겨 인덱스를 초기화 할 수 있다.

인덱스를 넣지 않으면 기본적으로 0부터 숫자로 매칭

data_list = [1, 2, 3, 4, 5]
index_list = ["a", "b", "c", "d", "e"]
series = Series(data=data_list, index=index_list)
series
a    1
b    2
c    3
d    4
e    5
dtype: int64

리스트로 시리즈 생성시 인덱스의 갯수와 데이터 리스트의 갯수가 맞지 않으면 오류 발생

data_list = [1,2,3,4,5]
index_list = ["a","b","c","d","e","f"]
series = Series(data=data_list, index=index_list)
series
ValueError: Length of passed values is 5, index implies 6

딕셔너리로 리스트 생성 시 자동으로 키는 인덱스, 값은 데이터로 초기화 된다.

data_dict = {"a":1,"b":2,"c":3,"d":4,"e":5}
series = Series(data=data_dict)
series
a    1
b    2
c    3
d    4
e    5
dtype: int64

dtype 인자로 데이터의 타입을 지정할 수 있다.

series = Series(data=data_dict, dtype=float)
series
a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
dtype: float64

values로 값만 가져올 수 있다.

series.values
array([1., 2., 3., 4., 5.])

index로 인덱스만 가져올 수 있다.

series.index
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

딕셔너리로 시리즈 생성 시 index를 지정해주면 키값보다 지정한 인덱스를 더 우선시하며

리스트로 초기화 할 때와는 다르게 오류가 나지 않고 나머지 인덱스에 대해 NaN 값으로 채운다.

NaN은 Not a number로 null이나 None과 같은 의미

data_dict = {"a":1,"b":2,"c":3,"d":4,"e":5}
index_list = ["a","b","c","d","e","f","g"]
series = Series(data=data_dict, index=index_list)
series
a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
f    NaN
g    NaN
dtype: float64

 

'파이썬 > Pandas' 카테고리의 다른 글

pandas 데이터 선택 selection  (0) 2019.08.09
Pandas 시리즈 series 생성 및 기본  (0) 2019.08.09

댓글()