반응형
pandas 판다스
구조화된 데이터의 처리를 지원하는 파이썬 라이브러리
파이썬계의 엑셀
시리즈 Series - 데이터프레임 중 하나의 column에 해당하는 데이터의 모음
시리즈는 인덱스와 데이터로 이뤄짐
리스트에서 더 발전된 형태
데이터프레임 DataFrame - 시리즈들의 모음
넘파이를 기본으로 사용하여 넘파이에서 사용하는 기능을 사용할 수 있다.
pandas의 Series를 import 한다
from pandas import Series
리스트로 시리즈 생성
data_list = [1, 2, 3, 4, 5]
series = Series(data=data_list)
series
0 1
1 2
2 3
3 4
4 5
dtype: int64
data 인자에 리스트나 딕셔너리 데이터, index 인자에 인덱스 리스트를 넘겨 인덱스를 초기화 할 수 있다.
인덱스를 넣지 않으면 기본적으로 0부터 숫자로 매칭
data_list = [1, 2, 3, 4, 5]
index_list = ["a", "b", "c", "d", "e"]
series = Series(data=data_list, index=index_list)
series
a 1
b 2
c 3
d 4
e 5
dtype: int64
리스트로 시리즈 생성시 인덱스의 갯수와 데이터 리스트의 갯수가 맞지 않으면 오류 발생
data_list = [1,2,3,4,5]
index_list = ["a","b","c","d","e","f"]
series = Series(data=data_list, index=index_list)
series
ValueError: Length of passed values is 5, index implies 6
딕셔너리로 리스트 생성 시 자동으로 키는 인덱스, 값은 데이터로 초기화 된다.
data_dict = {"a":1,"b":2,"c":3,"d":4,"e":5}
series = Series(data=data_dict)
series
a 1
b 2
c 3
d 4
e 5
dtype: int64
dtype 인자로 데이터의 타입을 지정할 수 있다.
series = Series(data=data_dict, dtype=float)
series
a 1.0
b 2.0
c 3.0
d 4.0
e 5.0
dtype: float64
values로 값만 가져올 수 있다.
series.values
array([1., 2., 3., 4., 5.])
index로 인덱스만 가져올 수 있다.
series.index
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
딕셔너리로 시리즈 생성 시 index를 지정해주면 키값보다 지정한 인덱스를 더 우선시하며
리스트로 초기화 할 때와는 다르게 오류가 나지 않고 나머지 인덱스에 대해 NaN 값으로 채운다.
NaN은 Not a number로 null이나 None과 같은 의미
data_dict = {"a":1,"b":2,"c":3,"d":4,"e":5}
index_list = ["a","b","c","d","e","f","g"]
series = Series(data=data_dict, index=index_list)
series
a 1.0
b 2.0
c 3.0
d 4.0
e 5.0
f NaN
g NaN
dtype: float64
반응형
'파이썬 > Pandas' 카테고리의 다른 글
pandas 데이터 선택 selection (0) | 2019.08.09 |
---|
댓글