2. 파이썬과 판다스(Pandas)의 시리즈와 데이터프레임으로 데이터 처리하기

문제 설명

자세히 보기

DataFrame을 Series와 Dict 자료구조로 생성하기

Series란..?

Pandas의 데이터프레임의 column에 해당합니다.
Index와 Data로 이루어지며, List에서 발전된 형태입니다.
from pandas import Series data_list = ['a','b','c','d','e'] alph_series = Series(data=data_list) print(alph_series)
Python
복사
0 a 1 b 2 c 3 d 4 e dtype: object
Plain Text
복사

DataFrame - Series

1.
Series 생성 및 index 지정
# 1. 일반적인 생성 pandas.Series(['apple', 'pear', 'orange']) # 0 apple # 1 pear # 2 orange # 2. 인덱스 직접 지정 pandas.Series(['apple', 'pear', 'orange'],index=[1,2,3]) # 1 apple # 2 pear # 3 orange # 3. 인덱스가 꼭 숫자일 필요는 없죠. pandas.Series(['apple', 'pear', 'orange'],index=['a','b','c']) # a apple # b pear # c orange
Python
복사
2.
Series to DataFrame
1.에서 만든 Seriesmy_series라는 변수에 저장했다고 가정하겠습니다.
my_frame = my_series.to_frame() # 0 # a apple # b pear # c orange
Python
복사
여기서 .columns를 통해 Column name을 설정하면 됩니다.
my_frame.columns = ['fruit'] # fruit # a apple # b pear # c orange
Python
복사

DataFrame - Dictionary

1.
dict 생성
my_dict = { 'index': ['a', 'b', 'c'], 'fruit': ['apple', 'pear', 'orange'] }
Python
복사
2.
dict to DataFrame
1.에서 만든 Seriesmy_series라는 변수에 저장했다고 가정하겠습니다.
my_frame = pandas.DataFrame(my_dict) # index fruit # 0 a apple # 1 b pear # 2 c orange
Python
복사
마찬가지로 .column이나 index인자를 이용해 직접 순서를 바꾸는 등 지정할 수 있습니다.

만들어진 데이터 저장하기

Pickle

DataFrame.to_pickle("path/file_name.pkl")
Python
복사

csv

DataFrame.to_csv("path/file_name.csv") # index=False 옵션을 통해 index를 미포함시킬 수 있습니다
Python
복사

tsv

DataFrame.to_csv("path/file_name.tsv")
Python
복사