Hello world!

pandas 3

[Python] 데이터를 빠르게 전처리 하는 방법 - (3) Numpy활용: np.where(), np.select()

1. np.where() condition이 2개인 경우 사용 (apply보다 속도가 훨씬 빠름), 이때, values를 쓸 경우 좀 더 speed up 가능(computation이 handle할 대상이 훨씬 줄어들기 때문) # fraud_reported가 'Y'인 경우 0, 아닌 경우 1 df['fraud_reported'] = np.where(df['fraud_reported'].values=='Y', 0, 1) 2. np.select() 한개의 column에 대해 적용할 condition이 2개보다 더 많을 경우 사용 conditions = [ df['auto_make'].str.startswith('A'), df['auto_make'].isin(['Saab', 'Mercedes', 'Dodge']..

Python 2022.06.05

[Python] 데이터를 빠르게 전처리 하는 방법 - (2) pandas 읽고 쓰기 비교 (pickle, npz, npy, feature, parquet)

다음과 같이 전처리 후, 생성된 데이터 프레임을 저장하는 방식은 여러가지가 있다. 이때 저장되는 타입별로 load하는 시간, 파일 용량이 각각 다르므로 가장 빠른것을 선택해 사용하는것을 추천한다. 1. npz, npy로 저장 dataframe에 있는 값들을 가져오고, key=value 값을 넣어준 후, npz형식으로 데이터 저장 import numpy as np # 저장 np.savez('test.npz',**{name:value for name,value in zip(list(df.columns), df.to_numpy().T)}) # data load (이후, 데이터프레임으로 변경하고 싶은 경우 allow_pickle True로 설정) data = np.load('test.npz', allow_pic..

Python 2022.06.04

[Python] 데이터를 빠르게 전처리 하는 방법 - (1) pandas

pandas에서 메모리 감소시키는 방법 1. 데이터 단위 줄이기 (dataframe은 기본적으로 64bit이므로 32bit 혹은 16bit로 줄여주기) bit의 범위를 바꿔주면 데이터에 따라 데이터의 정보를 잃을 수도 있음. 유의하여 진행 data[{column_name}] = data[{column_name}].astype(np.int32) 2. dataframe을 numpy로 접근해서 사용 from tqdm import tqdm # 모든 행값 출력 for rows in tqdm(df.to_numpy(), total=len(df), position=0, leave=True): print(rows)

Python 2022.06.03