본문 바로가기

pandas2

[Pandas] 누락 데이터 처리 201217 Python Study Pandas의 Input으로 주기 위한 데이터는 깨끗하거나 형태가 단일한 경우가 극히 드물다. 이런 경우, 누락데이터를 처리해주어야한다. None, Nan(Not a Number) 등이 누락된 데이터를 말한다. 누락된 데이터의 특성을 한번 살펴보자 1+np.nan의 값은 nan으로 나오고 None값은 연산을 할경우 오류가 발생한다. 이를 볼때, None값을 가지는 배열에서 연산을 할 경우 오류를 발생할 것임을 알 수 있다. ■ NaN의 특성 1+ np.nan = nan 0 * np.nan = nan NaN이 포함된 객체의 모든 연산은 NaN으로 값을 출력하므로 기억해두면 좋다 ■Null값 연산 - isnull() / notnull() / dropna() / fillna.. 2021. 3. 1.
[Pandas] groupby - Aggregation 1. groupby - 데이터 세트의 어떤 컬럼 혹은, 인덱스를 기준으로 데이터를 정렬할 때 groupby를 통해 쉽게 구현 가능 분할, 적용, 결합으로 이루어지며 한번 살펴보자 - 분할, 적용, 결합 - col1, col2를 가지는 DataFrame에서, col1을 기준으로 정렬하고 싶을 때, groupby를 사용한다. col1을 기준으로 df.group('col1') 표현할 수 있으며, col2로 정렬을 하려고 할땐, 마찬가지로, df.group('col2')로 표현이 가능. - 동시에 2개를 묶기위해서는 어떻게 해야하는가?? -> df.group(['col1', 'col2']) - Aggregation, transform, filter groupby에는 그룹데이터를 결합하기 전에 여러 유용한 연산을.. 2020. 12. 21.