본문 바로가기

Python & SQL63

[Pandas] 누락 데이터 처리 201217 Python Study Pandas의 Input으로 주기 위한 데이터는 깨끗하거나 형태가 단일한 경우가 극히 드물다. 이런 경우, 누락데이터를 처리해주어야한다. None, Nan(Not a Number) 등이 누락된 데이터를 말한다. 누락된 데이터의 특성을 한번 살펴보자 1+np.nan의 값은 nan으로 나오고 None값은 연산을 할경우 오류가 발생한다. 이를 볼때, None값을 가지는 배열에서 연산을 할 경우 오류를 발생할 것임을 알 수 있다. ■ NaN의 특성 1+ np.nan = nan 0 * np.nan = nan NaN이 포함된 객체의 모든 연산은 NaN으로 값을 출력하므로 기억해두면 좋다 ■Null값 연산 - isnull() / notnull() / dropna() / fillna.. 2021. 3. 1.
[Study w/ VS Code] Tensorflow - Day1 200704 Tensorflow study! (ㅇㅅㅇ?) 열공해보자 tensorflow version 1.x.x -> session tensorflow version 2.x -> eager mdoe version 확인 (tf.__version__) 1. Tensorflow? tensor는 배열을 의미한다 1차원 배열, 2차원 배열, ..., N차원 배열 x1은 np.array로 구현한 1차원 배열 [1,2,3] y1은 tf.constant로 구현한 1차원 배열 [1,2,3] 쉽게 보면, np.array == tf.constant인듯함 2. MNIST MNIST는 텐서플로우.keras에서 제공하는 기본 데이터셋(?) 중 하나이다. (※ 참고 : tensorflow 1.x → tensorflow 2버전으로 .. 2021. 3. 1.
[Pandas] groupby - Aggregation 1. groupby - 데이터 세트의 어떤 컬럼 혹은, 인덱스를 기준으로 데이터를 정렬할 때 groupby를 통해 쉽게 구현 가능 분할, 적용, 결합으로 이루어지며 한번 살펴보자 - 분할, 적용, 결합 - col1, col2를 가지는 DataFrame에서, col1을 기준으로 정렬하고 싶을 때, groupby를 사용한다. col1을 기준으로 df.group('col1') 표현할 수 있으며, col2로 정렬을 하려고 할땐, 마찬가지로, df.group('col2')로 표현이 가능. - 동시에 2개를 묶기위해서는 어떻게 해야하는가?? -> df.group(['col1', 'col2']) - Aggregation, transform, filter groupby에는 그룹데이터를 결합하기 전에 여러 유용한 연산을.. 2020. 12. 21.
728x90