전처리

    pandas기초 _ Feature Engineering(String replace, Apply 사용법)

    ◎ Feature Engineering이란 Feature Engineering 은 도메인 지식과 창의성을 바탕으로, 데이터셋에 존재하는 Feature들을 재조합하여 새로운 Feature를 만드는 것이다. 위 그림처럼 2개의 feature를 가진 데이터가 있다면, 해당 feature를 조합하여 (+) 새로운 feature를 만들어 낸 다음, 이를 분석에 사용 할 수 있을 것이다. 통계 분석 혹은 머신러닝, 더 나아가 딥러닝까지 대부분의 분석은 데이터에 있는 패턴을 인식하고, 해당 패턴들을 바탕으로 예측을 하기 때문에, 더 좋은 성능을 위하여 더 새롭고, 더 의미있는 패턴을 제공하는 것이 궁극적인 Feature engineering의 목적이다. - 데이터 불러오기 import pandas as pd df =..

    pandas기초 _ 데이터 전처리(EDA란, Data Preprocessing)

    ◎ Pandas로 데이터 셋을 불러오기 - Description을 통해 데이터셋에 대한 정보를 파악한다. 행과 열의 수 열에 헤더가 있는지 ("데이터 이름"이 있는지?) 결측 데이터 (Missing data)가 있는지 확인 원본의 형태를 확인하기 : 우리가 기대하던 형태가 아닐 수도 있다. 데이터셋을 확인하는 방법. (Colab 에서 read_csv) import pandas as pd # ktng_data_url = 'https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/kt%26g/kt%26g_0.csv' # pandas라이브러리의 read_csv로 csv파일 변수에 저장 df = pd.read_csv(ktng_data_url) df.head() 칼럼 추..