데이터분석
pandas기초 _ 데이터 전처리(합치기(concat, merge), Groupby)
◎ pandas로 데이터 합치기 우리가 효과적인 데이터 분석을 하기 위해서는 여러개의 파일을 하나로 합치는 것이 필요하다. pd.concat() -> concatenate pd.merge -> Merge ▷ Concat(concatenate) concat은 '더한다' 혹은 '붙인다'라는 의미로 생각하면 이해가 편하다. 예를 들어, 2개의 문자열을 + 연산자를 이용해 "붙일" 수 있다. data.frame도 열이나 행을 기준으로 더할 수 있습니다. 간단한 예시를 보자. 인덱스가 같은경우 열방향의 병합이 default(행방향으로 하려면 axis=1 옵션추가 import pandas as pd df1 = pd.DataFrame([['A', 'B'], ['C', 'D'],columns=list('1','2'))..
pandas기초 _ Feature Engineering(String replace, Apply 사용법)
◎ Feature Engineering이란 Feature Engineering 은 도메인 지식과 창의성을 바탕으로, 데이터셋에 존재하는 Feature들을 재조합하여 새로운 Feature를 만드는 것이다. 위 그림처럼 2개의 feature를 가진 데이터가 있다면, 해당 feature를 조합하여 (+) 새로운 feature를 만들어 낸 다음, 이를 분석에 사용 할 수 있을 것이다. 통계 분석 혹은 머신러닝, 더 나아가 딥러닝까지 대부분의 분석은 데이터에 있는 패턴을 인식하고, 해당 패턴들을 바탕으로 예측을 하기 때문에, 더 좋은 성능을 위하여 더 새롭고, 더 의미있는 패턴을 제공하는 것이 궁극적인 Feature engineering의 목적이다. - 데이터 불러오기 import pandas as pd df =..
pandas기초 _ 데이터 전처리(EDA란, Data Preprocessing)
◎ Pandas로 데이터 셋을 불러오기 - Description을 통해 데이터셋에 대한 정보를 파악한다. 행과 열의 수 열에 헤더가 있는지 ("데이터 이름"이 있는지?) 결측 데이터 (Missing data)가 있는지 확인 원본의 형태를 확인하기 : 우리가 기대하던 형태가 아닐 수도 있다. 데이터셋을 확인하는 방법. (Colab 에서 read_csv) import pandas as pd # ktng_data_url = 'https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/kt%26g/kt%26g_0.csv' # pandas라이브러리의 read_csv로 csv파일 변수에 저장 df = pd.read_csv(ktng_data_url) df.head() 칼럼 추..