pandas
[colab] 코랩에서 pandas로 데이터 불러오기(csv,json)
pandas로 데이터 불러오기 코랩으로 데이터분석이나 인공지능을 하기 위해서는 데이터 불러오는 것이 제일 먼저해야하는 작업이다. 이번 글에는 csv,json파일을 불러오는 방법에 대해서 소개한다. 파이썬을 통해 데이터 분석이나 인공지능을 작업할 때 pandas를 빼놓고 이야기할 수 없다. 코랩에서 pandas를 통해 데이터를 불러오는 방법을 알아보자 데이터 예시데이터는 코랩에 내장되어있는 데이터를 활용한다. 코랩 sample폴더에 json, csv파일이 들어있다. 경로 : content/sample 1. csv 파일 불러오기(read_csv) data_path : /content/sample_data/california_housing_test.csv import pandas as pd df_csv = p..
통계학 기초 _ 조건부 확률, 베이즈 정리
◎ 조건부 확률(The Law of Conditional Probability) 한 사건이 일어났다는 전제 하에서 다른 사건이 일어날 확률 전체 사각형이 모든 가능한 확률 공간이고, A는 왼쪽 원, B는 오른쪽 원이며 그 교집합이 가운데 부분이다. 위의 식에 P(B)를 양변에 곱하면, P(A|B)P(B)=P(A∩B) 와 같은 식을 얻을 수 있으며, 이는 곧 P(A|B)=∑nP(A∩Bn)를 의미한다. 이는, B라는 정보가 주어진 상황에서 A의 확률은 B와 교집합들의 합으로 구성 되어 있다는 것을 이해 할 수 있다. ◎ 베이즈 정리 우선 베이즈 정리의 공식부터 확인해보도록 하자. 베이즈 정리의 공식은 아래 식과 같다. 사전확률은 내가 알고있는 지식으로부터 얻어진 특정 사건의 확률 사후확률은 특정 사건이 일어..
pandas기초 _ 데이터 전처리(합치기(concat, merge), Groupby)
◎ pandas로 데이터 합치기 우리가 효과적인 데이터 분석을 하기 위해서는 여러개의 파일을 하나로 합치는 것이 필요하다. pd.concat() -> concatenate pd.merge -> Merge ▷ Concat(concatenate) concat은 '더한다' 혹은 '붙인다'라는 의미로 생각하면 이해가 편하다. 예를 들어, 2개의 문자열을 + 연산자를 이용해 "붙일" 수 있다. data.frame도 열이나 행을 기준으로 더할 수 있습니다. 간단한 예시를 보자. 인덱스가 같은경우 열방향의 병합이 default(행방향으로 하려면 axis=1 옵션추가 import pandas as pd df1 = pd.DataFrame([['A', 'B'], ['C', 'D'],columns=list('1','2'))..
pandas기초 _ Feature Engineering(String replace, Apply 사용법)
◎ Feature Engineering이란 Feature Engineering 은 도메인 지식과 창의성을 바탕으로, 데이터셋에 존재하는 Feature들을 재조합하여 새로운 Feature를 만드는 것이다. 위 그림처럼 2개의 feature를 가진 데이터가 있다면, 해당 feature를 조합하여 (+) 새로운 feature를 만들어 낸 다음, 이를 분석에 사용 할 수 있을 것이다. 통계 분석 혹은 머신러닝, 더 나아가 딥러닝까지 대부분의 분석은 데이터에 있는 패턴을 인식하고, 해당 패턴들을 바탕으로 예측을 하기 때문에, 더 좋은 성능을 위하여 더 새롭고, 더 의미있는 패턴을 제공하는 것이 궁극적인 Feature engineering의 목적이다. - 데이터 불러오기 import pandas as pd df =..
pandas기초 _ 데이터 전처리(EDA란, Data Preprocessing)
◎ Pandas로 데이터 셋을 불러오기 - Description을 통해 데이터셋에 대한 정보를 파악한다. 행과 열의 수 열에 헤더가 있는지 ("데이터 이름"이 있는지?) 결측 데이터 (Missing data)가 있는지 확인 원본의 형태를 확인하기 : 우리가 기대하던 형태가 아닐 수도 있다. 데이터셋을 확인하는 방법. (Colab 에서 read_csv) import pandas as pd # ktng_data_url = 'https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/kt%26g/kt%26g_0.csv' # pandas라이브러리의 read_csv로 csv파일 변수에 저장 df = pd.read_csv(ktng_data_url) df.head() 칼럼 추..