통계학
통계학 기초 _ 조건부 확률, 베이즈 정리
◎ 조건부 확률(The Law of Conditional Probability) 한 사건이 일어났다는 전제 하에서 다른 사건이 일어날 확률 전체 사각형이 모든 가능한 확률 공간이고, A는 왼쪽 원, B는 오른쪽 원이며 그 교집합이 가운데 부분이다. 위의 식에 P(B)를 양변에 곱하면, P(A|B)P(B)=P(A∩B) 와 같은 식을 얻을 수 있으며, 이는 곧 P(A|B)=∑nP(A∩Bn)를 의미한다. 이는, B라는 정보가 주어진 상황에서 A의 확률은 B와 교집합들의 합으로 구성 되어 있다는 것을 이해 할 수 있다. ◎ 베이즈 정리 우선 베이즈 정리의 공식부터 확인해보도록 하자. 베이즈 정리의 공식은 아래 식과 같다. 사전확률은 내가 알고있는 지식으로부터 얻어진 특정 사건의 확률 사후확률은 특정 사건이 일어..
통계학 기초_독립표본 T-검정, Type of Error, 카이제곱검정_One sample 카이검정, Two sample 카이검정, ANOVA분석
◎ T-검정이란? T- 검정은 모집단의분산이나표준편차를 알지 못할 때, 표본으로부터 추정된 분산이나 표준편차를 이용하여 두 모집단의 평균의 차이를 알아보는 검정 방법이다. 집단의 수는 최대 2개까지 비교 가능하며 3개 이상인 경우 분산분석(ANOVA)를 사용한다. ▷ T-검정의 가정 1)종속변수가 양적 변수일 때 2)모집단의 분산이나 표준편차를 알지 못할 때 3)모집단의 분포가 정규분포일 때 - 가정 1)독립성: 독립변수의 그룹 군은 서로 독립적 이여야 한다. 2)정규성: 독립변수에 따른 종속변수는 정규분포를 만족해야한다. 3)등분산성: 독립변수에 따른 종속변수 분포의 분산은 각 군마다 동일하다. 즉 t-test는특정한 조건에서그룹의 평균을 비교하기 위한 가설검정 방법이라는 것 입니다. ◎ Type of..
통계학 기초_Effective Sampling, 가설 검정, Student T-test(독립T검정)_One Sample t-test, Two Sample T-test
나는 통계학과지만 AI부트캠프를 통해 전공수업 때 이해 못했던 부분을 이해했던 부분도 있었다. 그리고 까먹었던 개념들을 다시 기억속에서 살려낸다고 힘들었다. 다시 까먹지 않기 위해서 블로그에 오늘 공부한 지식들을 글로 남긴다!! ◇ 통계학이란? 불확실한 미래는 다가올 미래에 대한 확률을 계산함으로써 최선의 대응을 할 수 있는 것이고, 불확실한 정보는 그 정보가 어떤 현상에서 나왔을지에 대한 확률을 계산함으로써 최선의 판단을 할 수 있는 것이다. 이러한 확률은 홀로 존재하는 것이 아니라 데이터와 만나서 구체적으로 계산되어야 유용해질 텐데 이에 대한 과학적 방법을 연구하는 학문이 통계학이다. ▶ Effective Sampling(효과적 표본추출) 우리는 가설검정을 하기위해서 전수조사를 해야 하지만 시간적, ..
기초수학 코딩 _ 미분이란, 미분 with python, 미분 코딩연습
◎ 미분이란미분이란 단어는 작을 미(微)와 나눌 분(分). "작게 나눈다"라는 의미이다.무엇을 작게 나누는 것일까? 바로 함수이다. 미분이라고 하면 어렵다고 생각하는 사람들이 많지만 인공지능에서의 미분은 생각보다 간단하다.왜? 어차피 계산은 컴퓨터가 하니까ㅎ미분이 왜 필요한지만 알고 도구(컴퓨터)를 사용하는 법만 익히면 문제 없다.미분이랑 인공지능을 무슨 관계가 있을까?인공지능이란 컴퓨터가 사람처럼 주체적으로 결정하고 판단할 수 있는 지능을 부여하는 기술이다. 하지만 컴퓨터는 숫자만 이해하고 숫자로만 말 할 수 있다. 즉, 컴퓨터 자체가 수학이라는 뜻이다. 그럼 인공지능에서 미분이 하는 역할은?인공지능도 판단할때 실수(오류)라는 것을 한다. 이 때 이 실수(오류)를 0에 수렴하게 하는 방법으로 미분을 사..
pandas기초 _ Feature Engineering(String replace, Apply 사용법)
◎ Feature Engineering이란 Feature Engineering 은 도메인 지식과 창의성을 바탕으로, 데이터셋에 존재하는 Feature들을 재조합하여 새로운 Feature를 만드는 것이다. 위 그림처럼 2개의 feature를 가진 데이터가 있다면, 해당 feature를 조합하여 (+) 새로운 feature를 만들어 낸 다음, 이를 분석에 사용 할 수 있을 것이다. 통계 분석 혹은 머신러닝, 더 나아가 딥러닝까지 대부분의 분석은 데이터에 있는 패턴을 인식하고, 해당 패턴들을 바탕으로 예측을 하기 때문에, 더 좋은 성능을 위하여 더 새롭고, 더 의미있는 패턴을 제공하는 것이 궁극적인 Feature engineering의 목적이다. - 데이터 불러오기 import pandas as pd df =..