DataScience/통계-선형대수
[통계스터디]1주차_확률이란?
1장 _ 확률이란 목차 수학의 입장 세 개의 문(몬티 홀 문제) - 비행선 시점 세 조합(Ω, F, P) - 신의 관점 확률변수 확률분포 실전용 축약법 Ω는 배후 1.1 수학의 입장 확률이란 무엇인가? → “다음 조건을 충족하는 세 조합(Ω, F, P)를 확률 공간이라고 부른다” 1장의 목표는 우리가 어딘지 모르게 가지고 있는 확률의 이미자와 이 추상적인 정의를 연결시키는 것 1.2 세 개의 문(몬티 홀 문제) - 비행선 시점 문제 설명 아래 그럼처럼 세 개의 문이 있다. 그 중 하나만 정답이고, 문을 열면 고급차가 있다. 나머지 둘은 오답으로 염소가 있다. 도전자는 세개의 문 중에서 하나만 선택할 수 있다. 사회자는 선택받지 못한 문 중에서 오답을 하나 열어 염소를 보여주면서 선택을 바꿀지 안바꿀지 다..
분산(Variance), 표준편차, 공분산(Covariance), 상관계수, Span, 기저(Basis), Rank
◎ 분산(Variance) 분산(variance)은 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다. 분산은, 데이터가 얼마나 퍼져있는지를 측정하는 방법입니다. 이는 각 값들의 평균으로부터 차이의 제곱 평균입니다. 즉, 분산을 구하기 위해서는 일반적으로 평균을 먼저 계산하여야 합니다. - 모분산 σ2은 모집단의 분산이다. 관측값에서 모평균을 빼고 그것을 제곱한 값을 모두 더하여 전체 데이터 수 n으로 나눈 것이다. - 표본분산 s2은 표본의 분산이다. 관측값에서 표본 평균을 빼고 제곱한 값을 모두 더한 것을 n-1로 나눈 것이다. ◎ 표준편차 분산을 구하는 ..
벡터와 매트릭스, 스칼라, Determinant, Cramer's rule
◎ 벡터란?선형대수의 기본 조각은 벡터이며 이러한 벡터를 우리가 무엇인지 아는 것이 굉장히 중요하다.하지만 벡터를 생각하는 세가지 관점이 존재한다.물리학 : 방향을 나타내는 물리량컴퓨터과학 : 순차리스트이며 이러한 성질을 이용해서 여러가지 데이터를 모델링한다.수학 : 수학에서의 벡터는 이들 모두를 포함하는 개념으로 (벡터합, 스칼라 곱)이라는 개념이 성립하면 수학에서의 벡터이다. 벡터를 그릴때 위치는 중요하지 않다. 왜냐하면 위치를 바꾸어도 벡터의 크기와 방향은 변하지 않기 때문이다. 또 다른 말로는 벡터를 다른곳으로 이동(Translation)해도 그 벡터의 의미는 변하지 않는다.두 벡터가 길이가 같고 같은 방향을 가르킬 때 그 두 벡터를 서로 상등(Equal)하다 라고 할 수있다.- 벡터의 크기벡터의..
통계학 기초 _ 조건부 확률, 베이즈 정리
◎ 조건부 확률(The Law of Conditional Probability) 한 사건이 일어났다는 전제 하에서 다른 사건이 일어날 확률 전체 사각형이 모든 가능한 확률 공간이고, A는 왼쪽 원, B는 오른쪽 원이며 그 교집합이 가운데 부분이다. 위의 식에 P(B)를 양변에 곱하면, P(A|B)P(B)=P(A∩B) 와 같은 식을 얻을 수 있으며, 이는 곧 P(A|B)=∑nP(A∩Bn)를 의미한다. 이는, B라는 정보가 주어진 상황에서 A의 확률은 B와 교집합들의 합으로 구성 되어 있다는 것을 이해 할 수 있다. ◎ 베이즈 정리 우선 베이즈 정리의 공식부터 확인해보도록 하자. 베이즈 정리의 공식은 아래 식과 같다. 사전확률은 내가 알고있는 지식으로부터 얻어진 특정 사건의 확률 사후확률은 특정 사건이 일어..
통계학 기초_독립표본 T-검정, Type of Error, 카이제곱검정_One sample 카이검정, Two sample 카이검정, ANOVA분석
◎ T-검정이란? T- 검정은 모집단의분산이나표준편차를 알지 못할 때, 표본으로부터 추정된 분산이나 표준편차를 이용하여 두 모집단의 평균의 차이를 알아보는 검정 방법이다. 집단의 수는 최대 2개까지 비교 가능하며 3개 이상인 경우 분산분석(ANOVA)를 사용한다. ▷ T-검정의 가정 1)종속변수가 양적 변수일 때 2)모집단의 분산이나 표준편차를 알지 못할 때 3)모집단의 분포가 정규분포일 때 - 가정 1)독립성: 독립변수의 그룹 군은 서로 독립적 이여야 한다. 2)정규성: 독립변수에 따른 종속변수는 정규분포를 만족해야한다. 3)등분산성: 독립변수에 따른 종속변수 분포의 분산은 각 군마다 동일하다. 즉 t-test는특정한 조건에서그룹의 평균을 비교하기 위한 가설검정 방법이라는 것 입니다. ◎ Type of..
통계학 기초_Effective Sampling, 가설 검정, Student T-test(독립T검정)_One Sample t-test, Two Sample T-test
나는 통계학과지만 AI부트캠프를 통해 전공수업 때 이해 못했던 부분을 이해했던 부분도 있었다. 그리고 까먹었던 개념들을 다시 기억속에서 살려낸다고 힘들었다. 다시 까먹지 않기 위해서 블로그에 오늘 공부한 지식들을 글로 남긴다!! ◇ 통계학이란? 불확실한 미래는 다가올 미래에 대한 확률을 계산함으로써 최선의 대응을 할 수 있는 것이고, 불확실한 정보는 그 정보가 어떤 현상에서 나왔을지에 대한 확률을 계산함으로써 최선의 판단을 할 수 있는 것이다. 이러한 확률은 홀로 존재하는 것이 아니라 데이터와 만나서 구체적으로 계산되어야 유용해질 텐데 이에 대한 과학적 방법을 연구하는 학문이 통계학이다. ▶ Effective Sampling(효과적 표본추출) 우리는 가설검정을 하기위해서 전수조사를 해야 하지만 시간적, ..