데이터분석

    ML _ 교차검증(k-fold, Randomized Search CV, GridSearchCV)

    ◎ 교차검증 지금까지는 데이터를 훈련/검증/테스트 세트로 나누어 학습을 진행해 왔습니다.(이 방법은 hold-out 교차검증 이라고 합니다.) 이 방법은 어떤 문제점을 가지고 있을까요? 학습에 사용가능한 데이터가 충분하다면 문제가 없겠지만, 훈련세트의 크기가 모델학습에 충분하지 않을 경우 문제가 될 수 있습니다. 검증세트 크기가 충분히 크지 않다면 예측 성능에 대한 추정이 부정확할 것입니다. 이것 외에 다른 문제점도 있습니다. 여러분은 앞으로 수많은 기계학습 알고리즘을 사용할 것인데 모든 문제에 적용가능한 최고의 학습 모델은 없다는 것을 알고 계시지요? 우리 문제를 풀기위해 어떤 학습 모델을 사용해야 할 것인지? 어떤 하이퍼파라미터를 사용할 것인지? 이러한 문제가 모델선택(Model selection) ..

    Project : 다음 분기에 어떤 게임을 설계해야 할까?

    # 추후 공부하시는 사람들의 공부에 방해가 될 수도 있으니 코드를 지우도록 하겠습니다. 혹시 코드가 궁금하시면 댓글이나 이메일로 연락주세요!! E-mail : rnjswodn2443@naver.com 목차 데이터 확인 / 전처리 가설검정 시각화 결론 및 시사점 메인 가설 1 : 지역에 따라서 선호하는 게임 장르가 다를까? 메인 가설 2 : 게임의 트렌드가 있을까? 메인 가설 3 : 출고량이 놓은 게임에 대한 분석 및 시각화 프로세스 가설 1 : 지역에 따라서 선호하는 게임 장르가 다를까? 지역에 마다 판매된 장르의 평균이 유의미한 차이가 있는지 검증(ANOVA분석) 차이가 있다면 어떻게 차이가 있는지 시각화(bar차트) 가설 2 : 게임의 트렌드가 있을까 시간에 따른 장르별 판매량의 차이가 있을까?(li..

    통계학 기초 _ 조건부 확률, 베이즈 정리

    ◎ 조건부 확률(The Law of Conditional Probability) 한 사건이 일어났다는 전제 하에서 다른 사건이 일어날 확률 전체 사각형이 모든 가능한 확률 공간이고, A는 왼쪽 원, B는 오른쪽 원이며 그 교집합이 가운데 부분이다. 위의 식에 P(B)를 양변에 곱하면, P(A|B)P(B)=P(A∩B) 와 같은 식을 얻을 수 있으며, 이는 곧 P(A|B)=∑nP(A∩Bn)를 의미한다. 이는, B라는 정보가 주어진 상황에서 A의 확률은 B와 교집합들의 합으로 구성 되어 있다는 것을 이해 할 수 있다. ◎ 베이즈 정리 우선 베이즈 정리의 공식부터 확인해보도록 하자. 베이즈 정리의 공식은 아래 식과 같다. 사전확률은 내가 알고있는 지식으로부터 얻어진 특정 사건의 확률 사후확률은 특정 사건이 일어..

    통계학 기초_독립표본 T-검정, Type of Error, 카이제곱검정_One sample 카이검정, Two sample 카이검정, ANOVA분석

    ◎ T-검정이란? T- 검정은 모집단의분산이나표준편차를 알지 못할 때, 표본으로부터 추정된 분산이나 표준편차를 이용하여 두 모집단의 평균의 차이를 알아보는 검정 방법이다. 집단의 수는 최대 2개까지 비교 가능하며 3개 이상인 경우 분산분석(ANOVA)를 사용한다. ▷ T-검정의 가정 1)종속변수가 양적 변수일 때 2)모집단의 분산이나 표준편차를 알지 못할 때 3)모집단의 분포가 정규분포일 때 - 가정 1)독립성: 독립변수의 그룹 군은 서로 독립적 이여야 한다. 2)정규성: 독립변수에 따른 종속변수는 정규분포를 만족해야한다. 3)등분산성: 독립변수에 따른 종속변수 분포의 분산은 각 군마다 동일하다. 즉 t-test는특정한 조건에서그룹의 평균을 비교하기 위한 가설검정 방법이라는 것 입니다. ◎ Type of..

    통계학 기초_Effective Sampling, 가설 검정, Student T-test(독립T검정)_One Sample t-test, Two Sample T-test

    나는 통계학과지만 AI부트캠프를 통해 전공수업 때 이해 못했던 부분을 이해했던 부분도 있었다. 그리고 까먹었던 개념들을 다시 기억속에서 살려낸다고 힘들었다. 다시 까먹지 않기 위해서 블로그에 오늘 공부한 지식들을 글로 남긴다!! ◇ 통계학이란? 불확실한 미래는 다가올 미래에 대한 확률을 계산함으로써 최선의 대응을 할 수 있는 것이고, 불확실한 정보는 그 정보가 어떤 현상에서 나왔을지에 대한 확률을 계산함으로써 최선의 판단을 할 수 있는 것이다. 이러한 확률은 홀로 존재하는 것이 아니라 데이터와 만나서 구체적으로 계산되어야 유용해질 텐데 이에 대한 과학적 방법을 연구하는 학문이 통계학이다. ▶ Effective Sampling(효과적 표본추출) 우리는 가설검정을 하기위해서 전수조사를 해야 하지만 시간적, ..

    기초수학 코딩 _ 미분이란, 미분 with python, 미분 코딩연습

    ◎ 미분이란미분이란 단어는 작을 미(微)와 나눌 분(分). "작게 나눈다"라는 의미이다.무엇을 작게 나누는 것일까? 바로 함수이다. 미분이라고 하면 어렵다고 생각하는 사람들이 많지만 인공지능에서의 미분은 생각보다 간단하다.왜? 어차피 계산은 컴퓨터가 하니까ㅎ미분이 왜 필요한지만 알고 도구(컴퓨터)를 사용하는 법만 익히면 문제 없다.미분이랑 인공지능을 무슨 관계가 있을까?인공지능이란 컴퓨터가 사람처럼 주체적으로 결정하고 판단할 수 있는 지능을 부여하는 기술이다. 하지만 컴퓨터는 숫자만 이해하고 숫자로만 말 할 수 있다. 즉, 컴퓨터 자체가 수학이라는 뜻이다. 그럼 인공지능에서 미분이 하는 역할은?인공지능도 판단할때 실수(오류)라는 것을 한다. 이 때 이 실수(오류)를 0에 수렴하게 하는 방법으로 미분을 사..