ML _ 교차검증(k-fold, Randomized Search CV, GridSearchCV)

◎ 교차검증 지금까지는 데이터를 훈련/검증/테스트 세트로 나누어 학습을 진행해 왔습니다.(이 방법은 hold-out 교차검증 이라고 합니다.) 이 방법은 어떤 문제점을 가지고 있을까요? 학습에 사용가능한 데이터가 충분하다면 문제가 없겠지만, 훈련세트의 크기가 모델학습에 충분하지 않을 경우 문제가 될 수 있습니다. 검증세트 크기가 충분히 크지 않다면 예측 성능에 대한 추정이 부정확할 것입니다. 이것 외에 다른 문제점도 있습니다. 여러분은 앞으로 수많은 기계학습 알고리즘을 사용할 것인데 모든 문제에 적용가능한 최고의 학습 모델은 없다는 것을 알고 계시지요? 우리 문제를 풀기위해 어떤 학습 모델을 사용해야 할 것인지? 어떤 하이퍼파라미터를 사용할 것인지? 이러한 문제가 모델선택(Model selection) ..

→2021.06.22

DataScience/인공지능

ML _ 모델 성능 평가지표

◎ 머신러닝 모델 성능 평가지표 Condusion Matrix 정밀도, 재현율 ROC curve, AUC 점수 분류기의 정확한 성능을 판단하기 위해서는 정확도 외에 다른 평가지표를 같이 사용해야 한다. 특히 정밀도(precision), 재현율(recall) 을 살펴보아야 한다. Scikit-Learn User Guide — Classification Report 정확도(Accuracy)는 전체 범주를 모두 바르게 맞춘 경우를 전체 수로 나눈 값이다. 정밀도(Precision)는 Positive로 예측한 경우 중 올바르게 Positive를 맞춘 비율이다. 재현율(Recall, Sensitivity)은 실제 Positive인 것 중 올바르게 Positive를 맞춘 것의 비율이다. F1점수(F1 score)는..

→2021.06.21

IT이야기

Project : 다음 분기에 어떤 게임을 설계해야 할까?

# 추후 공부하시는 사람들의 공부에 방해가 될 수도 있으니 코드를 지우도록 하겠습니다. 혹시 코드가 궁금하시면 댓글이나 이메일로 연락주세요!! E-mail : rnjswodn2443@naver.com 목차 데이터 확인 / 전처리 가설검정 시각화 결론 및 시사점 메인 가설 1 : 지역에 따라서 선호하는 게임 장르가 다를까? 메인 가설 2 : 게임의 트렌드가 있을까? 메인 가설 3 : 출고량이 놓은 게임에 대한 분석 및 시각화 프로세스 가설 1 : 지역에 따라서 선호하는 게임 장르가 다를까? 지역에 마다 판매된 장르의 평균이 유의미한 차이가 있는지 검증(ANOVA분석) 차이가 있다면 어떻게 차이가 있는지 시각화(bar차트) 가설 2 : 게임의 트렌드가 있을까 시간에 따른 장르별 판매량의 차이가 있을까?(li..

→2021.06.13

DataScience/통계-선형대수

기초수학 코딩 _ 미분이란, 미분 with python, 미분 코딩연습

◎ 미분이란미분이란 단어는 작을 미(微)와 나눌 분(分). "작게 나눈다"라는 의미이다.무엇을 작게 나누는 것일까? 바로 함수이다. 미분이라고 하면 어렵다고 생각하는 사람들이 많지만 인공지능에서의 미분은 생각보다 간단하다.왜? 어차피 계산은 컴퓨터가 하니까ㅎ미분이 왜 필요한지만 알고 도구(컴퓨터)를 사용하는 법만 익히면 문제 없다.미분이랑 인공지능을 무슨 관계가 있을까?인공지능이란 컴퓨터가 사람처럼 주체적으로 결정하고 판단할 수 있는 지능을 부여하는 기술이다. 하지만 컴퓨터는 숫자만 이해하고 숫자로만 말 할 수 있다. 즉, 컴퓨터 자체가 수학이라는 뜻이다. 그럼 인공지능에서 미분이 하는 역할은?인공지능도 판단할때 실수(오류)라는 것을 한다. 이 때 이 실수(오류)를 0에 수렴하게 하는 방법으로 미분을 사..

→2021.05.20

ML _ 교차검증(k-fold, Randomized Search CV, GridSearchCV)

ML _ 모델 성능 평가지표

Project : 다음 분기에 어떤 게임을 설계해야 할까?

기초수학 코딩 _ 미분이란, 미분 with python, 미분 코딩연습

티스토리툴바