1. 문제 정의와 데이터셋 수집 입력과 출력이 무엇인지, 어떤 데이터를 사용할 것인지 2. 성공 지표 선택 성공은 무엇인가를 정의 성공의 지표가 모델이 최적화할 손실 함수를 선택하는 기준이 됨 3. 모델 평가 방법 선택 데이터를 훈련, 검증, 테스트 세트로 나눔 홀드아웃 검증 세트 분리: 데이터가 풍부할 때 사용 K-겹 교차 검증: 홀드아웃 검증을 사용하기에 샘플의 수가 너무 적을 때 사용 반복 K-겹 교차 검증: 데이터가 적고 매우 정확한 모델 평가가 필요할 때 사용 선택할 때 유의해야할 사항: 대표성 있는 데이터, 시간의 방향, 데이터 중복 4. 데이터 준비 데이터 전처리 벡터화 정규화 누락된 값 다루기 특성 추출 5. 기본보다 나은 모델 훈련하기 통계적 검정력을 달성하는 것 아주 단순한 모델보다 나..