- 프로젝트 기본 정보
- 프로젝트 개요: 팀별로 데이터 분석 목표를 설정하고, 수집·정제·모델링·결과 해석까지 전 과정을 수행
- 분석 범위: 분류/회귀 기반 예측 모델 외에도 군집 분석(Clustering), 연관 분석, 차원 축소 등 다양한 기법을 활용해 인사이트 도출을 권장
- 알고리즘 제한: 강의에서 다룬 전통적 기계학습 알고리즘(추천/필터링 알고리즘, 판별[NN, LR, DT, RF 등], 클러스터링)을 활용하며, 딥러닝 알고리즘(RNN,CNN, LSTM 등 이후의 알고리즘)은 사용 금지
- 팀워크: 협업을 통해 데이터 분석 기획부터 구현, 해석까지의 역량을 종합적으로 강화하는 것을 목표로 함
- 단계별 발표 안내 (총 3회)
발표 방식 및 세부 시간 제한 등은 추후 이캠퍼스를 통해 공지 예정임
- 1차: Kick-off Presentation
- 데이터 이해 필수: 분석 기법보다 데이터 자체에 대한 정확한 이해가 최우선임, .도메인 분석(데이터가 발생하는 환경과 배경지식), 데이터 명세(Feature들, 데이터타입, 결측치 등 기본적 Data Profiling)
- 데이터 구조 및 활용 가능성을 충분히 파악하지 못할 경우 낮은 평가를 받을 수 있음
- 프로젝트 목표 정의, 데이터 설명, 전처리 계획, 활용 모델 개요 및 예상 결과를 포함 (아직까지 학습하지 않은 알고리즘(기계학습 등)을 적용하는 주제의 경우 강의자료를 미리 살펴보는 것을 추천)
- 2차: Interim Presentation
- 실제 수집 및 전처리 과정/결과, 데이터 기본 통계, 시각화 분석
- Exploratory Data Analysis (EDA): 시각화(Correlation Plot, Box Plot 등)를 통해 데이터 간의 상관관계와 이상치 파악
- Feature Engineering 계획: 파생 변수 생성, 데이터 인코딩, 스케일링 등 전처리 과정을 논리적으로 설명
- 분석 대상 데이터의 특성 재확인, 적용 알고리즘 및 실험 설계 개요, 향후 일정 공유
- 3차: Final Presentation
- 전체 개요, 최종 전처리 및 분석 결과, (경우에 따라)모델 간 성능 비교 분석
- 도출된 인사이트 그리고 이것을 어떻게 활용할 것인지 정
- 데이터의 부족함이나 방법론적 한계를 솔직하게 기술하고, 이를 극복하기 위한 향후 발전 방향 제시
- 별도의 최종보고서는 없으며 발표자료로 갈음함
- 데이터 및 분석 방법론 가이드
- 데이터 수집: Kaggle, 공공데이터포털, AI-hub, 빅카인즈, 특허 데이터, NTIS, Google Dataset 등 공신력 있는 플랫폼의 오픈 데이터를 적극 활용
- 구조가 단순하거나 데이터량이 부족한 데이터셋은 지양
- 이종 데이터를 연계할 경우 흥미로운 결과가 나올 수 있음(반드시 이종데이터를 활용하라는 말은 아님): 예를 들어, 기상데이터와 서울시 따릉이 대여 데이터를 날짜를 매개로 연결할 수 있음.
- 분석 모델 예시:
- 회귀/분류: 선형/로지스틱 회귀, 의사결정나무, 랜덤 포레스트, SVM, KNN 등
- 군집/기타: K-means, DBSCAN, PCA, LDA, 추천알고리즘(CF, ARM) 등
- 성능 평가: 알고리즘 특성에 맞는 지표 혹은 성능지표(Accuracy, F1-score, RMSE, 실루엣 계수 등)를 활용해 비교 및 해석을 수행
- 운영 및 평가 기준
- 순환 발표제: 팀원 간의 고른 참여를 위해 1, 2, 3차 발표자는 반드시 달라야 함. 각 발표는 1명이 진행함.
- 팀장의 역할: 팀장은 프로젝트 매니징(PM)의 핵심이므로, 발표자료 첫 페이지에 성명을 상단에 배치하고 기여도를 명확히 관리할 것
- 자료 제출 및 유의사항
- 파일 형식: 모든 발표 자료는 슬라이드 발표형, 애니메이션이 없는 PDF 형식으로만 제출 가능함
- 발표자료 첫페이지 구성:
- 프로젝트 코드: 팀의 색깔이나 팀프로젝트 컨셉을 반영한 고유 명사구 기재
- 팀원 명단: 팀장의 성명을 반드시 가장 상단에 배치할 것 (팀장의 역할을 중요하게 평가함)