본캠프/TIL ♨

[52일차] 금융 클러스터링 프로젝트 5일차

yssummer 2025. 4. 24. 22:35

 

250418

🌠오늘 느낀 점

👉도메인 지식을 인풋하면서 전처리를 하자~

스크럼 페이지 잊지 말고 쓰자. 

 

🎯 오늘 우선순위

   🫀  프로젝트 5일차 일정✔️

아래 전체 오늘 한 리스트, 팀원 전체 이 흐름 비슷할 듯하고,

볼드체 해놓은 게 내일 더 보충할 부분임. 

 

1)세 개 데이터셋을 머지

2) $ 표시 제거
3)mcc기반 category 추가
4) merchant_state에 online 추가 및 online과 offline으로 범주화
5) 그룹바이 : 클라이언트 아이디별로 수치형 컬럼을 평균 등 적합한 거 생각해서 바꿀 것
6) 수치형 컬럼 분포 확인
7) 로그변환할 컬럼 선정 및 로그변환
8) 범주형 데이터 레이블 인코딩진행
9) 수치형 +범주형 데이터 표준화 진행
10) pca 2 or 3
11)엘보우 포인트/ distance map 시각화

 

⌛시간활용 기록

07:00 - 08:00    
08:00 - 09:00 출첵, 외출  
09:00 - 10:00 병원 외출  
10:00 - 11:00 병원 외출 어떤 데이터가 있는지 확인 & 후보 탐색
11:00 - 12:30 병원 외출    
  저엄심  
14:00 - 15:00 🫀 프로젝트 코드 손보기  
  🫀 프로젝트 코드 손보기  
16:00 - 17:00 🫀 프로젝트 코드 손보기  
주17:00 - 18:00 🫀 엘보우 플롯 체크  
18:00 - 19:00 저녁밥  
19:00 - 20:30 🫀  팀 회의  
20:30 - 21:00 🫀 엘보우 플롯 체크  
21:00 - 22:00 TIL 작성  
22:00 - 23:00 잘준비  
 

내일 할 일 :

오늘은 엘로우 플롯까지 봤고 내일은 그룹바이 할 거 생각해본 후, k 값 입력해서 돌려보고 엑셀에 기록해야지~





🫀프로젝트 메모

🔵 프로젝트의 최종목표는 무엇이어야 하는가.... 를 생각.

 

 

🧩 어디까지가 비지도학습 전처리이고 어디서부터가 지도학습 라벨링인가

두 튜터님의 조언을 듣고

컬럼을 좀 추려내고 시작해도

안하고 하는 것과 크게 다르지 않다는 것을 알게 되었다.

어차피 여러번 하게 될거라서....

그리고 최종 목표는 이 지점보다 훨씬 더 나아간 지점이라는 것을 상기할 수 있었다.

여러번 해보고 나서 나중에 군집 하나 고르고 그에 대해서 논리적으로 ppt 전개 설명할 수 있게 되어야할 것이다.

따라서 

각자의 실험정신과 아이디어에 맞게 각자 원하는만큼 돌려보고, 기록을 잘 병행하기로 생각을 맞추었다.

우리가 다루는 데이터셋은 튜터님이 비지도학습을 연습해보라고 한번 정제해서 주신 것일거고 우리는 첫 실습으로서 도메인에 관한 경험이 없는 게 확실하니까 이렇게 처음 할 때는 처음에 가능하면 모든 컬럼을 넣고 k mean 한번 돌려보면 좋을 것 같다는 것으로 결론 났다.