본캠프/TIL ♨

프로젝트 계획서를 완성하고 튜터님께 어려움 조언받은 날

yssummer 2025. 6. 10. 22:20

우리의 프로젝트 기획서를

여러 버전과 목표로 작성해보다가

하나로 땅땅땅 결정~

vip 마케팅 리텐션 개선과 고객 이탈률 개선을 위한 클러스터링(vip군집)과 모델링(이탈률예측)을 할 예정이다.

보고서까지 잘 작성해보는 걸 목표로 한다.

오늘 프로젝트 일정 수립 디테일하게 잡아보다가 저녁에 수업이 생겨서 마무리 못해서

내일 일정수립을 할 예정이고

클러스터링부터 착수를 할 건데

그에 필요한 EDA 방식을 튜터님께 조언을 받아서 알게 되었다.

데이터가 5개인데 각각 결측처리 조금 한 다음에 전체를 다 머지해서 거기서 eda를 해야겠다고 생각했는데

그렇게 해보니까 다 합쳤을경우 결측치도 많이 생겨나고 전처리도 완벽하지 않고 앞으로 eda하기 오히려 더 어려운 문제점에 봉착했다.

그래서 거기서부터 슬슬 헤매기 시작해서 튜터님께 여쭤본거였다.

튜터님께 프로젝트 기획서랑 데이터셋 보여드리니까 술술 답변을 해주셔서

고민이 싹 해결되었다.

 

1. 전처리 문제에 대해서 얻은 해결책은: 

vip를 찾아내기위한 클러스터링 과제이니까 5개 데이터셋중에서 유저 컬럼을 중심에 두게 된다. 이를 기준으로 2개데이터셋만 결합하는 식으로 먼저 전처리를 하라고 하셨다. 유저랑 붙일 수 있는 order데이터를 붙여서 처리한번 하는거다. 그리고 전처리 완료된 상태에서 파생변수를 만들어준다. 

또한 레스토랑 정보도 메뉴데이터랑 붙일 수 있어서 그 둘이 붙여서 처리 한번 한다. 여기서도 파생변수를 만들어준다.

이런식으로 조인을 할 수 있고 관련 있는 2개씩 붙여서 전처리를 한 다음에 그것들이 다 되면 

user 컬럼에다가 파생변수들을 다 붙여서 전처리 완료된 데이터셋을 만든다.

user에 대해서 파생변수들이 뾰족뾰족한 클러스터링을 해볼 수 있게 된다.

클러스터링은 여러 기법으로 해보기로 했다.

 

2. vip의 리텐션을 높이기 위해 군집분석을 하고 싶기도 하고, 이탈률을 예측해서 줄이는 작업도 하고 싶어서

계획에 넣어놨는데 머릿속이 깔끔하게 정리되지 않아서 막막했었다. 도메인 지식도 부족하고 말이다.

클러스터링은 비지도학습이고 이탈 분류 라벨링은 지도학습이니까

이 둘의 순서를 어떻게 잡아야할지 막막해서 이것도 여쭤보았는데

각각이 별개의 작업이라는 사실을 잘 짚어주셨고

각각 어떤 식으로 프로젝트를 하게 될 지 예시 설명도 해주셔서 머릿 속에 엉켜있던 것이 풀렸다.

클러스터링은 ,

표로 본다면 vip1,2,3,일반고객이 행이고 열이 이들 리텐션을 보고 저위험, 중위험, 고위험군으로 분류를 한거라면 그 분류에 따라 vip등급과 위험등급 두 요소가 반영된 각각에 맞는 전략을 써볼 수 있을 것이라는 예시를 하나 들어주셨다. 그 모든 군집에 대해 각기 접근할 수도 있고 가장 중요한 최고 vip에만 집중한 전략을 생각해볼 수도 있다.

분류는, 분류를 한 다음에 예측을 위해서 모델링을 적용하기로 했다. 리텐션 커브라는 것도 참고하라고 알려주셨다. 

기준은 우리가 데이터를 뜯어보면서 얻은 인사이트와 업계 현황에 따라서 정하면 된다.

 

클러스터링과 모델링을 동시간대에 진행할 수 있는지 아니면 순서대로 진행해야하는지 회의했다.

이어서 모델링의 적용 범위를 어디까지로 할 건지 합의하는 과정을 거쳤다.

병렬작업이 더 시간계획 잡기 안전할 것 같고 모델링을 이탈률만으로 해도 괜찮을 것 같아 병렬작업을 하자는 의견으로 기울었다. 

튜터님께 의견도 들어보고 판단 예정.
수요일은 어차피 전처리를 하는 날이니 이 과정이 아직 임박하지 않아서 질문시간인 목요일에 찾아가도 늦지 않은 상황.

상황을 맞게 요약한건지 잘 모르겠지만 이해한대로 적어본 것이다.

 

1. 병렬작업

1) VIP리텐션 --> 2) 클러스터링

1) 이탈률예측 --> 2) 이탈자 라벨링 후 분류모델 학습 --> 3) 모델링

 

2. 직렬작업 (순서 맞게 이해한건지 확신 없음..)

1) VIP리텐션 --> 2) 클러스터링 --> 3) 이탈률예측 --> 4) 이탈자 라벨링 후 분류모델 학습 --> 5) 모두 반영하여 모델링

 

 

 

오전스크럼 일정을 원래 안잡았다가 내일부터 10시에 잡아보기로 헀다.

 

취업 준비를 위한 2시간짜리 특강을 들었는데 너무 유익해서 토할 뻔 했다.

 

머신러닝 강의도 다시 보고 싶고 통계 강의도 다시 보고 싶고 라이브세션도 다 다시 뒤져보고 싶고 sql도 좀 더 연습하고 싶다는 생각이 든다.