오늘 한 거 모음 태블로 모음



준수튜터님께 질문폭발 후 정리.... 답변부터 정리.
제 마이크가 하나도 안들어가있어가지구, 제가 말한 내용을 생각나는대로 써볼게요, 튜터님 답변만 들어도 대ㅐ충 유추 되긴 하지만...글구 나머지는 제가 적은거 읽으면서 답변해주셔서 그냥 이해 되실듯!
- 우리가 이탈 분석을 하는 게 문제 없는거 맞나요, 우리가 튜터님이 저한테 지금 설명해주신 것처럼 이탈 문제점 발견해서 가져간 것도 아닌데 계획서 왜 통과시켜줬나요(ㅋㅋㅋㅋㅋㅋ), 지금이라도 이렇게 리즈닝 하면 된다고 하셨는데, 했는데 타당한 리즈닝이 안나와버리면 어떻게 해요. 프로젝트를 한 근거가 사라지는 거 아닌가요 --> 원래 중요해서 아무도 의문가질 게 아니라고 하심, 그래서 그림그리면서 설명해주신 것임.
- 클러스터 결과 나온 군집들 중 vip를 집중해서 관리해서 시각화하자, vip는 집중관리해야한다, 그래야 매출이 올라가니까, 라고 생각한건 근거없는 편견이었네요? --> 그렇다. 왜냐면 vip는 활동 좋고 잘 잡아놨는데 나머지에서 다 이탈하면 결국 매출 떨어질 수 있음. 그리고 4개의 군집이나오면 4개의 군집 각자대로 다 해결방안이 나옴. 그 모두 중요함.
- 지금 말씀해주신 이탈 그림 그리신거 태블로에 이 디자인대로 넣어도 돼요? --> 그렇다하심
- 제가 이탈에 대한 의문을 해소하러 왔다가 태블로 디자인 아이디어를 받아가는 것 같습니다. 안그래도 그 디자인 필요하다는 얘기 하고 있었거든요 --> 그렇다하심
- 제가 쓴 목록 위에부분은 오늘 있었던 일 순서대로 나열한건데 틈틈이 의문도 같이 적혀있어서 잘 되고 있나 체크 부탁드립니다
- 그럼 데이터 분석가의 역할이 가설에 대해서는 너무 많이 언급하지 않아도 되는 건가요? 그냥 내가 갖고있는 데이터셋을 분석해서 시각화해서 태블로 만들고 그에 대한 해석을 안달거나 가설을 한두가지만 살짝 언급하고 넘어가더라도 데이터 분석가의 역할을 다 한건가요? 왜 이런 현상인가 해석을 안해도 된다는거죠?--> 그렇다고 하심
- 편견없이 그냥 데이터 상태를 받아들이라는 말씀이 예를 들면 '이탈 잔존 숫자가 지금같이 높게 나온 거 보고 그거에 대해서 편견을 가지지 않고, 그냥 그런가보다 하고, 그냥 대시보드를 만들어서 세상에 공개한다' 맞나요? --> 맞다. 왜냐면 그게 왜 이렇게 나왔을까 의문을 갖기 시작하면 지금 분석해야 할 걸 할 수가 없으니까. 한도끝도 없다.
- 지금까지 제가 튜터님 말씀을 잘 이해했는지 다시한번 말씀드려볼테니 체크해주세요. 인도 시장이나 경쟁사나 조마토 현황에 대한 조사 없이 지금처럼 진행해도 괜찮고, 하고 싶다면 너무 과하게 자료를 수집할 필요 없이 챗지피티한테 물어봐서 답변받는 수준만 해도 충분하다. 맞나요? --> 맞다하심.
- 또 듣다보니 생긴 질문이 있습니다. 튜터님이 말씀하신 데이터의 대표성이 없을 수 있다는 말을 듣고 나니, '외부 자료를 많이 찾아봐야하나' 했더 생각이 없어졌어요. 예를 들면 현재 최신 조마토 현황 자료를 찾아봐야 하나 싶었었거든요. 근데 저희가 가진 데이터가 어차피 대표성이 없는, 조마토 실제 현황을 정제하고 정제한 아주 일부를 보여주고 있는 자료일거라고 하셨고, 그렇기 때문에 또다른 현실적 자료를 갖고 와서 우리 데이터와 비교를 하거나 타당성을 검증할래도 할 수 없겠네요? 그 둘이 같은 실험조건에서 탄생한 데이터가 아니니까 정확히 비교가 안되잖아요. 그러니까 외부 데이터 별로 볼 필요 없네요? --> 그렇다하심.
- 클러스터링 재작업 지금 하는거, 저는 당연히 시간만 되면 하는 게 프로젝트 모양 상 좋다고 보고 있습니다. 이번주 내로 완성 될 것 같기도 하고요. 튜터님 생각에도 이번주에 클러스터링 완성 작업 하는 것 기간측면에서나 프로젝트 완성도 측면에서도 좋다고 보시나요? --> 그렇다하심
질문 후 답변을 요약한 내용
- 튜터링 내용 요약
- Decomposition
- Segmentation
- 이탈 모델 결과가 어떻게 나올지 잘 모르고 잘 안나올 가능성이 있으니까 태블로는 이탈에 많이 의존하지 말고 지금 나머지 태블로를 많이 만들어두는 게 좋을듯
- 이탈이나 클러스터나 둘 다 전체 고객을 대상으로 봐야 공정하니 그렇게 하는 게 좋겠다. 이탈은 전체고객 봤으면서 클러스터만 vip 위주로 보면 갑자기 왜? 이런 질문 나올 수 있음.
- 그리고 이탈모델작업과 클러스터링 작업을 꼭 연결지으려고 하지 않아도됨. 별개의 작업으로 생각해도 됨.
- 매출과 이탈의 관계(월간 반복매출 에 대해 이야기하고 이탈에 대해 이야기해도 되고) 근데 제가봤을 때 가장 좋은건 설명해준 그림대로 하는 것임
- 어떤 구매자?
여기서부터는 원래 질문을 정리:
이게 질문한 원본
- 정근님 클러스터링 수정하셔야 해서 이번주에 그걸 마무리하는 것으로 일정을 변경하고, 태블로는 주말 포함해서 다음주까지 작업하기로 했다.
- 도현님 모델링 다 하긴 했는데, 이탈이 높게 나왔다고 하셨다.
- 그래서 이탈과 잔존 비율 나온 것을 보고 팀원들이 데이터셋 자체 상태가 문제인가 인도 상황이 왜이런지 알아봐야하나 고민했다.
- 데이터셋이 샘플링이 population을 하지 않는다 (데이터셋에 대표성 문제)
- 인도 시장이 그렇다
- 이 특정 회사가 그렇다
- 데이터 분석가는 이런 데이터가 있다 → 이렇게 분석했다 → 이런 현상이 보인다
- 내 개인적인 생각은 인도 시기 데이터나 경쟁사 데이터를 보기 전까지는 이탈률이 높다, 문제다 라고 할 수 없는 거 아닌가? 싶다. 물론 보편적인 시각에서 봤을 때 매우 높을 수는 있지만, 인도의 이 시장 자체가 원래 이탈률이 이 수준이라는 근거를 찾은 적이 없어서 그런 근거를 찾아서 비교해봐야하지 않을까? 싶다.
- 태블로 팀은 아직 모델링 측에서 is churned 관련해 업데이트 할 코드가 있는데 그걸 아직 반영하지 않은 상태에서 작업하고 있다. 그리고 아까 오전에 발견한 클러스터링 이슈도 해결한 결과도 반영되지 않은 상태에서 작업하고 있다. 그래서 지금까지 만든 시각화는 zomato2라는 데이터셋에서 만들어진 것이다. 근데 오늘부터는 zomato3 가지고 작업하고 있다. 변동이 있을만한 파생변수로는 되도록 시각화 안만들고, 변동 없을 것 같은 부분만 이용해서 만들고 있었으나 앞으로 얼마나 새로 다시 만들게 될지 알 수 없어서 이대로 작업하는 게 맞는건가? 마음 한켠이 불안한 상황이다.
- 오전에 발견한 클러스터링 이슈를 내일쯤까지 해결한 다음에 (user id 만으로 집계하는 걸로 재작업 중) 그 클러스터링 결과도 zomato3에 user_id 기준으로 합칠 수 있다고 해서 여전히 zomato3가지고 작업을 수행하면 되는 것 같긴 하다.
- 이 밑에 주절주절 많은데 너무 많아서 안쓰도록 하곘다......
'본캠프 > TIL ♨' 카테고리의 다른 글
| 0630 회의로 의견 통합, 태블로에 넣을 시각화 추려내는 작업, 클러스터링 결과로 태블로 작업한 것 대시보드에 추가하기. (0) | 2025.06.30 |
|---|---|
| 0627 모델링 완, 클러스터링 완, 태블로만 잘 하면 되겠다 (0) | 2025.06.27 |
| 0625 시계열 데이터는 ischurned 다음에 cutoff 해야한다 머리에 새긴 하루... (2) | 2025.06.25 |
| 0624 간만에 쓰는 것 같은 TIL : 모델링 디버깅 작업, 태블로 시작 (2) | 2025.06.24 |
| 0620 클러스터링 본격, 데이터셋 완성했구, 담주부터 태블로. (0) | 2025.06.20 |