진짜오늘 저녁 8시 경에 드디어 파생변수 만들긴 함 (그전에 또 새로운 문제 탄생하여 많은 전처리 했지만 말이다)
데이터 머지하기 위한 전처리 오늘 또함!
그러고서 세 데이터셋 다 붙여서 작업을 해봤더니
그렇게 해서 작업하니까 둘만 붙였을 때보다 더 이상하게 나오는 것들이 있어서
다시 둘 둘 버전으로 파생변수 만들기 하고 나중에 붙이기로함
그렇게 둘둘 버전을 가지고 팀원 각자 파생변수 만들기를 시작함...
파생변수 뭐 만들지 아이디어도 다함께 내놓은 상태이긴 했어서
팀원분들이 만드실 파생변수와 겹치지 않으면 시간아끼고 좋으니까 방금까지의 업데이트된 인사이트를 반영해서 지금까지 생각하지 않았던 파생변수 아이디어를 짜서
더 새로운거를 만들어볼까 싶었다
(few hours later) 전에 생각하지 않았던 새로운 파생컬럼을 하나 만들기는 했음...(노란형광펜친거)
클러스터링에서 어떤 결과를 낼지 해봐야 알 것 같음
5개 등급으로 나누었는데 unknown 비중이 좀 커서 이거를 어떻게 비중을 좀 줄여야할지 고민이 좀 됐는데
일단 그냥 이대로 함 해보기로 (나 홀로) 마음을 먹음
이거를 하던 중에 회의가 진행되고 있었는데 들으면서 작업하다보니까 내가 아직 파악하지 못한 문제점에 대한 논의인 것 같아서
계속 따라가지 못하게 되어서 그러면 일단 만들던 파생변수 만드는 과정을 끝까지 해보다보면 어디에 문제가 있는지 알게 될 수 있으니까 이해가 되지 않을까? 해서 흘려들으면서 정한 작업시간동안 끝까지 만들긴함. 다 만들고 나서 뒤늦게 합류해보는데 여전히 잘 이해를 못해서 팀원분이 설명을 해주셨는데 첨부터 잘 설명해주셔서 드뎌 이해하는데 성공했음!
그 내용은 뭐였냐면
내가 쓰고 있는 df가
중복으로 두번씩 행이 등장하는 상태의 df였기 때문에 그 중복 제거가 필요한데 어떤 순서에 중복제거 코드를 썼느냐가 팀원끼리 달라서 혹시 최종 머지 안될까바 걱정돼서 미리 논의하시던 거였음
근데 테스트로 한분이 지금단계에서 머지해보니까 성공적으로 되길래 다들 안심한 것 같음
뒤늦게 합류 후 공개한 내 작업단계에서는
중복제거 코드 한줄만 현 코드에 추가하면 된다는 것을 팀원분이 알려주셔씀.
내가 작업하던 중에 이 논의는 결론까지 났던 것이었음 ㅎ
(log_iqr_cleaned_nodup = log_iqr_cleaned.drop_duplicates(subset=['user_id', 'r_id', 'order_date'] 이 코드 적용하기로 함)
작업하면서 회의내용 들으면서 하는데 너무 이해를 못하고 있어서 내 머리가 너무 바보여서 영원히 이해못하는 거 아닌가 하고
걱정했는데 다행히 이해가 되어서 한시름 놓았음 헤헷..
그리구 9시가 지나서 회의가 마무리 되었는데
마무리 후에 비공식으로 이어서 회의를 한 결과
두 방식중에서 예란학파(ㅋㅋㅋ)의 방식이 나중에 전처리 또 하거나 할 때 유연성이 더 높은 방식이라는 판단이 남
그래서 그 방향으로 가기로 했음.
일욜에 한번 더 만나기로 했따.
중간발표를 위한 보고서를 써야해서...
이렇게 된 이상 이제 정말 파생변수 만들기 뿐이야!!
최종 --> 문제발생 -->
최최종 --> 문제발생 -->
진짜최종
이렇게 되어가고 있음ㅋㅋㅋ
시행착오가 많으니까 배우고 느끼는 것은 늘어가는 것 같군




나의 심신안정을 위한 사진 ^0^

'본캠프 > TIL ♨' 카테고리의 다른 글
| 0618 작업물 (0) | 2025.06.19 |
|---|---|
| 중간발표용 보고서 작성한 날 (0) | 2025.06.16 |
| 오늘 하루 숨안쉬고(?) 파생변수 만들려고 그룹화함 (0) | 2025.06.12 |
| res+orders 데이터셋에서 파생변수 만들기 함 (0) | 2025.06.11 |
| 프로젝트 계획서를 완성하고 튜터님께 어려움 조언받은 날 (0) | 2025.06.10 |