본캠프/TIL ♨

진짜오늘 저녁 8시 경에 드디어 파생변수 만들긴 함 (그전에 또 새로운 문제 탄생하여 많은 전처리 했지만 말이다)

yssummer 2025. 6. 13. 22:33

 

진짜오늘 저녁 8시 경에 드디어 파생변수 만들긴 함 (그전에 또 새로운 문제 탄생하여 많은 전처리 했지만 말이다)

데이터 머지하기 위한 전처리 오늘 또함! 

그러고서 세 데이터셋 다 붙여서 작업을 해봤더니

그렇게 해서 작업하니까 둘만 붙였을 때보다 더 이상하게 나오는 것들이 있어서

다시 둘 둘 버전으로 파생변수 만들기 하고 나중에 붙이기로함

그렇게 둘둘 버전을 가지고 팀원 각자 파생변수 만들기를 시작함...

파생변수 뭐 만들지 아이디어도 다함께 내놓은 상태이긴 했어서

팀원분들이 만드실 파생변수와 겹치지 않으면 시간아끼고 좋으니까 방금까지의 업데이트된 인사이트를 반영해서 지금까지 생각하지 않았던 파생변수 아이디어를 짜서

더 새로운거를 만들어볼까 싶었다

(few hours later) 전에 생각하지 않았던 새로운 파생컬럼을 하나 만들기는 했음...(노란형광펜친거)

클러스터링에서 어떤 결과를 낼지 해봐야 알 것 같음

5개 등급으로 나누었는데 unknown 비중이 좀 커서 이거를 어떻게 비중을 좀 줄여야할지 고민이 좀 됐는데

일단 그냥 이대로 함 해보기로 (나 홀로) 마음을 먹음

이거를 하던 중에 회의가 진행되고 있었는데 들으면서 작업하다보니까 내가 아직 파악하지 못한 문제점에 대한 논의인 것 같아서

계속 따라가지 못하게 되어서 그러면 일단 만들던 파생변수 만드는 과정을 끝까지 해보다보면 어디에 문제가 있는지 알게 될 수 있으니까 이해가 되지 않을까? 해서 흘려들으면서 정한 작업시간동안 끝까지 만들긴함. 다 만들고 나서 뒤늦게 합류해보는데 여전히 잘 이해를 못해서 팀원분이 설명을 해주셨는데 첨부터 잘 설명해주셔서 드뎌 이해하는데 성공했음!

그 내용은 뭐였냐면

내가 쓰고 있는 df가 

중복으로 두번씩 행이 등장하는 상태의 df였기 때문에 그 중복 제거가 필요한데 어떤 순서에 중복제거 코드를 썼느냐가 팀원끼리 달라서 혹시 최종 머지 안될까바 걱정돼서 미리 논의하시던 거였음

근데 테스트로 한분이 지금단계에서 머지해보니까 성공적으로 되길래 다들 안심한 것 같음 

뒤늦게 합류 후 공개한 내 작업단계에서는

중복제거 코드 한줄만 현 코드에 추가하면 된다는 것을 팀원분이 알려주셔씀.

내가 작업하던 중에 이 논의는 결론까지 났던 것이었음 ㅎ

(log_iqr_cleaned_nodup = log_iqr_cleaned.drop_duplicates(subset=['user_id', 'r_id', 'order_date'] 이 코드 적용하기로 함)

작업하면서 회의내용 들으면서 하는데 너무 이해를 못하고 있어서 내 머리가 너무 바보여서 영원히 이해못하는 거 아닌가 하고

걱정했는데 다행히 이해가 되어서 한시름 놓았음 헤헷.. 

그리구 9시가 지나서 회의가 마무리 되었는데

마무리 후에 비공식으로 이어서 회의를 한 결과

두 방식중에서 예란학파(ㅋㅋㅋ)의 방식이 나중에 전처리 또 하거나 할 때 유연성이 더 높은 방식이라는 판단이 남

그래서 그 방향으로 가기로 했음.

일욜에 한번 더 만나기로 했따.

중간발표를 위한 보고서를 써야해서...

이렇게 된 이상 이제 정말 파생변수 만들기 뿐이야!!

최종 --> 문제발생 -->

최최종 --> 문제발생 -->

진짜최종

이렇게 되어가고 있음ㅋㅋㅋ

시행착오가 많으니까 배우고 느끼는 것은 늘어가는 것 같군

 

나의 심신안정을 위한 사진 ^0^