본캠프/TIL ♨

[51일차]병자의 TIL.. 클러스터링 프로젝트를 위한 EDA !!

yssummer 2025. 4. 23. 23:57

 

 

저번주 마지막에 vscode 설치하고 eda 하려고 한 거 오늘 이어서 했다.

vscode 주말에 가상환경 venv 설치하는 것까지는 했었다.

+

그러다 노로 바이러스에 걸려서 월,화 쉬었다. (하루는 공가, 하루는 노로바이러스가 전파된다고 해서 집콕했고 그러다보니 진단서 없어서 일반결석이 되었다)

지금 수요일은 약간의 두통정도로 괜찮아졌고 내일은 더 괜찮을 것 같다. 그치만 장염으로 내원을 안해서 내일 아침에 병원 다녀올 것이다. 초기증세가 위염이나 위궤양으로 의심돼서 그 약을 받았었기 때무니다. 그떈 노로인줄 몰랐다. (현재 증상은 노로노로 바이러스~ 증상 + 그로 인한 기존의 위염 증세가 강화된 증상 의심+ 장에서 출혈..;;;; (이게 좀 문제인데. 부모님께 말하니까 부모님이 치핵으로 출혈있던 적 꽤 있으셔가지고 너도 그럴수도 있다고 별개일수도 있다고 하셔서 어쩌먄 조금 안심, 가족력의심... 어쨌든 내원 예정))

+

ipynb 파일을 vs에서 열려니 뭔가 안되는 게 많았다.

팀원분들이 내가 빠진 이틀간 전처리 코드를 통일해서 맞춰놓고 올려주신 게 있어서 그걸 얼른 적용해보고 싶어서

급한대로 py파일에다가 했다. 터미널에서 입출력을 보는 것은 처음이었다. 

어우. 결과 보는게 상당히 어려웠다 가독성이 안좋았다. 그래서 vs에서 쥬피터 꼭 되게 하기로 미션 전환...

그것과 씨름하다가 결국 해결이 돼서 ipynb 파일로 보기 시작.

전에 아나콘다 환경 설치할 때도 나름 애를 먹었기 때문에 이번 애 먹는 것은 초장부터 인내심을 갖고 찬찬히 진행할 수 있었던 것 같다.

!pip install pandas
!pip install seaborn
!pip install numpy
!pip install matplotlib

얘네부터 다시 했다.

 

데이터가 13만개정도 돼서 한 코드블록 돌리는데 짧게는 몇초에서 길게는 몇분 걸렸다.

꽤 많이 정제해서 내 컴퓨터 환경에 맞게 써놓은 eda 초반부 코드가 완성되었다.

결측치 처리하고 결합한 데이터였다.

 

근데 전체 데이터를 출력하는 코드를 실수로 아무생각없이 돌려버렸다.

2시간이 걸려도 끝나지 않았다....

그냥 끄기로 결심했다........ㅎ

코드 써놓은거 날리기 아깝지만 메모장에 일부는 옮겨두었었기때문에 .. ㅋㅋㅋ 괜찮았다.

끄고 새 파일을 만들어서 다시 하고 있다.

 

그러다가 컬럼이 너무 많아서 실험하는게 너무나 까다롭고 버거운 문제가 팀원들끼리 대화하며 부각되었다.

그리고 지난 전처리를 통일해서 계속 군집 돌리고 있으면서 비슷한 실험을 

팀원이 나눠서 같이 하고 있었는데 이게 맞나 싶은 의심이 생겼었다.

또한 각자 원하는 가설을 세워서 다른 방식의 실험을 하기 위해 데이터를 결합하기 전에 컬럼을 미리 선별하면 어떨까 하는 이야기도 하게 되었다.

그래서 그렇게 하려고 계획을 세웠다.

그러고 나서 튜터님께 다녀왔는데

튜터님이 그건 비지도학습이 아닌 지도학습이라서 클러스터링은 그렇게 하지 않는다고 단호하게 일러주셔가지고

컬럼을 따로 먼저 골라잡아서 머신러닝 돌리는 거는 하지 않기로 잠정적으로 되었다. 

+

내일은 비지도학습으로 무한 kmean 돌리기라던가.... 가설을 생각하되 학습에 개입하지 않고 무한 실험하기.....를 염두에 두고 작업할 것 같다.