본캠프/TIL ♨

[TIL 24일차] 파이썬 기초 프로젝트 2일차: 데이터 EDA를 고민하다

yssummer 2025. 3. 21. 22:45

🐱‍👤 하루 요약


1.지금까지 한 것:

    시각화 라이브세션 관련 공부 하기 (오전)

QCC테스트 발제 듣기 (오후)

(1~3시)프로젝트 회의 1

(7시 전까지) 회의 1에서 미해결 된 부분 해결 위해 개인 eda 시간

(7~9시) 지금까지의 진행상황 공유하고 마무리 결정을 한 프로젝트 회의 2

 

세션에서 배운 시각화를오늘 하는 프로젝트에 바로 적용해보려고 했으나..! EDA만으로도 할 게 많아 거기까진 가지 못했다.ㅎㅎ

   

2. 앞으로 할 것:

    시각화 연습 해보기, 주말 과제 (기초 프로젝트 팀 활동으로 정한 우리끼리의 과제인데 결측치 처리 중에 애매한 친구 있어서 쿼리 짜보고 다시 만나기로 했다ㅎㅎ)


3. 새로 안 것:

  파이썬 시각화 라이브세션 정말 재밌었다!! 그리고 팀프로젝트 주제가 부동산인데, 오늘 결측치와 이상치 처리에 대해 논의하면서 

데이터가 실제로 의미하는 바가 무엇이고 왜 결측인지 찾는 연습이 되었다. 섣불리 판단하기 전에 자료를 많이 찾아봐야겠구나, 그리고 어떤 대체값이 가장 좋은 대체값일지 논리적으로 생각해보고, 적절 쿼리를 써보는 연습이 되었다. 


4. 느낌:

  오늘은 라이브세션과 프로젝트 활동이 집중도 잘되고 생산적이어서 좋았다. 또 아나콘다를 설치해서 주피터 노트북으로 넘어온 하루였다. 과제 데이터를 그쪽으로 불러와 데이터 조사 해보는 것이 원활히 진행되어서 다행이고 좋았다. (코랩에 쿼리가 한줄 한줄 늘어나게 되면서, 다시 실행해줘야하는 귀찮음이 커져가던 차에, vscode를 깔아야하나 고민되었는데 튜터님이 마침 콘다를 이용해서 다양한 환경과 시각화를 보여주시고 또 그걸 선호한다고 하시는 바람에, 냅다 콘다를 깔아서 주피터를 실행하게 되었다. 왜냐면 라이브세션을 따라가는 게 중요하게 느껴지니, 튜터님이 보여주는 건 코랩으로 보여주시지만 판다에서 작업했었다고 하셔서, 그렇게 주로 쓰시는 환경을 내가 따라서 쓰는게 질문도 편할 것 같고 알려주시는대로 호환 걱정 없이 그냥 하면 되어서 편하게 느껴졌다.


 

😊진행상황

 

      🐬 공부 후

오늘은 프로젝트가 중심이 된 하루였다.

이번주 인생 우선순위 (대부분 잘 지켰지만 한주를 마치는 금요일에 아쉬운 점은 라이브세션을 더 많이 복습하고 싶지만 그렇게 하지 못한 것이다. 녹강을 한번씩 더 듣고 싶은데 아쉽게도 그럴 여유가 없...)

💛1순위 = 라이브세션 내용, 당일에 70%이상 습득하기.
💛2순위 = qcc 문제랑 과제 문제를 100% 소화할때까지 문제 붙들기.
💛3순위 = 프로젝트와 실습에 배운 것의 70%이상 사용하는 연습하기.

- 심장뛰는운동 매일아침 

- 해 뜨면 바로 해보기

-늦게 공부 말고 일찍 자고 할거면 아침에 공부

- 휴식시간에 혼자서 온전히 휴식



😊공부메모

 

 

  🔵6회차 파이썬 라이브세션 듣기, 결측치와 이상치 실습

    🧶 어제꺼 복습해주셔서 다시한번 정리가 되었다. 뭘 알고 모르는지 확인할 수 있었던 시간이었다. 

      🐬 수업 중간 이후에는 놓친 부분도 있어서 녹강을 꼭 들어야겠다고 생각했다. 그치만 어제의 라이브세션과 연결되는 부분이 있다보니 

          비교적 수월하게 느껴졌다. 어렵긴 하지만 어제 썼던 함수들을 실습하며 익히니까 덜 낯설었던 것 같다.


 

🔵  기초 프로젝트 EDA 진행

 

결측치와 이상치 처리 방안을 뭐로 할지, 근거를 찾기 위해 이렇게 저렇게 뜯어보았다. 

 

반가운 십오야조

                                              

우리 팀 노션 작업물의 일부이다!! 

 

다들 분석도 많이 해주시고

여러 도메인 지식을 다들 많이 찾아주시고

토의도 잘 진행되어서 망망대해에서 시작했지만 갈피가 잡혔던 것 같다.ㅎㅎ

 

주말에 결측치 회의를 한 번 더 하기로 했다!!

도메인 지식을 좀 더 조사해야겠다고 느꼈다. 생각보다 정책이나 행정 상황의 영향을 아주 많이 받는 것이었다.

그리고 결측치를 구하고 싶은 아이디어는 있지만 그걸 쿼리로 쓰지 못하는 벽에 봉착했다 ㅎㅎ 

그 실력을 주말에 더 키운 후 월요일에 이어서 하기로 했다.

 

 

🧶  각자 eda 해보는 시간에 작성한 작업 요약:

 

박연서 3/21 eda 정리 (이건 제가 기초 eda 한거 요약한 것입니다)

💡 EDA 1. 결측치 비율을 계산 ( 삭제, 대체의 근거 확보)

결과표각 컬럼의 결측치 수와 그 비율(소수점 둘째 자리 반올림) 표로 정리

 

✨2018~2024 결합한 데이터 표로 확인하여 관찰해봄 (변수명 alldf)

각 컬럼별 결측치 비율: (결측치 수 / 833,614) * 100

전체 행 수: 833,614개

초록: 애매한 결측. 작거나 중간정도 비율. 대체 하던가 삭제 하기 전 이유 확인 필요. (공공데이터 홈페이지 확인)

보라: 일정하고 유사한 비율로 결측. 여러 컬럼이 유사한 6.90% 비율로 나와, 서로 연관 있는 데이터일 수 있음.

빨강: 삭제 할지 말지 고민할정도로 큰 비율로 결측.

대체 전 이유 확인 필요.

—> 어디에 어떤 건물인지 등. 확인 필요.

 

컬럼명 결측치 수 결측치 비율 (%)

접수연도 0 0.00%
자치구코드 0 0.00%
자치구명 1 0.00%
법정동코드 0 0.00%
법정동명 0 0.00%
지번구분 57,571 6.91%
지번구분명 57,571 6.91%
본번 57,562 6.90%
부번 57,562 6.90%
건물명 57,549 6.90%
계약일 0 0.00%
물건금액(만원) 0 0.00%
건물면적(㎡) 0 0.00%
토지면적(㎡) 164,790 19.77%
57,495 6.90%
권리구분 826,000 99.08%
취소일 808,073 96.95%
건축년도 3,416 0.41%
건물용도 0 0.00%
신고구분 608,270 72.97%
신고한 개업공인중개사 시군구명 649,698 77.94%

 

 

 

📉df1~7까지 결측치 비율 계산컬럼명 결측치 수 결측치 비율 (%)

접수연도 0 0.00%
자치구코드 0 0.00%
자치구명 0 0.00%
법정동코드 0 0.00%
법정동명 0 0.00%
지번구분 14,363 8.62%
지번구분명 14,363 8.62%
본번 14,366 8.62%
부번 14,366 8.62%
건물명 14,346 8.61%
계약일 0 0.00%
물건금액(만원) 0 0.00%
건물면적(㎡) 0 0.00%
토지면적(㎡) 23,830 14.29%
14,346 8.61%
권리구분 163,980 98.35%
취소일 166,717 100.00%
건축년도 245 0.15%
건물용도 0 0.00%
신고구분 166,717 100.00%
신고한 개업공인중개사 시군구명 166,717 100.00%

df2 (130,673 행)컬럼명 결측치 수 결측치 비율 (%)

접수연도 0 0.00%
자치구코드 0 0.00%
자치구명 0 0.00%
법정동코드 0 0.00%
법정동명 0 0.00%
지번구분 9,661 7.39%
지번구분명 9,661 7.39%
본번 9,661 7.39%
부번 9,661 7.39%
건물명 9,653 7.39%
계약일 0 0.00%
물건금액(만원) 0 0.00%
건물면적(㎡) 0 0.00%
토지면적(㎡) 60,359 46.19%
9,653 7.39%
권리구분 128,626 98.43%
취소일 130,673 100.00%
건축년도 198 0.15%
건물용도 0 0.00%
신고구분 130,673 100.00%
신고한 개업공인중개사 시군구명 130,673 100.00%
     

df4 (138,696 행) 결측치 비율 계산컬럼명 결측치 수 결측치 비율 (%)

접수연도 0 0.00%
자치구코드 0 0.00%
자치구명 0 0.00%
법정동코드 0 0.00%
법정동명 0 0.00%
지번구분 10,289 7.42%
지번구분명 10,289 7.42%
본번 10,284 7.42%
부번 10,284 7.42%
건물명 10,290 7.42%
계약일 0 0.00%
물건금액(만원) 0 0.00%
건물면적(㎡) 0 0.00%
토지면적(㎡) 699 0.50%
10,273 7.41%
권리구분 138,366 99.76%
취소일 132,432 95.49%
건축년도 1,262 0.91%
건물용도 0 0.00%
신고구분 126,742 91.39%
신고한 개업공인중개사 시군구명 130,092 93.82%

df5 (66,324 행) 결측치 비율 계산컬럼명 결측치 수 결측치 비율 (%)

접수연도 0 0.00%
자치구코드 0 0.00%
자치구명 0 0.00%
법정동코드 0 0.00%
법정동명 0 0.00%
지번구분 4,901 7.39%
지번구분명 4,901 7.39%
본번 4,898 7.39%
부번 4,898 7.39%
건물명 4,922 7.42%
계약일 0 0.00%
물건금액(만원) 0 0.00%
건물면적(㎡) 0 0.00%
토지면적(㎡) 4 0.01%
4,890 7.37%
권리구분 66,236 99.87%
취소일 61,905 93.34%
건축년도 452 0.68%
건물용도 0 0.00%
신고구분 216 0.33%
신고한 개업공인중개사 시군구명 17,194 25.92%

df6 (69,781 행)컬럼명 결측치 수 결측치 비율 (%)

접수연도 0 0.00%
자치구코드 0 0.00%
자치구명 0 0.00%
법정동코드 0 0.00%
법정동명 0 0.00%
지번구분 2,764 3.96%
지번구분명 2,764 3.96%
본번 2,764 3.96%
부번 2,764 3.96%
건물명 2,760 3.96%
계약일 0 0.00%
물건금액(만원) 0 0.00%
건물면적(㎡) 0 0.00%
토지면적(㎡) 70 0.10%
2,751 3.94%
권리구분 69,179 99.14%
취소일 66,270 94.97%
건축년도 381 0.55%
건물용도 0 0.00%
신고구분 20 0.03%
신고한 개업공인중개사 시군구명 12,268 17.58%
     

df7 (77,523 행)컬럼명 결측치 수 결측치 비율 (%)

접수연도 0 0.00%
자치구코드 0 0.00%
자치구명 1 0.00%
법정동코드 0 0.00%
법정동명 0 0.00%
지번구분 2,558 3.30%
지번구분명 2,558 3.30%
본번 2,559 3.30%
부번 2,559 3.30%
건물명 2,559 3.30%
계약일 0 0.00%
물건금액(만원) 0 0.00%
건물면적(㎡) 0 0.00%
토지면적(㎡) 5,077 6.55%
2,558 3.30%
권리구분 76,823 99.11%
취소일 74,351 95.91%
건축년도 267 0.34%
건물용도 0 0.00%
신고구분 2 0.00%
신고한 개업공인중개사 시군구명 8,854 11.42%

df1['지번구분'].value_counts()

지번구분
1.0    152101
3.0       138
2.0       115
Name: count, dtype: int64

1번 대지 갯수 검색한것임

------------------

EDA 2. 이상치 찾기 위해 시각화 해보기 (이상치 제거의 근거 확보)

—아직못함.

by 오늘 배운 시각화 코드 활용

 

 


 


 


🐱‍👤생활관리

운동 | 공원산책

오늘은 기분이 괜찮았다.

오전에는 여전히 약간 다운된 느낌이었지만

시각화 세션을 듣고 나니 신기하고 기대되어서 기분이 전환되었다.

그리고 프로젝트 하면서는 집중이 잘 되어서 안정감이 생겼다.