본문 바로가기

Python8

[Python] Pandas _ EDA _ 04 worldhappy(2) 어제의 자료에 인구 정보를 같이 넣어서 보자어제 행복도 지수 관련된 사이트/데이터에는 인구정보가 없음메인 데이터 : 기관에서 발표한 행복도 관련 데이터추가 데이터 : 나라별로 인구데이터를 같이 보자(외부 다른 소스에서 찾아서 ) https://data.worldbank.org/indicator/SP.POP.TOTL?end=2021&start=1960&view=chart# --> 인구 관련 데이터 가지고 옴..path = '/content/data/population/API_SP.POP.TOTL_DS2_en_excel_v2_4770385.xls'pop_df = pd.read_excel( path, skiprows=3)pop_df.head() 2021년도까지 행복도 지수가 있었던 데이터에 인구정보를 같이 보.. 2025. 8. 29.
[Python] Pandas _ EDA _ 04 worldhappy 목적 : 데이터 핸들링에 대해서 소개귀찮은 시즌을 골라서 진행을 하려고 함매년 스타일이 좀 달라서 귀찮은 작업이 필요함2022년도 보고서를 기준으로 작업을 하려고 함https://www.worldhappiness.report/ed/2022/ World Happiness Report 2022The World Happiness Report is published by the Wellbeing Research Centre at the University of Oxford, in partnership with Gallup, the UN Sustainable Development Solutions Network and an independent editorial board.www.worldhappiness.rep.. 2025. 8. 28.
[Python] Pandas 15 _ curl curl 방식으로 API를 지원하는 경우들이 있음→ 게임사쪽 api→ curl 방식으로 제공을 하는데,파이썬의 코드로 요청https://curlconverter.com/curl -X 'GET' \\ '' \\ -H 'accept: application/json' \\ -H 'authorization: bearer eyJ0eXAiOiJKV1QiLCJhbGciOiJSUzI1NiIsIng1dCI6IktYMk40TkRDSTJ5NTA5NWpjTWk5TllqY2lyZyIsImtpZCI6IktYMk40TkRDSTJ5NTA5NWpjTWk5TllqY2lyZyJ9.eyJpc3MiOiJodHRwczovL2x1ZHkuZ2FtZS5vbnN0b3ZlLmNvbSIsImF1ZCI6Imh0dHBzOi8vbHVkeS5nYW1lLm.. 2025. 8. 25.
[Python] Pandas 14 _ groupby 앞에서 한 pivot_table과 동일한 일 ⇒ 데이터 변경내가 직접 판을 짜서 보겠다 (pivot_table)내가 데이터들을 묶어가면서 보겠다(sql) → groupby묶어가면서 무엇을 볼지 (집계/대표) 처리하는 방식 : sqlex) 전교생의 성적이 있는 데이터셋 수집! 몇 반, 누구, 몇 점인지 ⇒ 반별로 묶어서 보자pivot_table : 가로기준 (학생 → 반), 세로 (점수 → 평균 aggfunc)sql) select avg(zumsu) from data group by class ;pandas groupby) df.groupby(by = “class”).agg(”집계처리..”)import numpy as npimport pandas as pd!gdown 1PqRm5x29Lqxt_q8tFhYK.. 2025. 8. 25.
[Python] Pandas 13 _ pivot 데이터를 이리저리 보기 위해서 (탐색의 기본 조건)수집된 데이터를 그대로 보는 것은 1차원적인 부분수집된 데이터를 기반으로 이리 저리 가공하면서 탐색수집된 데이터를 본인 기준(보고자 하는 사항)으로 변경기준데이터가 수집된 기준X내가 보고자하는 기준 ( 기존 컬럼, 직접 생성한 컬럼 )으로 바라보자이런 접근 방식 중 가장 대표적인 것 ⇒ 엑셀의 피벗테이블샘플 단위가 아니라 속성/기준으로 바라보자EDA의 가장 기본적인 부분 중 하나pandas에서 이러한 기능pivot_table (딱 세팅)groupby (묶어가면서 순차적으로)⇒ 양쪽의 결과물은 동일함, 어떻게 접근하느냐의 차이import numpy as npimport pandas as pd# 11sale 관련 데이터!gdown 1g3QxQfKc7Qcrhw.. 2025. 8. 25.
[Python] Pandas 12 _ na 지난 시간까지 한 일: 데이터를 어떻게 수집할까!!인터넷을 통해서 수집!!! → API, 웹 사이트 etc특정 파일로 존재⇒ 수집한 데이터들을 바탕으로 어떻게 활용할지에 대해서 오늘 공부할 것데이터 수집하고 체크→ 결측치 잘 확인해야함공식 : NaN ⇒ 공식적인 결측값기타 : nan, “”, None ⇒ 이런 값들이 이상하게 있을 수 있음빵꾸난 데이터가 있다면EDA 처리할 때는 그렇게 큰 이슈는 아님→ but ML 모델에서는 꼭 처리를 해야함처리 방법 1 ) 누락 된 것을 지우자경우에 따라서 샘플의 수가 줄어들 수 있음경우에 따라서 속서의 수가 줄어들 수 있음처리 방법 2 ) 누락된 것을 채우자fillna어떻게 채울까에 대한 정답은 없음분석자가 주관적으로 처리해야하는 영역1개의 대표값을 사용하는 경우 →.. 2025. 8. 25.