본문 바로가기

pandas13

[Python] Pandas _ EDA _ 02 titanic 데이터 처리하는 관점!gdown 1GUltwE6D9Cv90AP8nfO_kezO0d7TAtg7'''Downloading...From: To: /content/titanic_train.csv100% 60.3k/60.3k [00:00# csv 파일을 불러오시면 됨!!!!# ==> 혹시 특정 칼럼이 가로 인덱스로 사용할 수 있는게 보장이 되어있다면# 불러들이면서, 가로 인덱스를 지정하는 경우! set_index ~~# ==> 파일을 불러올 때 필요한 기능이 있어서 편히 할 수 있으면 파라미터 메뉴얼path = '/content/titanic_train.csv'data = pd.read_csv(path, index_col="PassengerId") #set_index 대신 불러올 때 지정 가data.hea.. 2025. 8. 27.
[Python] Pandas 15 _ curl curl 방식으로 API를 지원하는 경우들이 있음→ 게임사쪽 api→ curl 방식으로 제공을 하는데,파이썬의 코드로 요청https://curlconverter.com/curl -X 'GET' \\ '' \\ -H 'accept: application/json' \\ -H 'authorization: bearer eyJ0eXAiOiJKV1QiLCJhbGciOiJSUzI1NiIsIng1dCI6IktYMk40TkRDSTJ5NTA5NWpjTWk5TllqY2lyZyIsImtpZCI6IktYMk40TkRDSTJ5NTA5NWpjTWk5TllqY2lyZyJ9.eyJpc3MiOiJodHRwczovL2x1ZHkuZ2FtZS5vbnN0b3ZlLmNvbSIsImF1ZCI6Imh0dHBzOi8vbHVkeS5nYW1lLm.. 2025. 8. 25.
[Python] Pandas 14 _ groupby 앞에서 한 pivot_table과 동일한 일 ⇒ 데이터 변경내가 직접 판을 짜서 보겠다 (pivot_table)내가 데이터들을 묶어가면서 보겠다(sql) → groupby묶어가면서 무엇을 볼지 (집계/대표) 처리하는 방식 : sqlex) 전교생의 성적이 있는 데이터셋 수집! 몇 반, 누구, 몇 점인지 ⇒ 반별로 묶어서 보자pivot_table : 가로기준 (학생 → 반), 세로 (점수 → 평균 aggfunc)sql) select avg(zumsu) from data group by class ;pandas groupby) df.groupby(by = “class”).agg(”집계처리..”)import numpy as npimport pandas as pd!gdown 1PqRm5x29Lqxt_q8tFhYK.. 2025. 8. 25.
[Python] Pandas 13 _ pivot 데이터를 이리저리 보기 위해서 (탐색의 기본 조건)수집된 데이터를 그대로 보는 것은 1차원적인 부분수집된 데이터를 기반으로 이리 저리 가공하면서 탐색수집된 데이터를 본인 기준(보고자 하는 사항)으로 변경기준데이터가 수집된 기준X내가 보고자하는 기준 ( 기존 컬럼, 직접 생성한 컬럼 )으로 바라보자이런 접근 방식 중 가장 대표적인 것 ⇒ 엑셀의 피벗테이블샘플 단위가 아니라 속성/기준으로 바라보자EDA의 가장 기본적인 부분 중 하나pandas에서 이러한 기능pivot_table (딱 세팅)groupby (묶어가면서 순차적으로)⇒ 양쪽의 결과물은 동일함, 어떻게 접근하느냐의 차이import numpy as npimport pandas as pd# 11sale 관련 데이터!gdown 1g3QxQfKc7Qcrhw.. 2025. 8. 25.
[Python] Pandas 12 _ na 지난 시간까지 한 일: 데이터를 어떻게 수집할까!!인터넷을 통해서 수집!!! → API, 웹 사이트 etc특정 파일로 존재⇒ 수집한 데이터들을 바탕으로 어떻게 활용할지에 대해서 오늘 공부할 것데이터 수집하고 체크→ 결측치 잘 확인해야함공식 : NaN ⇒ 공식적인 결측값기타 : nan, “”, None ⇒ 이런 값들이 이상하게 있을 수 있음빵꾸난 데이터가 있다면EDA 처리할 때는 그렇게 큰 이슈는 아님→ but ML 모델에서는 꼭 처리를 해야함처리 방법 1 ) 누락 된 것을 지우자경우에 따라서 샘플의 수가 줄어들 수 있음경우에 따라서 속서의 수가 줄어들 수 있음처리 방법 2 ) 누락된 것을 채우자fillna어떻게 채울까에 대한 정답은 없음분석자가 주관적으로 처리해야하는 영역1개의 대표값을 사용하는 경우 →.. 2025. 8. 25.
[Python] Pandas 10 _ csv pandas를 가지고 데이터를 주고 받을 때웹 데이터 : json, xml, html 등..파일 데이터 : 다양한 양식들이 존재 (R, SAS, 엑셀 ,,,,,etc)대표적인 양식 : csv, exel(xlsx)pandas를 가지고데이터를 불러올 때 : pd.read~데이터를 출력할 때 : pd. to ~~개인프로젝트 할 때 중간 중간 저장을 해야 할 때중간중간 내 pc에 저장팀플로 하면 개인이 맡은 부분을 공유csvhttps://pandas.pydata.org/docs/reference/api/pandas.read_csv.htmlcsv 파일값들을 전달하고자 하는 것이 목적!!!!구별자 sep : ",”⇒ sep는 내가 전달하는 데이터의 값을 생각하고 지정!!!!excel 파일값 + 꾸밈(양식)JSON/.. 2025. 8. 21.