본문 바로가기

전체 글65

[Python] pandas 05_kobis_api_json 내가 원하는 정보/데이터가 웹 상에 존재할 때API 형태로 정보를 제공할 때JSON으로 제공json 패키지 → 파이썬 리스트/dict 자료형 변환 → 정수 인덱스, 키값 중심 : 순차 접근 ⇒ pandas의 DataFrame과 상호호환이 용이함!!!XML 으로 제공BeautifulSoup 패키지(bs4) : Tag 중심의 숏컷그냥 웹 사이트에 존재 (사람인 vs 잡코리아 크롤링에 대한 소송~~근데 구글도 다 함)정적인 사이트주소가 원하는 대로 바뀜 (크롤링하기 아주 편함)원하는 정보의 사이트가 주소가 안 보이거나, 내부에서 호출하거나 (여러 케이스가 있음) → case by case → 숨겨진 정보들을 찾아보자 ⇒ 동적으로 움직이는 것 중에서 → 셀레니움 → 브라우저를 통제 (이것마저 블락하는 경우도 있.. 2025. 8. 19.
[Python] Pandas 04 _ json JSONJSON → 서로 다른 프로그램/서비스/어플 사이에서 데이터를 주고받을 때 사용하는 약식 중 하나어떤 값은 뭐에요+1개 아니라 여러개파이썬 리스트, dict 상당히 유사함실제 JSON 데이터 : 문자열로 작성된 text실제 문자열 작성하는 약식으로 파이썬 리스트/ dict에 대응re 패키지를 활용해서 추출하면 되는데.. 규격화/패키지화 → json 패키지 (anaconda/colab 기본 설치된 패키지)굳이 정규식을 안 써도, 파이썬 리스트/dict로 접근이 가능하게 변경값에 대한 접근을 정규식 대신에 “정수인덱스” or “키”import jsonjson_data1= """{ "color":"red", "value":"$100"}"""json_data1#{\\n "color":"r.. 2025. 8. 19.
[Python] Pandas 03 _ pandas_2D_DataFrame 앞에서 한 1차원 적인 Series --> 2차원으로 확장 DataFramepandas의 2차원 자료형 : DataFrame코드적2중 for문 기본 형식벡터연산 : 기능을 중심으로 코드를 간결하게(줄 중심)내가 만든 인덱스가로index, 세로columns태생적인 가로 정수 인덱스태생적인 세로 정수 인덱스import pandas as pdimport numpy as npd = [1,2,3,4,5]d_series = pd.Series(d)d_series# 0#0 1#1 2#2 3#3 4#4 5##dtype: int64d_df = pd.DataFrame(d)d_df# 0#0 1#1 2#2 3#3 4#4 5d_df.index#RangeIndex(start=0, stop=5, step=1)d_series... 2025. 8. 19.
[Python] Pandas 02 _pandas_1D_Series (2) pandas에서 FM적으로 값을 접근하는 방법들값에 대한 접근을 바라보는 관점 : 1개 값 접근 vs 여러개 값 접근1개 값 접근at : 내가 만든 인덱스로 1개 값 접근iat : 태생적인 정수 인덱스로 1개 값 접근여러개 값을 접근loc : 내가 만든 인덱스로 여러개 접근iloc : 태생적인 정수인덱스로 여러개 접근⇒ 이 부분에 대해서 최대한 타이트하게 구분해서 사용하는 것을 추천 속도 / 효율성 떄문임!!!! ( 많은 데이터처리할 때!!! )import pandas as pdstock_price_Series_index = pd.Series( # 정보 : 진짜 리얼한 데이터,,, # : 나만의 접근 할 수 있는 인덱스 정보 data = [70000, 73000, 69000, 7.. 2025. 8. 19.
[Python] Pandas 02 _pandas_1D_Series (1) Pandasimport numpy as npimport pandas as pdpandas 패키지메인 패키지!!! ==> 데이터 핸들링!!!외부에서 만든 패키지!!1pandas 기본적인 자료형 : Series, DataFrame, Pannel1차원을 처리할 자료형 : Series2차원을 처리할 자료형 : DataFrame3차원을 처리할 자료형 : Pannel ⇒ 내가 처리할 자료들이 어떤 차원에서 처리할지 명시화 ⇒ 일반적으로 주로 2차원 2D : DataFramecf) 엑셀 통합파일 : 여러 시트...--> 3차원 : Pannel 엑셀 통합파일 내의 1개 시트 : 2차원 : DataFrame 엑셀 통합파일 내의 1개 sheet에서 1개 줄(가로/ 세로) : SeriesDL 쪽에서는 이 친구가 메인인 자료.. 2025. 8. 18.
[Python] Numpy 기초 _벡터 연산과 데이터 핸들링 주어진 데이터 수집/ 가공/변형/결과 : 파이썬기본적인 파이썬 문법파이썬 계열의 데이터 처리 패키지pandas →DF하지만 근본은 numpy: arraynumpy: 데이터를 처리하는 과정에서 가장 기본이 되는 패키지numerical python수치 연산쌩파이썬의 자료형으로 연산/ 벡터 산수가 불편함 ⇒ 모든 원소에 일괄 적용 “벡터 연산” 자료형 ⇒ 수식상 표현을 그대로 코드화 가능pandas/ scikit-learn / TF/ PyTorch 에서 가장 기본이 되는 자료형anaconda로 설치하면 → numpy, pandas 기본 설치 되어 있는 패키지 → 불러다가 사용만 하면 됨colab에서는 이미 설치가 되어있음 단, colab은 자기가 버전 수정을 해야함 (업그레이드는 원하지 않아도 함) 이래서 중.. 2025. 8. 18.