본문 바로가기

전체 글65

[Python] Pandas 11 _ pandas_m&a 기본적으로 1개의 DF이 아니라 여러개의 흩어져있는 DF에 있는 정보를 합쳐서 진행하는 과정⇒ sql에서 join과 매우 유사함방식1) 단순하게 이어 붙이는 연결’옆으로 이어 붙이기 (속성이 늘어나는 것)밑으로 이어 붙이기 (샘플의 수가 늘어나는 것)⇒ .append(아래로 붙이는 메서드) → 요즘은 concat으로 통합함FM적인 방법 : concat(axis = 0/1)pd.concat([합칠 DF1, 합칠 DF2, ….])axis = 0/1inplace_index = T/F합치다보면 기존 인덱스들이 중첩/꼬일 수 도 있음기존것을 싹 무시하고 0~n까지 정수 부여방식2) 특정 조건에 맞는 연결 (sql 에서 join — pandas에서 pd.merge)++리스트는 가로 중심, 딕셔너리는 세로 중심#1 .. 2025. 8. 21.
[Python] Pandas 10 _ csv pandas를 가지고 데이터를 주고 받을 때웹 데이터 : json, xml, html 등..파일 데이터 : 다양한 양식들이 존재 (R, SAS, 엑셀 ,,,,,etc)대표적인 양식 : csv, exel(xlsx)pandas를 가지고데이터를 불러올 때 : pd.read~데이터를 출력할 때 : pd. to ~~개인프로젝트 할 때 중간 중간 저장을 해야 할 때중간중간 내 pc에 저장팀플로 하면 개인이 맡은 부분을 공유csvhttps://pandas.pydata.org/docs/reference/api/pandas.read_csv.htmlcsv 파일값들을 전달하고자 하는 것이 목적!!!!구별자 sep : ",”⇒ sep는 내가 전달하는 데이터의 값을 생각하고 지정!!!!excel 파일값 + 꾸밈(양식)JSON/.. 2025. 8. 21.
[Python] Pandas 09 _ daum_site 웹 사이트에 있는 데이터를 수집하려고 할 때!!!api : best일반적인 사이트2-0) 아주 투명한 친구들 : 주소도 뭔가 원한느 입력에 바로 반응..별 허들X2-1) DART : 주소가 숨겨져 있는 친구들!!! --> 이리저러 찾아야 함!!2-2) daum금융숨겨진 주소를 찾아서 해도 안 될 때가 존재함웹브라우저에서는 동작 but 코드는 안 될 때user-agent : 접속하는 swreferer : 해당 주소를 어느 주소에서 호출쿠키 …브라우저 기반으로 내가 코드로 제어 : 셀레니움 ( 접속, 로그인 )큰 틀셀레니움( 접속, 로그인 )내부 : requests/ urllib 코드쏘면서 진행..…⇒ 이런 부분들은 정답이 없다!import urllib.requesturl = 'https://finance... 2025. 8. 21.
[Python] Pandas 08 _ dart_site 목적API를 활용해서 명시적으로 데이터를 요청/받는 작업!!통신 http를 활용해서, 정의된 api의 서버/요청사항에 대해서 요청/받아서 처리→ 유료로 api를 제공하는 경우도 많이 있음!! ( + 비용!!! 돈!!! ) → 접속이나 속도나 이런 부분에 있어서,,크게 구애받지 않음!! 돈 충분하면 상관 없음내가 원하는 정보가 api가 아닌 사이트에서 그냥 긁어야 하는 경우 있음case by case그쪽에서 얼마나 보안이나 데이터 보호에 신경쓰냐에 따라서 블락되거나 어려울 수 있음인스타그램빨리 접속하면 블락하고, 규칙을 랜덤하게 바꿈전문 크롤링 업체를 쓰는 게 나음일반적으로 사이트의 주소가 명시적으로 있는지에 따라서 보려고 함개발자 도구를 통해서 많이 찾아낼 수 있음셀레니움을 통해서 브라우저 자체를 코드 .. 2025. 8. 21.
[Python] Pandas 07 _ json_kobis_api 목적1앞에서 kobis api로 영화 목록에 대한 정보 요청DF으로 정리하는 과정에서 → 리스트 포장지→ 개별 정보 : 리스트 / dict etc→ 앞에서 pandas 기본 : Dict == pandas 잘 호응!!Dict 기반으로,,,목적2requests 패키지json 변환에 대한 모듈이 requests 내장을 했음!!import json : 불필요!!!# 필요한 모듈import pandas as pdimport requests # 필요없음!# 기본 주소 : json으로 주세요~~ ==> 꾸역꾸역 내가 문자열 조림!!# url_p1 = " "# # 필수항목 : key# key = "e5b253a83f004635cd7fd625e9a0a839" # 50개 요청!!!# url_p2 = "50"# # ==.. 2025. 8. 20.
[Python] Pandas 06 _ kobis_api_xml API에서 XML양식으로 요청하고 받아서 하는 부분을 동일하게 진행xml과 같은 스타일 html에서도 거의 유사함xml : 정보 전달 중심 // html 웹에서 보여주기.xml 양식 → Tag 중심의 언어!!! 해당tag에 대한 값 #필요한 기능import pandas as pdimport urllib.request#html..xml-> tag 중심 언어 BeautifulSoupfrom bs4 import BeautifulSoup#통신res = urllib.request.urlopen(url)# ===> res: xml 양식으로 되어있는 친구# bs4의 패키지 활용해서 : tag 중심으로 접근할 수 있도 파싱!!!soup = BeautifulSoup(res, "xml") # 일반 사이트 : ht.. 2025. 8. 20.