전체 글65 [작업형1] 데이터마님 전처리 100 헷갈리는 것 정리 01 Getting & Knowing Data#11. 수치형 변수를 가진 컬럼을 출력하라df.select_dtypes(exclude='O').columns################select_dtypes에는 꼭 s를 붙여라 제발################컬럼 출력하라는데 .columns를 붙여야하지 않겠니?!?!??!? select_dtypes에는 꼭 s를 붙여라 제발 02 Filtering & Sorting #22. quantity컬럼 값이 3인 데이터를 추출하여 index를 0부터 정렬하고 첫 5행을 출력하라df[df['quantity']==3].reset_index(drop=True).head()#############drop=True를 써야해!!!!!!!!#23. quantity , item.. 2025. 6. 19. [작업형2] 단계별로 해야할 것 정리 1. 데이터 불러오기 (문제에서 제공) 2. EDAtrain.shape, test.shape -> 크기 확인하기train.head() / test.head() -> 데이터프레임 대강 파악/ test에 예측해야하는 컬럼 빠져있을 것 train.info() -> 데이터 타입 확인하기 위함train.isnull().sum() / test.isnull().sum() -> 결측값 확인 ( 있다면 결측치 처리 필수, 근데 아직 그런 문제 안 나옴 ) train['Attrition_Flag'].value.counts() -> 분류 문제일 때 타겟값 어떻게 분포해 있는지 확인 train['target'].describe() -> 원래 회귀에서는 시각화로 파악하는데 시험환경에서 시각화 안 돼서 이거로 대략적 파악함 +.. 2025. 6. 17. [작업형1] 모의문제 정리 문제1f1컬럼의 결측치는 중앙 값으로 대체하고나머지 결측치가 있는 데이터(행)을 모두 제거하고,앞에서부터 70% 데이터 중 views 컬럼의 3사분위 수에서 1사분위 수를 뺀 값을 구하시오(단, 데이터 70% 지점은 정수형(int) 변환)import pandas as pddf = pd.read_csv("members.csv")#-----------------------------------------------------------------------------#f1컬럼의 결측치는 중앙 값으로 대체하고df['f1'] = df['f1'].fillna(df['f1'].median())#나머지 결측치가 있는 데이터(행)을 모두 제거하고,df = df.dropna()#앞에서부터 70% 데이터 중 views 컬.. 2025. 6. 16. [작업형1] 시계열 데이터 코드 정리 DateTime# Date1df = pd.read_csv("date.csv")print(df['Date1'])###df = pd.to_datetime(df['Date1']) #이 부분이 문제df['Date1'] = pd.to_datetime(df['Date1'])print(df['Date1'])##pd.to_datetime(df['Date1'])는 'Date1' 컬럼의 값을 datetime 형식으로 변환한 Series를 반환##Series를 다시 df에 할당하면, 이제 df는 더 이상 DataFrame이 아니라 Series가 됩니다.##그 다음 줄에서 print(df['Date1'])를 실행하면,##Series에는 'Date1'이라는 컬럼이 없기 때문에 KeyError가 발생##df['Date1'] = .. 2025. 6. 15. [작업형1] 섹션3 판다스 코드 정리 Section1. 데이터 프레임과 시리즈menu = pd.Series(['비빔밥','김치찌개','된장찌개']) Section2. 데이터 저장 및 불러오기# 저장 temp.csvdf.to_csv('temp.csv')# 저장한 데이터 불러오기temp_df = pd.read_csv('temp.csv') Section3. 탐색적 데이터 분석 (EDA)## 랜덤하게 샘플 확인df.sample(3)## 데이터 프레임 크기 (행, 컬럼)df.shape #얘는 데이터 속성 보는 거라 소괄호 없음#행-> 데이터 수#열-> 컬럼 수## 컬럼 형태(type)df.info()#각 컬럼의 데이터가 어떤 형태로 들어가있는지 확인## 상관관계df.corr(numeric_only=True) #numeric_only=True 이건 지.. 2025. 6. 15. 이전 1 ··· 8 9 10 11 다음