python 회귀분석 할 때 주로 사용할 것 같은 패키지 및 코드
python2020. 1. 14. 23:00
#사용한 패키지
import os
from sklearn.linear_model import LinearRegression
import numpy as np
import pandas as pd
from pandas import DataFrame, Series
from itertools import cycle
import statsmodels.api as sm
#경로내 파일 확인
os.listdir("./")
#i변수 내 리스트와 해당 갯수
df[i].value_counts()
#dim
df.shape
#자료 타입
df.dtypes
#결측치 개수 파악
df.isnull().sum()
#변수 내 해당개수가 5개 이하인 자료 추출
for i in df_1.select_dtypes(include='object').columns:
print(df_1.shape)
df_1=df_1[df_1[i].isin(df_1[i].value_counts()[df_1[i].value_counts()>5].axes[0].tolist())]
#범주형 자료 추출
df_1.select_dtypes(include='object').columns
#자료 더미화
df_1=pd.get_dummies(df_1)
#특정 변수를 제외하고 추출
train_X_2=df_2[df_2.columns.difference([i])]
#상수항 추가
train_X_2=sm.add_constant(train_X_2)
#회귀분석
import statsmodels.api as sm
import statsmodels.formula.api as smf
res_1 = smf.OLS(train_Y_1,train_X_1).fit()
res_1.summary()
'python' 카테고리의 다른 글
matplotlib 정리(1) (0) | 2020.02.16 |
---|---|
주피터 노트북에 메모리 사용량 모니터링 하기 (0) | 2020.01.24 |
power shell 을 활용하여 windows에 jupyter notebook 설치하기 (0) | 2019.06.27 |
selenium, shape file을 활용한 미세먼지 시각화(folium 사용) (0) | 2019.05.09 |
파이썬3.7 지뢰찾기 (0) | 2019.04.08 |