python
python 회귀분석 할 때 주로 사용할 것 같은 패키지 및 코드
cj92
2020. 1. 14. 23:00
#사용한 패키지
import os
from sklearn.linear_model import LinearRegression
import numpy as np
import pandas as pd
from pandas import DataFrame, Series
from itertools import cycle
import statsmodels.api as sm
#경로내 파일 확인
os.listdir("./")
#i변수 내 리스트와 해당 갯수
df[i].value_counts()
#dim
df.shape
#자료 타입
df.dtypes
#결측치 개수 파악
df.isnull().sum()
#변수 내 해당개수가 5개 이하인 자료 추출
for i in df_1.select_dtypes(include='object').columns:
print(df_1.shape)
df_1=df_1[df_1[i].isin(df_1[i].value_counts()[df_1[i].value_counts()>5].axes[0].tolist())]
#범주형 자료 추출
df_1.select_dtypes(include='object').columns
#자료 더미화
df_1=pd.get_dummies(df_1)
#특정 변수를 제외하고 추출
train_X_2=df_2[df_2.columns.difference([i])]
#상수항 추가
train_X_2=sm.add_constant(train_X_2)
#회귀분석
import statsmodels.api as sm
import statsmodels.formula.api as smf
res_1 = smf.OLS(train_Y_1,train_X_1).fit()
res_1.summary()