data analysis & visualization

#사용한 패키지
import os
from sklearn.linear_model import LinearRegression
import numpy as np
import pandas as pd
from pandas import DataFrame, Series
from itertools import cycle
import statsmodels.api as sm
#경로내 파일 확인
os.listdir("./")

#i변수 내 리스트와 해당 갯수
df[i].value_counts()

#dim
df.shape

#자료 타입
df.dtypes

#결측치 개수 파악

 df.isnull().sum()
 
#변수 내 해당개수가 5개 이하인 자료 추출
for i in df_1.select_dtypes(include='object').columns:
   print(df_1.shape)
   df_1=df_1[df_1[i].isin(df_1[i].value_counts()[df_1[i].value_counts()>5].axes[0].tolist())]   
    
    
#범주형 자료 추출
df_1.select_dtypes(include='object').columns

#자료 더미화
df_1=pd.get_dummies(df_1)

#특정 변수를 제외하고 추출
train_X_2=df_2[df_2.columns.difference([i])]

#상수항 추가
train_X_2=sm.add_constant(train_X_2)

#회귀분석
import statsmodels.api as sm
import statsmodels.formula.api as smf
res_1 = smf.OLS(train_Y_1,train_X_1).fit()
res_1.summary()