data-science-summary
-
후진 제거법 (Backward Elimination) in pythondata-science-summary/summary 2020. 9. 20. 18:29
후진 제거법 (Backward Elimination) feature selection 의 일환으로 변수를 줄인다. 모든 독립변수(설명변수)를 고려한 모델에서 유의하지 않은 설명변수를 하나씩 제거하는 방법 => 모든 변수를 입력한 뒤 가장 유의확률이 큰 설명 변수를 제외한다. 모든 설명변수가 유의하다 판정될때 까지 반복한다. # 반복적 변수 제거를 하여 변수별 중요도를 도출 from sklearn.feature_selection import RFE # 회귀용 가상 데이터 생성 from sklearn.datasets import make_regression # n_samples: 표본 데이터 수 , n_features: 독립변수 수, n_informative: 독립변수중 종속변수와 상관관계 있는 성분 수 X..
-
XGBoost in pythondata-science-summary/summary 2020. 9. 20. 18:05
Boosting 방식의 일종 Gradient boosting 보다는 빠름, GBM 에 과적합 방지가 가능한 regulation 포함된 모델 + 다양한 loss function을 지원하는 모델이다. from xgboost import XGBClassifier from sklearn.datasets import make_classification from sklearn.model_selection import train_test_split X, y = make_classification(random_state=0) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0) # max_depth : 트리의 최대..
-
xgboost 설치 후 ImportError: cannot import name 'Int64Index, os_fspath ' from 'xgboost.compat' 에러 해결법data-science-summary/etc 2020. 9. 20. 18:03
ImportError: cannot import name 'Int64Index' from 'xgboost.compat' ImportError: cannot import name 'os_fspath' from 'xgboost.compat' 경우에 따라 다르겠지만 xgboost 설치 후 jupyter notebook에서 위와 같은 에러가 나는경우 간단하게 아래 명령어 입력후 커맨드창과 jupyter notebook을 종료시킨뒤 다시 켜주면 해결된다. pip install --upgrade xgboost
-
window 에서 xgboost 설치하는 법 in pythondata-science-summary/etc 2020. 9. 20. 17:57
윈도우 XGBoost 설치법은 아래와 같다. 1. 아래 주소에서 xgboost 찾기를 통해 아래 파일을 다운받는다. ex) python 버젼 3.7이면 cp37, 지금 PC 가 64비트이면 amd64 xgboost‑1.1.0‑cp37‑cp37m‑win_amd64.whl www.lfd.uci.edu/~gohlke/pythonlibs/ Python Extension Packages for Windows - Christoph Gohlke by Christoph Gohlke, Laboratory for Fluorescence Dynamics, University of California, Irvine. Updated on 19 September 2020 at 02:43 UTC. This page provides..
-
XGBoostError: XGBoost Library (xgboost.dll) could not be loaded. 에러 해결법 & 윈도우 XGBoost 설치법data-science-summary/etc 2020. 9. 20. 17:54
XGBoostError: XGBoost Library (xgboost.dll) could not be loaded. Likely causes: * OpenMP runtime is not installed (vcomp140.dll or libgomp-1.dll for Windows, libgomp.so for UNIX-like OSes) * You are running 32-bit Python on a 64-bit OS Error message(s): ['[WinError 127] 지정된 프로시저를 찾을 수 없습니다'] 위 에러는 XGBoost 가 제대로 설치되지않아 발생하는 문제이다. 윈도우 XGBoost 설치법은 아래와 같다. 1. 아래 주소에서 xgboost 찾기를 통해 아래 파일을 다운받는다. ex..
-
LightGBM in pythondata-science-summary/summary 2020. 9. 20. 17:13
LightGBM (Gradient Boosting Algorithm) 기존 Gradient Boostring 과 같은 알고리즘은 트리 구조를 균형을 잡기위해 즉, 깊이를 줄이기위해 균형 트리(level wise) 방식으로 쌓아같지만 LightGBM 은 균형보다는 리프 노드를 지속적으로 쭉 분할(leaf wise)하면서 진행하여 비대칭이고 깊은 트리를 만든다. 따라서 연산이 덜 요구되어 빠르며 균형 트리 보다는 손실을 줄일수 있음 대용량 처리 가능, 다른 모델들보다 더 적은 자원을 사용하고 빠르다는 장점을 가지고 있음 단점은 너무 적은수의 데이터일 경우에는 과적합 문제가 발생할수 있음 from sklearn.datasets import make_classification from lightgbm impor..
-
GradientBoost in pythondata-science-summary/summary 2020. 9. 20. 17:10
GradientBoost Algorithm Boosting 방식의 일종 학습된 분류기의 약점을 알려주고 이 약점을 중점으로 보완을 하는방식 , 즉 점진적 개선이라 Gradient Leaf Node 하나로 아주 간단한 모델(A)로 시작 => 이 모델(A)로 예측하고 남은 잔차(Residual) 계산 => 그리고 이 잔차를 예측하는 모델(B)을 만들고 기존 모델(A)와 결합하여 정답 예측한다면 기존 모델(A)보다 나은 모델(B)생성가능 => 이 방법을 반복하면서 점차 나은 예측 모델을 만드는것이 GMB => 단점 : 과적합 => learning rate, regularization 을 통해 해결가능 from sklearn.datasets import make_classification from sklearn..
-
AdaBoost in pythondata-science-summary/summary 2020. 9. 20. 17:07
AdaBoost Boosting 방식의 일종 Decision Tree 를 만드는데 2개의 Leaf Node만 가지는 Tree 를 여러개(결국 feature 수만큼 stump 생성) 만든다. => 나무가 작은 즉, 그루터기(Stump) 라고 부름 만들어진 Stump 들을 순차적으로 사용하여 예측 => 그리고 데이터를 샘플링 할 때 각 데이터 마다 Weight를 줌(초기 weight 값은 1/전체 데이터수) Stump 를 거치면서 잘못 예측된 데이터는 weight 는 점점 커짐 그럼 Stump 의 순서도 중요한데 각 Stump 중 가장 불순도(Inpurity)가 작은 Stump 를 먼저 사용 그런뒤 Weight 를 갱신하기 전에 정확도(amount of say)를 구하고 틀린 데이터는 기존 Weight * ..