728x90
반응형

1. XGBoost(Extreme gradient boosting)

==> 성능이 우수한 트리 기반 부스팅 알고리즘

https://knowallworld.tistory.com/377

 

[PYTHON - 머신러닝_XGBoost]★pd.options.display.max_columns★정밀도, 재현율, F1-score

1. 부스팅 알고리즘 ==> 랜덤 포레스트는 각 트리를 독립적으로 만드는 알고리즘 ==> 서로 관련 없이 생성한다. ==> 부스팅은 순차적으로 트리를 만들어 이전 트리로부터 학습한 내용이 다음 트리

knowallworld.tistory.com

 

부스팅 알고리즘:

 

==> 가중치를 활용해 분류 성능이 약한 모델을 강하게 만드는 기법

 

==> 배깅의 경우 결정 트리 1 과 트리 2가 서로 독립적으로 결과를 예측한 다음 보팅 

 

==> 부스팅은 모델 간 협력이 이루어진다.

 

==> 이전 모델이 잘못 예측한 데이터에 가중치를 부여한다. 다음 모델은 이전 모델이 잘못 예측한 데이터(가중치가 부여된 데이터) 에 더 집중해 훈련한다.

https://knowallworld.tistory.com/388

 

 

[PYTHON - 머신러닝_캐글_모델]★결정 트리★엔트로피★앙상블 학습★보팅★배깅★부스팅★랜덤

1. 결정트리(Decision tree) ==> 분류와 회귀 문제에 모두 사용 가능한 모델 ==> 머신러닝에서 결정 트리는 노드 내 데이터의 불순도를 최소화하는 방향으로 분할 한다. 불순도는 한 범주 안에 서로 다

knowallworld.tistory.com

==> 랜덤 포레스트는 결정 트리를 병렬로 배치 , XGBoost는 직렬로 배치

 

==> 랜덤 포레스트는 배깅방식,  XGBoost는 부스팅 방식

 

==> 직전 트리가 예측한 값을 다음 트리가 활용해서 예측값을 조금씩 수정한다.

 

2. LightGBM

 

==> XGBoost보다 훈련 속도가 더 빠른 모델이다.

 

==> 대부분의 트리 기반 모델은 트리를 균형 있게 분할하며 훈련해야 트리 깊이가 최소화 되고, 과대적합도 방지한다.

 

==> but. 균형을 유지하려면 추가 연산이 필요하여 시간이 더 걸린다.

 

==> LightGBM은 말단 노드 중심으로 예측 오류를 최소화하게끔 분할.

 

==> BUT. 데이터 개수가 적을 때는 과대적합되기 쉬우므로 하이퍼파라미터를 조정해주어야 한다.

 

https://knowallworld.tistory.com/378

 

[PYTHON - 머신러닝_LightGBM]★geopy.distance이용한 거리계산★groupby★agg활용한 통계계산★time 라이브

1. LightGBM ==> XGBoost 이후 나온 최신 부스팅 모델. ==> 리프 중심 트리 분할 방식 사용 장점 : ㉠ XGBoost보다 빠르고 높은 정확도를 보여준다. ㉡ 예측에 영향을 미친 변수의 중요도를 확인할 수 있다.

knowallworld.tistory.com

장점 :

 

㉠ XGBoost보다 빠르고 높은 정확도를 보여준다.

 예측에 영향을 미친 변수의 중요도를 확인할 수 있다.

㉢ 변수 종류가 많고 데이터가 클 수록 상대적으로 뛰어난 성능을 보여준다.

 

단점 :

 

㉠ 복잡한 모델인 만큼 ,해석에 어려움이 있다.

㉡ 하이퍼파라미터 튜닝이 까다롭다.

 

출처 : 머신러닝·딥러닝 문제해결 전략

(Golden Rabbit , 저자 : 신백균)

※혼자 공부용

728x90
반응형

+ Recent posts