반응형
랜덤포레스트의 기본 변수중요도에 주의하라 / Beware Default Random Forest Importances
link : https://explained.ai/rf-importance/
요약
scikit-learn 랜덤포레스트의 변수중요도( feature importance) 또는 R의 기본 랜덤포레스트 변수중요도는
편향되어 있다. 파이썬에서 믿을만한 결과를 얻으려면, rfpimp 패키지에서 제공하는 퍼뮤테이션 중요도
(permutation importance)를 사용하라. R에서는 랜덤포레스트 생성시에 importance=T
를 사용하고,importance()
함수에서 type=1
인자를 주라. 더불어, 변수중요도는 모델이 적절한 하이퍼패러미터로
훈련되었을 때에만 믿을 수 있다.
이후 상세한 내용은 위 링크를 클릭하여 전체 문서를 읽어보세요.
2019년 10월 22일 추가
scikit-learn
에 permutation_importance
가 추가될 예정으로 보입니다. 현재 개발버전 다큐멘테이션에서는 permutation_importance
에 대한 페이지 가 존재합니다. 정식으로 기능이 추가되면, 그걸 사용하면 될 듯 해요.
728x90
'프로그래밍 > AI:ML:DL' 카테고리의 다른 글
[Yolo|번역] Yolo 에서 나오는 anchor box 개념에 대해 설명해 줄 수 있을까? (0) | 2019.12.02 |
---|---|
[번역|SO] 시계열데이터의 이상탐지를 위한 패키지 (0) | 2019.09.05 |
[ML|SO번역] 머신러닝에서 Out-of-Fold (OOF) 란? (0) | 2019.08.14 |
추천시스템 메모 2 (0) | 2019.07.13 |
추천시스템 메모 (0) | 2019.07.12 |