본문 바로가기

프로그래밍/AI:ML:DL

[ML|번역] 랜덤포레스트의 기본 변수중요도에 주의하라

반응형

랜덤포레스트의 기본 변수중요도에 주의하라 / Beware Default Random Forest Importances

link : https://explained.ai/rf-importance/

요약

scikit-learn 랜덤포레스트의 변수중요도( feature importance) 또는 R의 기본 랜덤포레스트 변수중요도는
편향되어 있다. 파이썬에서 믿을만한 결과를 얻으려면, rfpimp 패키지에서 제공하는 퍼뮤테이션 중요도
(permutation importance)를 사용하라. R에서는 랜덤포레스트 생성시에 importance=T 를 사용하고,
importance() 함수에서 type=1 인자를 주라. 더불어, 변수중요도는 모델이 적절한 하이퍼패러미터로
훈련되었을 때에만 믿을 수 있다.

이후 상세한 내용은 위 링크를 클릭하여 전체 문서를 읽어보세요.


2019년 10월 22일 추가

scikit-learnpermutation_importance 가 추가될 예정으로 보입니다. 현재 개발버전 다큐멘테이션에서는 permutation_importance 에 대한 페이지 가 존재합니다. 정식으로 기능이 추가되면, 그걸 사용하면 될 듯 해요.

728x90