반응형
인터넷에서 찾을 수 있는 한국어 fasttext 와 word2vec 의 pretrained vector 들이 얼마나 쓸만한 것인지 궁금했다.
gensim KeyedVecor 에는 accuracy, evaluate_word_analogies 메소드로 그 성능을 측정해 볼 수 있다.
측정을 위한 아날로기 데이터는 영문의 경우에는 gensim 패키지에 들어 있지만, 한국어는 패키지에 포함되어 있지 않고, https://github.com/SungjoonPark/KoreanWordVectors 에서 받을 수 있다.
github fasttext 에 있는 fasttext wiki pretrained model, github kyubyong 에 있는 word2vec 과 fasttext pretrained model 로 accuracy 를 확인해 봤다. 결과는 다음과 같다.
728x90
'프로그래밍 > AI:ML:DL' 카테고리의 다른 글
windows 에서 pytorch / autokeras 설치하기 (12) | 2019.03.26 |
---|---|
[BERT] bert-as-service server port conflict on windows (2) | 2019.02.17 |
[gensim|fasttext] KeyError: 'all ngrams for word absent from model' (0) | 2018.07.20 |
[SPACY] windows 에 spacy 설치 (0) | 2018.07.18 |
[QUORA|번역] word2vec 과 fasttext의 가장 큰 차이점은 무엇인가? (0) | 2018.07.12 |