본문 바로가기

gensim

(5)
[Python|LexRankr] 한국어 문서 요약 lexrankr 이라는 문서요약 패키지를 테스트 해 보았음. ( https://github.com/theeluwin/lexrankr ) 실행해 본 코드는 패키지 홈페이지의 예제코드이므로 별다를 것이 없다. 과거에는 설치시에 konlpy 를 설치해야 하고, scipy 와 numpy 설치에도 까다로운 부분이 있었기 때문에 윈도우에서는 약간 번거로운 점이 있었다. 하지만, 2019년 현재는 konlpy 설치는 konlpy 설치 가이드를 잘 따라하면 큰 무리가 없다. 자바sdk, 자바 홈 변수 설정 정도만 잘 신경쓰면 되고, jpype1 을 수동으로 설치할 필요가 없음. jpypye1 패키지도 pypi 에 윈도우용 바이너리가 잘 올라가 있음. lexrankr 의 설치시 jpype1-py3 충돌문제 (2019년 ..
[GENSIM] LDA 주제 분포 기준 문서간 유사도를 비교하는 방법 google gensim 그룹스에 How to compare the topical similarity between two documents fromo their LDA topic distributions? 란 질문이 올라왔음. 그 타래 중에 일부를 번역한다. 코사인 유사도 보다 쿨백-라이블러( kullback-leiber divergence )가 더 적절할지 모른다. - Victor Wang gensim 튜토리얼에 따르면, Kullback-Leibler divergence 가 코사인 유사도 보다 더 적절한 유사도이다. https://radimrehurek.com/gensim/tut3.html "코사인 유사도는 벡터스페이스모델에서의 표준적인 방식이지만, 벡터가 확률분포를 나타낼 때에는 다른 유사도 측정방..
fasttext, word2vec, pretrained word vector 평가 인터넷에서 찾을 수 있는 한국어 fasttext 와 word2vec 의 pretrained vector 들이 얼마나 쓸만한 것인지 궁금했다. gensim KeyedVecor 에는 accuracy, evaluate_word_analogies 메소드로 그 성능을 측정해 볼 수 있다.측정을 위한 아날로기 데이터는 영문의 경우에는 gensim 패키지에 들어 있지만, 한국어는 패키지에 포함되어 있지 않고, https://github.com/SungjoonPark/KoreanWordVectors 에서 받을 수 있다. github fasttext 에 있는 fasttext wiki pretrained model, github kyubyong 에 있는 word2vec 과 fasttext pretrained model 로..
[gensim|fasttext] KeyError: 'all ngrams for word absent from model' gensim 의 FastText 모델을 이용하여, pretrained 된 fasttext word vector 를 이용해 보려 했다. github.com/Kyubyong 의 pretrained model 을 다운받아서, fasttext word vector 를 구하려고 해봤다. fasttext 는 word2vec 과는 달리 train 시에 없었던 단어에 대한 word vector 도 구해준다고 알고 있었기 때문에, 단어가 아닌 단어로 테스트를 해 보았다. 그런데, 에러가 발생했다. 아래를 보자. from gensim.models import FastTextmodel = FastText.load_fasttext_format('kyubyong_pretrained/fasttext/ko.bin')model.wv..
[GENSIM] "You must specify either total_examples or total_words, for proper job parameters updation 간단한 gensim doc2vec 코드를 실행하다가 다음과 같은 에러 메시지가 발생했다."You must specify either total_examples or total_words, for proper job parameters updation"ValueError: You must specify either total_examples or total_words, for proper job parameters updationand progress calculations. The usual value is total_examples=model.corpus_count. 실행했던 코드는, 2015년 파이콘 코리아에서 lucypark 이 발표한 슬라이드 안의 코드로 ( https://www.lucypark...