본문 바로가기

2018/07

(4)
fasttext, word2vec, pretrained word vector 평가 인터넷에서 찾을 수 있는 한국어 fasttext 와 word2vec 의 pretrained vector 들이 얼마나 쓸만한 것인지 궁금했다. gensim KeyedVecor 에는 accuracy, evaluate_word_analogies 메소드로 그 성능을 측정해 볼 수 있다.측정을 위한 아날로기 데이터는 영문의 경우에는 gensim 패키지에 들어 있지만, 한국어는 패키지에 포함되어 있지 않고, https://github.com/SungjoonPark/KoreanWordVectors 에서 받을 수 있다. github fasttext 에 있는 fasttext wiki pretrained model, github kyubyong 에 있는 word2vec 과 fasttext pretrained model 로..
[gensim|fasttext] KeyError: 'all ngrams for word absent from model' gensim 의 FastText 모델을 이용하여, pretrained 된 fasttext word vector 를 이용해 보려 했다. github.com/Kyubyong 의 pretrained model 을 다운받아서, fasttext word vector 를 구하려고 해봤다. fasttext 는 word2vec 과는 달리 train 시에 없었던 단어에 대한 word vector 도 구해준다고 알고 있었기 때문에, 단어가 아닌 단어로 테스트를 해 보았다. 그런데, 에러가 발생했다. 아래를 보자. from gensim.models import FastTextmodel = FastText.load_fasttext_format('kyubyong_pretrained/fasttext/ko.bin')model.wv..
[SPACY] windows 에 spacy 설치 윈도우의 바닐라 파이썬 pip 명령으로 spacy 를 설치하려 하면, 윈도우용 바이너리가 제공되지 않고, 소스만 제공되기 때문에, 컴파일러가 없으면 설치가 되지 않는다. 두가지 방법이 있다. 파이썬 설치에 익숙한 사람들에게는 별스러운 이야기는 아니지만, spacy 예제를 찾아보면, ubuntu 환경에서 실행한 예만 나와서 윈도우 환경에선 불가능할 거라고 생각했었는데, 의외로 간단하게 설치가 되어서 포스팅을 작성. 방법1. 아나콘다( anaconda ) 배포판을 이용하여 설치.바닐라 파이썬이 아니라 아나콘다를 설치하여 아나콘다 가상환경을 만들어 설치하면 간편하게 설치된다.가상환경을 생성하고,conda create -n envspacytest생성한 가상환경을 활성화하고,activate envspacytest..
[QUORA|번역] word2vec 과 fasttext의 가장 큰 차이점은 무엇인가? https://www.quora.com/What-is-the-main-difference-between-word2vec-and-fastText word2vec 과 fasttext의 가장 중요한 차이점은 다음과 같다. word2vec은 각 단어를 (쪼개질 수 없는) 원자적 단위로 취급해서, vector 를 만든다. 이점에서 word2vec 과 glove는 동일하다. fasttext 는 본질적으로 word2vec 모델을 확장한 것이지만, 단어를 문자(character)의 ngram 조합으로 취급한다. 그래서, 한 단어에 대한 벡터는 이들 ngram 의 합으로 만들어진다. 예를 들자면, "apple" 이란 단어의 벡터는 "", "ppl", "ppple", "pple>", "ple", "ple>", "le>" ..