본문 바로가기

프로그래밍

(356)
fasttext, word2vec, pretrained word vector 평가 인터넷에서 찾을 수 있는 한국어 fasttext 와 word2vec 의 pretrained vector 들이 얼마나 쓸만한 것인지 궁금했다. gensim KeyedVecor 에는 accuracy, evaluate_word_analogies 메소드로 그 성능을 측정해 볼 수 있다.측정을 위한 아날로기 데이터는 영문의 경우에는 gensim 패키지에 들어 있지만, 한국어는 패키지에 포함되어 있지 않고, https://github.com/SungjoonPark/KoreanWordVectors 에서 받을 수 있다. github fasttext 에 있는 fasttext wiki pretrained model, github kyubyong 에 있는 word2vec 과 fasttext pretrained model 로..
[gensim|fasttext] KeyError: 'all ngrams for word absent from model' gensim 의 FastText 모델을 이용하여, pretrained 된 fasttext word vector 를 이용해 보려 했다. github.com/Kyubyong 의 pretrained model 을 다운받아서, fasttext word vector 를 구하려고 해봤다. fasttext 는 word2vec 과는 달리 train 시에 없었던 단어에 대한 word vector 도 구해준다고 알고 있었기 때문에, 단어가 아닌 단어로 테스트를 해 보았다. 그런데, 에러가 발생했다. 아래를 보자. from gensim.models import FastTextmodel = FastText.load_fasttext_format('kyubyong_pretrained/fasttext/ko.bin')model.wv..
[SPACY] windows 에 spacy 설치 윈도우의 바닐라 파이썬 pip 명령으로 spacy 를 설치하려 하면, 윈도우용 바이너리가 제공되지 않고, 소스만 제공되기 때문에, 컴파일러가 없으면 설치가 되지 않는다. 두가지 방법이 있다. 파이썬 설치에 익숙한 사람들에게는 별스러운 이야기는 아니지만, spacy 예제를 찾아보면, ubuntu 환경에서 실행한 예만 나와서 윈도우 환경에선 불가능할 거라고 생각했었는데, 의외로 간단하게 설치가 되어서 포스팅을 작성. 방법1. 아나콘다( anaconda ) 배포판을 이용하여 설치.바닐라 파이썬이 아니라 아나콘다를 설치하여 아나콘다 가상환경을 만들어 설치하면 간편하게 설치된다.가상환경을 생성하고,conda create -n envspacytest생성한 가상환경을 활성화하고,activate envspacytest..
[QUORA|번역] word2vec 과 fasttext의 가장 큰 차이점은 무엇인가? https://www.quora.com/What-is-the-main-difference-between-word2vec-and-fastText word2vec 과 fasttext의 가장 중요한 차이점은 다음과 같다. word2vec은 각 단어를 (쪼개질 수 없는) 원자적 단위로 취급해서, vector 를 만든다. 이점에서 word2vec 과 glove는 동일하다. fasttext 는 본질적으로 word2vec 모델을 확장한 것이지만, 단어를 문자(character)의 ngram 조합으로 취급한다. 그래서, 한 단어에 대한 벡터는 이들 ngram 의 합으로 만들어진다. 예를 들자면, "apple" 이란 단어의 벡터는 "", "ppl", "ppple", "pple>", "ple", "ple>", "le>" ..
[Python] 실수값 연분수로 근사값 분수 찾기, approx real value using continued fraction import math def contfrac(x, n=10, mx=1000): """ get continued fraction of real x 1 x = r0 + -------------------------- 1 r1 + -------------------- 1 r2 + ------------- r3 + .... n : maximum length of returning r:list mx : maximum ri return : continued fraction, list of integers """ r = [int(x)] if n == 0 or (x - r[0] < 1 / mx): return r return r + contfrac(1 / (x - r[0]), n - 1, mx) def cf2frac(..
[Anaconda] 아나콘다 파이썬의 로컬 업데이트 서버를 어떻게 만들 수 있나? 아나콘다를 인터넷이 안 되는 환경에서 쓸 수 없을까 검색해 보았다. superuser.com (스택익스체인지 포럼중 하나)에서 관련답변을 찾아서, 번역해보았다. 원문은 하이퍼링크를 따라가서 확인 바랍니다. 해보진 않았음. 아나콘다 파이썬의 로컬 업데이트 서버를 어떻게 만들 수 있나? https://superuser.com/a/1003389/114015 HTTP 서버를 만들고 http://repo.continuum.io/pkgs/ 의 모든 내용을 복사해 넣습니다. .condarc 파일을 사용하여이 새 서버를 바라보도록 합니다. 웹 서버를 하나 만들고, 위 주소 퍼블릭 리포지토리에 있는 파일들을 동일한 디렉토리 구조로 배치합니다 (단, /pkgs/free/ 부분은 필요 없습니다). 리포지토리 파일(예 : h..
[TENSORFLOW] cpu버전 tensorflow 1.6 이상에서 DLL 초기화 루틴을 실행할 수 없습니다 에러. cpu버전의 tensorflow 를 윈도우 피씨(한국어 윈도우 10)에 설치해서 잘 테스트해 보고 있었다. 그런데, 오늘 tensorflow 를 다시 설치하고, 테스트 하려 하였더나, import tensorflow as tf 문에서 에러가 발생했다.에러 메시지는 대략 다음과 같았다. File "", line 994, in _gcd_import File "", line 971, in _find_and_load File "", line 955, in _find_and_load_unlocked File "", line 658, in _load_unlocked File "", line 571, in module_from_spec File "", line 922, in create_module File "", ..
PIP pylint wrapt install 시 UnicodeDecodeError C:\Users\me>py -3 -m pip install pylintCollecting pylint Downloading http://192.168.123.210:7000/packages/pylint-1.9.1-py2.py3-none-any.whl (687kB) 100% |████████████████████████████████| 696kB ...Collecting astroid=1.6 (from pylint) Downloading http://192.168.123.210:7000/packages/astroid-1.6.4-py2.py3-none-any.whl (290kB) 100% |████████████████████████████████| 296kB 6.6MB/sRequirement already..