본문 바로가기

nlp

(9)
2021년 5월 konlpy 설치시 문제점들 konlpy 를 오랜만에 설치하고 테스트해 보았다. 설치시에 문제점들이 발견되어 정리하여 공유한다. 테스트는 윈도우에서 수행하였고, openjdk 가 (adoptopenjdk를 이용) 깔려 있으며, JAVA_HOME 과 PATH 설정도 되어 있는 상태이다. 1. python 3.7 새롭게 3.7 가상환경을 만들었다. py -3.7 -m venv v3764 해당 가상환경에 들어가서 konlpy 를 설치했다. c:\PYENVS> v3764\Scripts\activate (v3764) c:\PYENVS> pip install konlpy python 인터프리터로 들어가 konlpy 헬로월드를 해 보자. 에러가 발생한다. (v3764) C:\PYENVS>python Python 3.7.9 (tags/v3.7.9..
우분투에 kss 설치시 fatal error: Python.h: No such file or directory 에러가 발생할 때. ubuntu 18.04 에 kss 를 설치해 봤다. kss 는 한국어 문장분리용 파이썬 라이브러리이다. (2020년 3월 현재) 윈도우에서는 설치가 안 되고, python2 에서도 설치가 안 된다. ubuntu 에서 python3 로 우선 가상환경을 하나 만들어서, 그 가상환경으로 진입하여 설치를 진행했다. `pip install kss` 명령을 실행하였으나, 다음과 같은 에러가 발생했다. Running setup.py clean for kss Failed to build kss Installing collected packages: kss Running setup.py install for kss ... error ERROR: Command errored out with exit status 1: co..
[Python|LexRankr] 한국어 문서 요약 lexrankr 이라는 문서요약 패키지를 테스트 해 보았음. ( https://github.com/theeluwin/lexrankr ) 실행해 본 코드는 패키지 홈페이지의 예제코드이므로 별다를 것이 없다. 과거에는 설치시에 konlpy 를 설치해야 하고, scipy 와 numpy 설치에도 까다로운 부분이 있었기 때문에 윈도우에서는 약간 번거로운 점이 있었다. 하지만, 2019년 현재는 konlpy 설치는 konlpy 설치 가이드를 잘 따라하면 큰 무리가 없다. 자바sdk, 자바 홈 변수 설정 정도만 잘 신경쓰면 되고, jpype1 을 수동으로 설치할 필요가 없음. jpypye1 패키지도 pypi 에 윈도우용 바이너리가 잘 올라가 있음. lexrankr 의 설치시 jpype1-py3 충돌문제 (2019년 ..
[NLP] 한국어 감정 단어 출처1 : 한국어 감정표현단어의 추출과 범주화 - 손선주, 박미숙, 박지은, 손진훈, 2012년 논문 출처2 : 경희대학교 BK21+ 데이터과학기반 경영전문 연구인력 양성사업 게시판, 2015년 게시물 아래 내용은 출처2 의 엑셀파일 내용입니다. 출처1의 부록에 있는 단일범주 감정단어 목록이 업데이트된 것으로 보입니다. 출처1 논문 부록에 보면, 아래 리스트에 없는 다중범주 단어목록도 있습니다. 가끔 한국어 감정관련 분석을 하시는 분들이 이런 자료를 찾는 것도 같아서, 게시판에 숨어 있어서 검색이 어려운 자료를 제 블로그에도 옮겨 놓습니다. 최대한 원출처를 찾아서 표시하려 노력하였습니다. 만, 저작권상 문제가 있다고 생각한다면 댓글로 말씀해 주시기 바랍니다. 또한 아래자료를 다시 사용하시는 분들도 원출처..
[SPACY] windows 에 spacy 설치 윈도우의 바닐라 파이썬 pip 명령으로 spacy 를 설치하려 하면, 윈도우용 바이너리가 제공되지 않고, 소스만 제공되기 때문에, 컴파일러가 없으면 설치가 되지 않는다. 두가지 방법이 있다. 파이썬 설치에 익숙한 사람들에게는 별스러운 이야기는 아니지만, spacy 예제를 찾아보면, ubuntu 환경에서 실행한 예만 나와서 윈도우 환경에선 불가능할 거라고 생각했었는데, 의외로 간단하게 설치가 되어서 포스팅을 작성. 방법1. 아나콘다( anaconda ) 배포판을 이용하여 설치.바닐라 파이썬이 아니라 아나콘다를 설치하여 아나콘다 가상환경을 만들어 설치하면 간편하게 설치된다.가상환경을 생성하고,conda create -n envspacytest생성한 가상환경을 활성화하고,activate envspacytest..
[QUORA|번역] word2vec 과 fasttext의 가장 큰 차이점은 무엇인가? https://www.quora.com/What-is-the-main-difference-between-word2vec-and-fastText word2vec 과 fasttext의 가장 중요한 차이점은 다음과 같다. word2vec은 각 단어를 (쪼개질 수 없는) 원자적 단위로 취급해서, vector 를 만든다. 이점에서 word2vec 과 glove는 동일하다. fasttext 는 본질적으로 word2vec 모델을 확장한 것이지만, 단어를 문자(character)의 ngram 조합으로 취급한다. 그래서, 한 단어에 대한 벡터는 이들 ngram 의 합으로 만들어진다. 예를 들자면, "apple" 이란 단어의 벡터는 "", "ppl", "ppple", "pple>", "ple", "ple>", "le>" ..
[NLP] Word2Vec 튜토리얼 - 스킵-그램 모델 Word2Vec 튜토리얼 - 스킵-그램 모델http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/ 2016 년 4 월 19 일 이 튜토리얼에서는 Word2Vec의 스킵 그램 신경망 아키텍처에 대해 다룹니다. 이 튜토리얼은 Word2Vec에 대해 일반적으로 소개하는 추상적인 통찰이 아닌, 조금 더 구체적인 내용을 살펴볼 것입니다. 특히 여기에서는 스킵 그램 신경망 모델을 다뤄 보겠습니다. 모델 스킵 그램 신경망 모델의 기본적인 개념은 사실 아주 간단합니다. 복잡해 지는 것은 세부적인 트릭과 개선사항에 대한 설명에 들어갔을 때라고 생각됩니다. 높은 수준의 직관에서부터 살펴봅시다. Word2Vec은 머신러닝의 다른 곳에서 아마 보았을 ..
[GENSIM] "You must specify either total_examples or total_words, for proper job parameters updation 간단한 gensim doc2vec 코드를 실행하다가 다음과 같은 에러 메시지가 발생했다."You must specify either total_examples or total_words, for proper job parameters updation"ValueError: You must specify either total_examples or total_words, for proper job parameters updationand progress calculations. The usual value is total_examples=model.corpus_count. 실행했던 코드는, 2015년 파이콘 코리아에서 lucypark 이 발표한 슬라이드 안의 코드로 ( https://www.lucypark...