본문 바로가기

언어/중국어

중국어 단어 빈도 분석 (현대한어사전)

728x90

현대한어사전 파일을 구했다. 유니코드 텍스트로 변환한 후에, 출현 빈도를 아주 원시적으로 분석했다. 아라비아 숫자, 기호 등도 하나의 문자로 분석됐다.


분석은 기초적인 파이썬 문법을 사용했고, 단문자, 이어진 두문자, 이어진 세문자의 빈도까지 분석했다.


기호에 따라 나누기, 기호 무시하기 등을 추가하여 개선할 수 있을 것 같다.



的이 단연 1등. ~의 란 뜻으로도 쓰이고, ~한 것 이란 뜻으로도 쓰였을 터. 사전에서 많이 출현했다는 게 이해가 간다.




분석 원본인 사전 파일은 저작권 침해의 우려가 있어 포함되지 않았다.