반응형
현대한어사전 파일을 구했다. 유니코드 텍스트로 변환한 후에, 출현 빈도를 아주 원시적으로 분석했다. 아라비아 숫자, 기호 등도 하나의 문자로 분석됐다.
분석은 기초적인 파이썬 문법을 사용했고, 단문자, 이어진 두문자, 이어진 세문자의 빈도까지 분석했다.
기호에 따라 나누기, 기호 무시하기 등을 추가하여 개선할 수 있을 것 같다.
的이 단연 1등. ~의 란 뜻으로도 쓰이고, ~한 것 이란 뜻으로도 쓰였을 터. 사전에서 많이 출현했다는 게 이해가 간다.
분석 원본인 사전 파일은 저작권 침해의 우려가 있어 포함되지 않았다.
728x90
'언어 > 중국어' 카테고리의 다른 글
중국초등학교1학년 교과서 읽기연습 (0) | 2011.05.13 |
---|---|
[중국어] 看雪学院是什么? (0) | 2011.03.09 |
[중국어|읽기연습] 白蛇传 (0) | 2011.03.06 |
IBM 면접 시험문제 : 형제의 돈나누기 (0) | 2011.02.27 |
중요한 중국어 표현 100개 (0) | 2011.02.27 |