본문 바로가기

유니코드

(3)
인코딩을 들여다보자 아주 오래전에 회사내부에서 공유하려 만들었던 글입니다. 인코딩을 들여다보자 다음과 같은 실험으로 인코딩을 들여다보자. 준비물 : notepad, madedit, python notepad 로 동일한 문자열 여러가지 인코딩으로 저장해 보기 기본 cp949 인코딩 영문은 한 글자당 한바이트가 되고, 한글 한 글자가 두바이트가 되는 cp949 (euc-kr) 인코딩 바이트 스트림이 저장된다. utf-8 인코딩 영문은 여전히 한 글자당 한바이트, 한글은 한 글자가 3바이트가 되어 저장된다. utf 16(le) 인코딩 영문, 한글 상관 없이 모든 글자 하나가 두바이트로 저장된다. utf 16(be) 인코딩 바로 위와 동일하게 영문, 한글 모두 두바이트씩으로 저장되지만, 두바이트의 순서가 le와 반대이다. made..
한글 초성-중성-종성 인덱스를 r-g-b 에 대응시켜 만든 대응 색상표. 가각갂갃간갅갆갇갈갉갊갋갌갍갎갏감갑값갓갔강갖갗갘같갚갛개객갞갟갠갡갢갣갤갥갦갧갨갩갪갫갬갭갮갯갰갱갲갳갴갵갶갷갸갹갺갻갼갽갾갿걀걁걂걃걄걅걆걇걈걉걊걋걌걍걎걏걐걑걒걓걔걕걖걗걘걙걚걛걜걝걞걟걠걡걢걣걤걥걦걧걨걩걪걫걬걭걮걯거걱걲걳건걵걶걷걸걹걺걻걼걽걾걿검겁겂것겄겅겆겇겈겉겊겋게겍겎겏겐겑겒겓겔겕겖겗겘겙겚겛겜겝겞겟겠겡겢겣겤겥겦겧겨격겪겫견겭겮겯결겱겲겳겴겵겶겷겸겹겺겻겼경겾겿곀곁곂곃계곅곆곇곈곉곊곋곌곍곎곏곐곑곒곓곔곕곖곗곘곙곚곛곜곝곞곟고곡곢곣곤곥곦곧골곩곪곫곬곭곮곯곰곱곲곳곴공곶곷곸곹곺곻과곽곾곿관괁괂괃괄괅괆괇괈괉괊괋괌괍괎괏괐광괒괓괔괕괖괗괘괙괚괛괜괝괞괟괠괡괢괣괤괥괦괧괨괩괪괫괬괭괮괯괰괱괲괳괴괵괶괷괸괹괺괻괼괽괾괿굀굁굂굃굄굅굆굇굈굉굊굋굌굍굎굏교굑굒굓굔굕굖굗굘굙굚굛굜굝굞굟굠굡굢굣굤굥굦굧굨굩굪굫구국굮굯군굱굲굳굴굵굶굷굸굹굺굻굼굽굾굿궀궁궂궃궄궅궆궇궈궉궊궋권궍..
중국어 단어 빈도 분석 (현대한어사전) 현대한어사전 파일을 구했다. 유니코드 텍스트로 변환한 후에, 출현 빈도를 아주 원시적으로 분석했다. 아라비아 숫자, 기호 등도 하나의 문자로 분석됐다. 분석은 기초적인 파이썬 문법을 사용했고, 단문자, 이어진 두문자, 이어진 세문자의 빈도까지 분석했다. 기호에 따라 나누기, 기호 무시하기 등을 추가하여 개선할 수 있을 것 같다. 的이 단연 1등. ~의 란 뜻으로도 쓰이고, ~한 것 이란 뜻으로도 쓰였을 터. 사전에서 많이 출현했다는 게 이해가 간다. 분석 원본인 사전 파일은 저작권 침해의 우려가 있어 포함되지 않았다.