본문 바로가기

프로그래밍/미분류

인코딩을 들여다보자

반응형

아주 오래전에 회사내부에서 공유하려 만들었던 글입니다.


인코딩을 들여다보자

다음과 같은 실험으로 인코딩을 들여다보자.

준비물 : notepad, madedit, python


notepad 로 동일한 문자열 여러가지 인코딩으로 저장해 보기

기본 cp949 인코딩

영문은 한 글자당 한바이트가 되고, 한글 한 글자가 두바이트가 되는 cp949 (euc-kr) 인코딩 바이트 스트림이 저장된다.

utf-8 인코딩

영문은 여전히 한 글자당 한바이트, 한글은 한 글자가 3바이트가 되어 저장된다.

utf 16(le) 인코딩

영문, 한글 상관 없이 모든 글자 하나가 두바이트로 저장된다.

utf 16(be) 인코딩


바로 위와 동일하게 영문, 한글 모두 두바이트씩으로 저장되지만, 두바이트의 순서가 le와 반대이다.

madedit 로 동일한 바이트열 인코딩 바꾸어 가면서 보기

동일한 0xddbc 라는 두바이트열이 인코딩을 바꾸어 보면 서로 다른 글자에 해당한다.

 

728x90