반응형
아주 오래전에 회사내부에서 공유하려 만들었던 글입니다.
인코딩을 들여다보자
다음과 같은 실험으로 인코딩을 들여다보자.
준비물 : notepad, madedit, python
notepad 로 동일한 문자열 여러가지 인코딩으로 저장해 보기
기본 cp949 인코딩
영문은 한 글자당 한바이트가 되고, 한글 한 글자가 두바이트가 되는 cp949 (euc-kr) 인코딩 바이트 스트림이 저장된다.
utf-8 인코딩
영문은 여전히 한 글자당 한바이트, 한글은 한 글자가 3바이트가 되어 저장된다.
utf 16(le) 인코딩
영문, 한글 상관 없이 모든 글자 하나가 두바이트로 저장된다.
utf 16(be) 인코딩
바로 위와 동일하게 영문, 한글 모두 두바이트씩으로 저장되지만, 두바이트의 순서가 le와 반대이다.
madedit 로 동일한 바이트열 인코딩 바꾸어 가면서 보기
동일한 0xddbc 라는 두바이트열이 인코딩을 바꾸어 보면 서로 다른 글자에 해당한다.
- https://redscreen.tistory.com/163 : 파이썬 idle 로 실험해 보는 예.
- https://118k.tistory.com/864 : 괜찮은 개념설명
728x90
'프로그래밍 > 미분류' 카테고리의 다른 글
Flutter Warning: Operand of null-aware operation '!' hastype 'SchedulerBinding' which excludes null. (0) | 2022.08.06 |
---|---|
powershell 이 시스템에서 스크립트를 실행할 수 없으므로 Microsoft.PowerShell_profile.ps1 파일을 로드할 수 없습니다. (0) | 2022.08.06 |
signal 링크 (0) | 2022.06.10 |
virtualbox 에서 실행시킨 macOS 에서 하드웨어 가속기능으로 화면이 이상해지는 문제 (0) | 2022.06.09 |
[SO번역] CUPS 를 이용해 "Print to PDF" 필터 또는 백엔드를 프로그래밍하는 방법 (0) | 2022.04.06 |