문자 인코딩

유니코드와 문자 인코딩

유니코드는 전세계 모든 문자를 2바이트(+4비트)로 구성된 문자 인코딩 표준

예제는 java 이지만 다른 언어도 마찬가지

참고

한글 문자 인코딩

String 객체 생성을 통한 인코딩의 잘못된 예

String str = new String("안녕".getBytes("UTF-8"), "UTF-8");

해당 코드는 정말 의미 없는 코드이다
1. 안녕 이라는 글자의 UTF-8 로 인코딩된 byte[] 로 반환 받는다
2. 그리고 String 객체는 UTF-8로 인코딩된 byte[] 를 UTF-8 로 해석 하여 문자열 안녕 을 얻는다
얼핏 봐서는 문자열 안녕 을 UTF-8 로 인코딩 한다고 생각할 수 있지만
new String() 이 하는 건 어떤 것으로 인코딩 된 byte[] 문자열을 같은 인코딩으로 해석하여 올바르게 String 으로 불러올 수 있게 하는 것 뿐이다

String str = new String("안녕".getBytes("UTF-8"), "EUC-KR");

String str = new String(reader.readLine().getBytes("EUC-KR"), "EUC-KR");

outputStream.write("안녕".getBytes("UTF-8"));

전세계 모든 유니코드 (149,878개) 를 하나의 특수코드로 표기한 것
https://en.wikipedia.org/wiki/List_of_Unicode_characters

U+AC00: 가, U+D7A3: 힣
- 보통 코딩에서 한글인지 판단할 때 가~힣 까지의 문자인지 판단해야하는게
- 바로 이 유니코드 포인트 규칙에 있음

원래 유니코드 포인트는 2바이트로 즉 65535 까지 밖에 존재 할 수 없다
그래서 문자열을 확장하려고 만든 것

보통은 유니코드 문자열을 UTF-16 형태로 유니코드 포인트를 메모리에 저장하여
원하는 인코딩으로 바이너리를 쓰는 형태임
대부분에 문자는 2바이트 자료형(Char)로 저장 할 수 있지만 Supplementary Planes의 존재 때문에 해당 범위에 해당하는 문자열은 4바이트 까지 확장할 필요가 있다

특정 문자를 명시적으로 표현 할 수 없을때 16진수 형태로 표현하는 방법
종류: https://learn.microsoft.com/ko-kr/cpp/c-language/escape-sequences?view=msvc-170

주로 문자열을 \uC11D이런 식으로 유니코드 포인트로 표기를 할 수 있는
- 해당 문자는 석 이다
- 유니코드 포인트 상에서는 U+C11D
\n, \t 등 이런 문자열도 포함이다
java 에서 소스코드 컴파일 시 유니코드가 포함된 문자열은 전부 이스케이프 처리된다