본문 바로가기

프로그래밍/C++

문자열

아스키 코드
: 1바이트로 표현된다

유니코드
: 문자를 표현하는데 있어서 균일하게 2바이트를 사용한다. 2바이트이면 65536개의 문자의 종류를 표현할 수 있다.

Character Set
: 문자들의 집합, 약속된 문자 표현방법

SBCS(Single Byte Character Set)
: 문자를 표현하는데 있어서 1바이트만을 사용하는 방식

MBCS(Multi Byte Character Set)
: 다양한 바이트 수를 사용해서 문자를 표현하는 방식

WBCS(Wide Byte Character Set)
: 모든 문자를 2바이트로 처리하는 문자셋

요약하면

SBCS는 아스키 코드와 같은 1바이트이고
MBCS는 1바이트 2바이트를 모두 지원하는 방식
WBCS는 2바이트만 표현가능하다

즉 아스키 코드 -> 멀티바이트 -> 유니 코드 식으로 이해하면 될듯하다

char형 변수는 1바이트 메모리 공간만 할당된다.
wchar_t형 변수는 2바이트 메모리 공간이 할당된다. NULL문자도 2바이트로 처리된다. 
즉 유니코드 기반으로 문자를 표현하는 것이 가능하다.

'프로그래밍 > C++' 카테고리의 다른 글

동기화 (Synchronization)  (0) 2019.02.21
커널 영역과 유저 영역  (0) 2019.02.20
스레드 (Thread)  (0) 2019.02.19
커널 (Kernel)  (0) 2019.02.13
시스템 프로그래밍  (0) 2019.02.11