영어는 1byte, 한글은 2byte 차지한다.
따라서 문자열 처리할 때 한 포인터씩 출력을 하게 되면 한글이 깨지는 현상이 발생한다.
예를 들어 한글과 영어가 섞여있는 문자열을 출력할 때 다음과 같은 소스를 이용하면 한글이 깨져서 출력된다.
#include <stdio.h> #include <stdlib.h> const int MAX_SIZE = 1000; int main(){ FILE *fp = fopen("test.txt","r"); char* inp = (char*)malloc(sizeof(char)*MAX_SIZE); int i; while(fgets(inp, MAX_SIZE, fp)){ printf("%s" , inp); for(i = 0 ; i < strlen(inp) ; i++){ printf("%c " , inp[i]) ; } printf("\n"); } return 0; }
그렇다면, 한글과 영어를 판단해서 영어는 1byte, 한글은 2byte를 출력해야 할텐데,
어떻게 하면 한글인지 영어인지 확인할 수 있을까?
#include <stdio.h> #include <stdlib.h> const int MAX_SIZE = 1000; typedef enum {false, true} bool; int main(){ FILE *fp = fopen("test.txt","r"); char* inp = (char*)malloc(sizeof(char)*MAX_SIZE); int i; bool HANGUL = false; while(fgets(inp, MAX_SIZE, fp)){ printf("%s" , inp); for(i = 0 ; i < strlen(inp) ; i++){ if((inp[i] & 0x80) == 0x80) HANGUL = true; //한글인지 확인 if(!HANGUL)printf("%c " , inp[i]) ; //아니면 그냥 출력 else{ printf("%c%c" , inp[i] , inp[i+1]); //한글이면 2byte 출력 i++; } HANGUL = false; } printf("\n"); } return 0; }
위의 소스는 각 char 마다 한글인지 아닌지를 판단해서 한글인 경우 2byte를 출력하게 해준다.