영어는 1byte, 한글은 2byte 차지한다.
따라서 문자열 처리할 때 한 포인터씩 출력을 하게 되면 한글이 깨지는 현상이 발생한다.
예를 들어 한글과 영어가 섞여있는 문자열을 출력할 때 다음과 같은 소스를 이용하면 한글이 깨져서 출력된다.
#include <stdio.h>
#include <stdlib.h>
const int MAX_SIZE = 1000;
int main(){
FILE *fp = fopen("test.txt","r");
char* inp = (char*)malloc(sizeof(char)*MAX_SIZE);
int i;
while(fgets(inp, MAX_SIZE, fp)){
printf("%s" , inp);
for(i = 0 ; i < strlen(inp) ; i++){
printf("%c " , inp[i]) ;
}
printf("\n");
}
return 0;
}
그렇다면, 한글과 영어를 판단해서 영어는 1byte, 한글은 2byte를 출력해야 할텐데,
어떻게 하면 한글인지 영어인지 확인할 수 있을까?
#include <stdio.h>
#include <stdlib.h>
const int MAX_SIZE = 1000;
typedef enum {false, true} bool;
int main(){
FILE *fp = fopen("test.txt","r");
char* inp = (char*)malloc(sizeof(char)*MAX_SIZE);
int i;
bool HANGUL = false;
while(fgets(inp, MAX_SIZE, fp)){
printf("%s" , inp);
for(i = 0 ; i < strlen(inp) ; i++){
if((inp[i] & 0x80) == 0x80) HANGUL = true; //한글인지 확인
if(!HANGUL)printf("%c " , inp[i]) ; //아니면 그냥 출력
else{
printf("%c%c" , inp[i] , inp[i+1]); //한글이면 2byte 출력
i++;
}
HANGUL = false;
}
printf("\n");
}
return 0;
}
위의 소스는 각 char 마다 한글인지 아닌지를 판단해서 한글인 경우 2byte를 출력하게 해준다.