Contents

FreeTalk
2015.12.04 11:47

한글 인코딩 관련 간단 정리

조회 수 479 댓글 0
Atachment
첨부 '2'
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄

한글 인코딩 관련 간단 정리

 

kr01.jpg

 

안녕하세요. NHN엔터테인먼트 정성환입니다.
그동한 문자셋과 인코딩과의 관계를 정리한 내용을 공유드립니다.궁금하신분께 많은 도움이 되었으면 좋겠습니다.


문자셋과 인코딩 방법의 관계에 대하여 명료화하자면, 문자셋(Character set)은 문자 코드 집합, 인코딩 방법은 그것을 어떻게 표현할지에 관한 것입니다. 서로 다른 개념이기는하나 인코딩 방법은 문자셋에 종속적입니다.

 

1. ksc5601과 cp949

ksc5601, cp949은 문자셋이기는하나, 각각 조금은 다른 인코딩 방법을 가지고 있습니다.
그래서 문자셋이나 인코딩 방법을 따로 구분해서 부르기 힘들고, 각각 통칭하여 EUC-KR과 cp949(혹은 EUC-KR 확장)이라고 불리웁니다.


ksc5601은 92년도에 국가에서 정의한 표준으로 2바이트를 사용하고 2,350자의 한글을 표현 가능합니다.


cp949는 윈도95에 마이크로소프트가 독자적으로 제정한 규격으로 11,172자의 한글을 표현 가능합니다. 인코딩은 확장된 euc-kr이라고 할 수 있으며 기존의 euc-kr에 추가적으로 지원하는 문자셋을 덧붙인 형태입니다.


이런 연유로 euc_kr이라고 표기되는 문자셋/인코딩이 애매하고 헷갈리게 되어버리는 겁니다. 대충 windows, linux, java, web 월드에서 정리하면 다음과 같습니다.

 

kr02.png

 

간혹가다가 html 문서에 charset=cp949 등으로 지정된 웹페이지가 있기는 한데, 이것은 엄연히 표준을 위반한 것입니다.
W3C에서는 IANA에서 공인된 문자셋만을 표준으로 하고 있는데 거기에 CP949 혹은 MS949는 포함되지 않습니다.
(그리고 자바는 왜 cp949가 ksc5601을 나타내는지 잘 모르겠습니다. -_-;; 위키에도 cp949는 ms 규격이라고 나와있는데 말이죠...)

 

2. 유니코드

유니코드는 문자셋(Character Set)인 UCS(Universal Character Set)과 그 인코딩 방법(유니코드 인코딩)들의 통칭입니다. 인코딩 방법은 흔히들 알고 있는 UTF-8, UTF-16, UTF-32 입니다.


유니코드의 한글은 우리가 알고 있던 완성형 형태의 코드와, 초성/중성/종성으로 나누어진 코드를 모두 가지고 있습니다.그리고 완성형 형태의 코드도, 초성을 z축으로, 중성을 x축으로, 종성을 y축으로 구성하여, 코드 하나에 대해 간단한 산술연산으로 초성/중성/종성으로 분리해낼 수 있습니다.


cp949는 마이크로소프트가 제맘대로 만든터라, 코드의 배열이 정말..... 제 멋대로 입니다. 이게 무슨 문제를 초래하냐면... sorting 이 엉망으로 된다는 얘기지요.. euc-kr 즉 ksc5601은 그래도 우리 어순대로 코드가 배열되어 있어서 여기에 속한 문자들은 올바르게 sorting됩니다. 그래서 모든 사람들이 cp949를 사용하던 시절에는 이러한 sorting 문제가 선배 개발자들을 괴롭혔었죠.


아까 완성형 형태의 코드와 초성/중성/종성 코드가 분리되어있다고 소개했는데, 그것 때문에 또 약간의 문제가 있습니다.그럼 한글을 표현할때 어떤 방법으로 하는가...인데요. 쉽게 말하면 완성형으로 표현할 것인가, 조합형으로 표현할 것인가...입니다.


대부분의 platform world에서는 완성형 형태의 코드를 사용합니다. 그것을 NFC라고 합니다.(개념은 복잡하고 이해할 필요는 없을 것 같아 생략하겠습니다.) 초성/중성/종성으로 구분된 코드를 조합하여 한글을 표현하는 방법을 NFD라고 하는데, 거의 맥/iOS의 파일 시스템에서만 유일하게 사용됩니다.


그래서 제대로 transcoding 해주지 않는 전송 프로그램이나 압축 프로그램을 사용하여 맥에서 윈도로 파일을 전송하는 경우 한글이 풀리는 문제가 있습니다.


여기에 보너스로 문제를 발생시키는 또 하나의 요인을 소개하자면....
BOM(Byte Order Mark)이라는 것입니다. 이것은 바이트 스트림의 특정 부분에 삽입되는 3바이트의 마크로,
이후 문서의 끝까지 혹은 다음 BOM까지는 이 유니코드 인코딩을 사용하겠다.. 라고 명시합니다.
그런데, 기본적으로 UTF-8을 사용하는 리눅스/맥에서는 이 BOM을 생략합니다. 즉, 문서 저장시 파일의 어느 부분에도 BOM이 포함되지 않습니다.


윈도는 기본적으로 유니코드로 파일을 저장할 때 BOM을 파일의 첫머리에 넣어둡니다. (explorer에서 파일에 오른쪽 버튼을 눌러 상세정보에 들어가면 BOM을 제거할 수 있는 방법이 있습니다.)
그래서 이러한 처리를 제대로 못하는 앱으로 윈도에서 저장된 유니코드 파일을 리눅스/맥에서 읽으면 역시 엉망으로 읽힙니다.


글을 쓰다보니 길어졌는데, 결론은 영어를 사용하지 않는 변방의 서러움으로 귀결되는 것 같습니다.


크로스 플랫폼 앱을 만들때 누구나 겪는 문제일텐데.... 왜냐면 또 이것 말고도 괴롭게 하는 요소들이 또 너무 많거든요... -_-;; 예를 들어 NTFS는 UTF-16으로 인코딩 하고요... zip 파일은 인코딩 표준 방법을 명시하지 않습니다. 즉, 각각 앱 혹은 OS마다 멋대로 넣어버린다는 거죠...


휴... 암튼 참고용, 혹은 스스로 참조용으로 정리해봤습니다. (언젠가는..) 도움이 되셨으면 좋겠습니다.


감사합니다.

 

[출처] http://meetup.cloud.toast.com/posts/35


?

  1. [펌] 죄송합니다.. 차라리 징역 가겠습니다..

    감동의 도가니.. 어머니, 아버지, 형까지 차례로 여의고 희망 없는 노숙생활을 하면서 문 열린 차량에서 동전을 절취해서 하루하루 살아감.. 구속과 출소, 노숙생활의 반복이 뻔한 상황에서 피해자들은 처벌의사도 없고 해서 담당형사가 이 남자를 돕기로 함. ...
    Date2016.01.13 CategoryFreeTalk Byhooni Views322
    Read More
  2. No Image

    강의 초안

    비밀글입니다.
    Date2016.01.12 CategoryHogoo Byhooni Views0
    Read More
  3. 100년전 사람들이 상상했던 "21세기"는 어떤 모습 일까?

    100년전 사람들이 상상했던 "21세기"는 어떤 모습? 100년 전에 살았던 사람들은 100년 후인 지금의 세상을 어떻게 상상했을까? 문학예술 전문 온라인 매체인 <퍼블릭 도메인 리뷰>(The Public Domain Review)가 이를 보여주는 그림들을 공개해 화제를 모았다. ...
    Date2016.01.04 CategoryFreeTalk Byhooni Views937
    Read More
  4. 서울대에서는 누가 A+를 받는가?

    요약하자면~ A+ 받은 학생들의 공부 방법과 생각 서울대학교 학생들 - 교수가 하는 말은 녹음하고 필기해서 토시 하나 안틀리고 달달외운다. - 좋은 아이디어라도 교수와 견해가 다르면 시험에 쓰지 않는다. 미시간대학교 학생들 - 받아적는건 생각을 방해하기...
    Date2015.12.18 CategoryFreeTalk Byhooni Views411
    Read More
  5. 똑똑한 매니저와 현명한 리더의 차이는?

    "당신은 똑똑한 매니저(smart manager)와 현명한 리더(wise leader) 중 어느 쪽인가?" 대부분은 이 둘의 차이점이 뭐냐고 반문한다. 똑똑한 것과 현명한 것은 둘 다 바람직한 것이고 매니저나 리더가 갖춰야할 품성이라고 알고 있기 때문이다. 하지만 미국 커...
    Date2015.12.11 CategoryFreeTalk Byhooni Views496
    Read More
  6. No Image

    자전거 타는 법 잃어버리기 (To forget how to ride a bicycle)

    # To forget how to ride a bicycle 제목보다 훨씬 더 심오한 무엇인가가 담겨 있습니다. 지식과 이해, 편견과 고정관념 등에 대한 고찰이 대단하네요 video 태그가 지원되지 않는 브라우저 입니다. document.getElementById("video_id").play();
    Date2015.12.09 CategoryFreeTalk Byhooni Views400
    Read More
  7. 한글 인코딩 관련 간단 정리

    한글 인코딩 관련 간단 정리 안녕하세요. NHN엔터테인먼트 정성환입니다. 그동한 문자셋과 인코딩과의 관계를 정리한 내용을 공유드립니다.궁금하신분께 많은 도움이 되었으면 좋겠습니다. 문자셋과 인코딩 방법의 관계에 대하여 명료화하자면, 문자셋(Charact...
    Date2015.12.04 CategoryFreeTalk Byhooni Views479
    Read More
  8. 몰래 염탐 가능한 삼성의 갤럭시 S6/엣지/노트4

    사용자의 통화내용을 도청하고 녹음까지 가능 삼성 스마트폰에 내장된 새넌 베이스밴드 칩 [보안뉴스 주소형] 삼성 스마트폰이 악재를 맞았다. 출시된 지 얼마 되지 않은 갤럭시 S6와 S6 엣지(Edge)를 포함해서 노트 4까지 모두 중간자 공격을 통해 스누핑(Sno...
    Date2015.12.03 CategoryFreeTalk Byhooni Views363
    Read More
  9. 삼성 대단하네요~

    대박 큰 사건.. 삼성 휴대폰에 "스마트 매니저"라는 앱이 설치되어 있는데.. 이건 지워지지도 않는 것이 앱을 꺼도 다시 살아나고.. 카메라, 마이크, 문자, 소셜서비스, 연락처, 개인정보 등을 마음대로 접근할 수 있는 엄청난 권한을 가지고 있음 [출처] http...
    Date2015.12.03 CategoryFreeTalk Byhooni Views299
    Read More
  10. 한국의 벤처와 페이스북

    싸이월드.. 아숩.. ㅠㅠ;;
    Date2015.12.01 CategoryFreeTalk Byhooni Views248
    Read More
  11. 각 나라 대통령 우산 매너 (한국, 미국, 중국)

    일행과 같이 길을 걷다가 비가 오는데 우산이 하나 밖에 없다면 여러분은 어떻게 하겠는가? 나라 별 대통령의 우산 매너를 비교해 보았다. 다음 사진은 2015년 5월 18일, 군용 헬기를 타고 백악관에 도착한 미국 오바마 대통령이 동승했던 백악관 선임고문과 ...
    Date2015.11.30 CategoryFreeTalk Byhooni Views851
    Read More
  12. 구글이 회의 때 가장 경계하는 사람

    버블헤드 인형 ㅋㅋ 모두가 같은 생각을 한다면, 누군가는 아무 생각이 없는 것이다. - 조지 패튼 장군 -
    Date2015.11.26 CategoryFreeTalk Byhooni Views374
    Read More
Board Pagination Prev 1 ... 27 28 29 30 31 32 33 34 35 36 ... 80 Next
/ 80