본문 바로가기

unicode

유니코드

728x90

유니코드 정보

컴퓨터는 정보를 저장하기 위해 0과 1을 사용합니다.

텍스트를 표시하기 위해 컴퓨터에 0과 1을 알파벳으로 변환하는 방법을 알려주는 소위 encoding이 필요합니다.

첫 번째 표준화된 인코딩은 기본적으로 128개 위치에 간단한

라틴어 대문자와 소문자, 숫자 및 일부 구두점을 할당하는 ASCII였습니다.

 

W3C는 문자 인코딩, 유니코드 코드 포인트의 첫 번째 블록은 ASCII와 동일합니다.

128개의 ASCII는 그리 오래가지 못했습니다. 

많은 기관과 회사가 자체 인코딩을 구현하기 시작했습니다.

 

2010년에 널리 사용된 250개의 인코딩이 있었으며 일부 모호하거나 개인적으로 사용된 인코딩은 포함되지 않았습니다.

그러나 컴퓨터가 인터넷을 통해 서로 대화하기 시작했을 때 문제가 발생되었습니다.

발신자가 메시지의 인코딩을 지정하지 않으면 수신자가 말도 안 되는 쓰레기만 받을 가능성이 큽니다.

따라서 유니코드를 사용하게 됩니다.

 

Adobe와 Xerox는 1984년에 이것이 계속될 상황이 아니며 범용 인코딩 체계가 필요하다고 결정했습니다.

1991년에는 2년 후 ISO 10646으로 국제 표준화된 유니코드의 첫 번째 버전이 발표되었습니다.

( 재미있는 사실 : ASCII는 ISO 646에서 표준화되었으며 유니코드 표준 번호는 의도적으로 선택되었습니다. )

한편 유니코드 컨소시엄은 표준의 추가 개발을 안내하기 위해 형성되기 시작했습니다.

 

최신 유니코드 버전은 8.0.0이며 100 개 이상의 스크립트에 110,000개 이상의 문자가 포함되어 있습니다.

ASCII의 상위 집합 인 UTF-8 인코딩 형식은 전 세계적으로 가장 널리 사용되는 인코딩이며 컨소시엄은

Apple, Oracle, Microsoft, Google, IBM, Nokia 및 기타 많은 사람들을 회원으로 간주합니다.

 

유니코드는 보편적으로 문자를 식별하는 메커니즘입니다.

모든 문자는 일반적으로 그들을 참조하는 할당된 "코드 포인트"를 얻습니다.

예를 들어, 문자 "A"에는 코드 포인트 65가 할당되고 한자 "㐭"는 코드 포인트 13357입니다.

코드 포인트는 일반적으로 16 진수 표기법으로 표시됩니다.

여기서 "A"에서 "F"는 10에서 16까지의 숫자를 나타냅니다.

가능한 1,114,111개의 코드 포인트를 유용한 순서로 가져오기 위해 유니코드는 17개의 평면으로 나뉘며

논리적으로 연결된 블록으로 더 나뉩니다.

 

유니코드 표준의 확장과 관리를 안내하는 10가지 원칙이 있습니다.

  1. 보편적 레퍼토리 : 지금까지 사용된 모든 쓰기 체계는 표준에 따라 존중되고 표현되어야 합니다.
  2. 효율성 : 문서는 효율적이고 완전해야 합니다.
  3. 글리프가 아닌 문자 : 글리프가 아닌 문자만 인코딩 됩니다.  간단히 말해서 글리프는 실제 그래픽 표현이며 문자는 더 추상적인 개념입니다. 글리프는 서체 간에 변경되지만 문자는 변경되지 않습니다.
  4. 의미 : 포함된 문자는 잘 정의되고 다른 문자와 구별되어야 합니다.
  5. 일반 텍스트 : 표준의 문자는 텍스트이며 마크 업이나 메타 문자가 아닙니다.
  6. 논리적 순서 : 양방향 텍스트에서 문자는 표현이 제안하는 방식이 아니라 논리적 순서로 저장됩니다.
  7. 통일 : 다른 문화나 언어가 동일한 문자를 사용하는 경우 한 번만 포함됩니다. 동아시아에서는 이 규칙이 적용되는 분리가 명확하지 않기 때문에 이 점은 다소 논란의 여지가 있습니다.
  8. 동적 구성 : 새 캐릭터는 이미 표준화된 다른 캐릭터로 구성될 수 있습니다. 예를 들어, 문자 "Ä"는 "A"와 분음 부호로 구성될 수 있습니다.
  9. 안정성 : 정의된 문자는 제거되거나 코드 포인트가 다시 할당되지 않습니다. 오류가 발생하면 코드 포인트는 더 이상 사용되지 않습니다.
  10. 변환 성 : 사용된 다른 모든 인코딩은 유니코드 인코딩 측면에서 표현할 수 있어야 합니다.

 

문자 및 유니코드에 관한 모든 것을 다루는 Codepoints.net 사이트입니다. 이 사이트는 Manuel Strehl 이 운영합니다.

 

Find all Unicode characters from Hieroglyphs to Dingbats – Codepoints

Start here: Browse one by one through blocks of characters Browse Codepoints Need help? Answer questions to find matching characters Find My Codepoint Expert Search! Search for characters with particular properties Search Codepoint About this Site Codepoin

codepoints.net

 

https://unicode.org/charts/

 

Code Charts

Unicode 13.0 Character Code Charts Scripts   |   Symbols & Punctuation   |   Name Index Find chart by hex code:           Help    Conventions    Terms of Use Notational Systems Braille Patterns Musical Symbols Ancient Greek Musical Nota

unicode.org

 

 

유니코드 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 유니의 음반에 대해서는 U;Nee Code 문서를 참고하십시오. 유니코드(영어: Unicode)는 전 세계의 모든 문자를 컴퓨터에서 일관되게 표현하고 다룰 수 있도록 설계된

ko.wikipedia.org

반응형

'unicode' 카테고리의 다른 글