¹Ì±¹ÀεéÀº ¿À·§µ¿¾È ¾Æ½ºÅ° ¹®ÀÚ¼ÂÀ» ÀÌ¿ëÇÏ¿© ÅؽºÆ®¸¦ ¼·Î ±³È¯Çß´Ù; º»·¡ ¹Ì±¹ÀÇ ¸ðµç ½Ã½ºÅÛµéÀÌ ¾Æ½ºÅ°¸¦ Áö¿øÇϱ⠶§¹®¿¡ ¿µ¾î ÅؽºÆ®¸¦ ¼Õ½±°Ô ±³È¯ÇÒ ¼ö ÀÖ´Ù. ºÒÇàÈ÷µµ ¾Æ½ºÅ°´Â °ÅÀÇ ¸ðµç ´Ù¸¥ ¾ð¾îÀÇ ¹®ÀÚ¸¦ ´Ù·ç±â¿¡´Â ºÎÀûÀýÇÏ´Ù. ¿À·§µ¿¾È ¿©·¯ ³ª¶óµéÀº ´Ù¸¥ ¾ð¾î·Î ÅؽºÆ®¸¦ ±³È¯ÇÏ´Â ¿©·¯°¡Áö ±â¹ýÀ» äÅÃÇØ¿ÔÀ¸¸ç ÀÌ´Â ´õ¿í ´õ »óÈ£ ¿¬°áµÈ ¼¼»ó¿¡¼ µ¥ÀÌŸ¸¦ ±³È¯ÇÏ´Â °ÍÀ» ¾î·Æ°Ô ¸¸µé°í ÀÖ´Ù.
´õ¿í ÃÖ±Ù¿¡ ISO ´Â ISO 10646, Universal Multiple-Octet Coded Character Set (UCS) À» °³¹ßÇߴµ¥ UCS ´Â ¼¼»óÀÇ ¸ðµç ¹®ÀÚ °¢°¢¿¡ ´ëÇØ À¯ÀÏÇÑ 31 ºñÆ® °ªÀ» Á¤ÀÇÇÏ´Â ÄÚµåÈµÈ ¹®ÀÚ¼ÂÀÌ´Ù. UCS ÀÇ Ã¹ 65536 ¹®ÀÚ (µû¶ó¼ 16 ºñÆ®¿¡ ²À¸Â´Ù) ´Â Basic Multilingual Plane (BMP) À̶ó°í ĪÇϸç BMP ´Â °ÅÀÇ ¿À´Ã³¯ ¸ðµç ±¸¾î¸¦ ´Ù·ç·Á°í ÇÑ´Ù. Unicode Æ÷·³Àº À¯´ÏÄÚµå Ç¥ÁØÀ» °³¹ßÇÏ°í Àִµ¥ ÀÌ´Â UCS ¿¡ ÁßÁ¡À» µÎ¾î »óÈ£ ÀÌ¿ëÀ» µ½±â À§ÇØ ¾à°£ÀÇ Ãß°¡ÀûÀÎ ÇÕÀǸ¦ Ãß°¡ÇÑ´Ù. ¿ª»çÀûÀ¸·Î À¯´ÏÄÚµå¿Í ISO 10646 Àº °æÀï ±×·ìÀÌ °³¹ßÇßÁö¸¸ °í¸¿°Ôµµ µÎ ±×·ìÀº °øµ¿ ÀÛ¾÷ÀÇ Çʿ伺À» ±ú´Þ¾ÒÀ¸¸ç ÇöÀç ¼·Î Çù·ÂÇÏ¸ç °³¹ßÇÏ°í ÀÖ´Ù.
±¹Á¦ÈµÈ ¹®ÀÚ¸¦ ´Ù·ç´Â »õ·Î¿î ¼ÒÇÁÆ®¿þ¾î¸¦ ÀÛ¼ºÇÏ°í ÀÖ´Ù¸é ±¹Á¦ÀûÀÎ ¹®ÀÚ¸¦ ´Ù·ç±â À§ÇÑ ±âÃÊ·Î ISO 10646/À¯´ÏÄڵ带 »ç¿ëÇØ¾ß ÇÑ´Ù. ±×·¯³ª ´Ù¾çÇÑ ¿¾³¯ (¾ð¾î¿¡ ƯÁ¤ÀûÀÎ) ¹®ÀÚ¼ÂÀ¸·Î ¾²¿©Áø ¿¾³¯ ¹®¼¸¦ ó¸®ÇÒ ÇÊ¿ä°¡ ÀÖÀ» ¼ö Àִµ¥ ÀÌ °æ¿ì¿¡ ÀÖ¾î ½Å·ÚµÇÁö ¾ÊÀº »ç¿ëÀÚ°¡ ´Ù¸¥ ¹®¼ÀÇ ¹®Àڼ ¼³Á¤À» Á¦¾îÇÒ ¼ö ¾øµµ·Ï º¸ÁõÇÒ ÇÊ¿ä°¡ ÀÖ´Ù (ÀÌ´Â ¹®¼ÀÇ Çؼ®¿¡ »ó´çÈ÷ ¿µÇâÀ» ¹ÌÄ¥ ¼ö Àֱ⠶§¹®ÀÌ´Ù).
´ëºÎºÐÀÇ ¼ÒÇÁÆ®¿þ¾î´Â 16 ºñÆ® ¶Ç´Â 32 ºñÆ® ¹®ÀÚ¸¦ ´Ù·çµµ·Ï ¼³°èµÇÁö ¾Ê¾Ò´Âµ¥ ÀÌÁ¦ºÎÅÍ 8 ºñÆ® ÀÌ»óÀÇ Æ÷°ýÀûÀÎ ¹®ÀÚ¼ÂÀ» »ý¼ºÇÏ´Â °ÍÀÌ ÇÊ¿äÇÏ°Ô µÇ¾ú´Ù. µû¶ó¼ ±âÁ¸ ÇÁ·Î±×·¥ ¹× ¶óÀ̺귯¸®°¡ ´õ¿í ½±°Ô ´Ù·ê ¼ö ÀÖ´Â Æ÷¸ËÀ¸·Î ÀÌ·¯ÇÑ ÀáÀçÀûÀ¸·Î ±¹Á¦ÀûÀÎ ¹®ÀÚ¸¦ ÀÎÄÚµåÇÒ ¼ö ÀÖµµ·Ï UTF-8 À̶ó´Â ƯÁ¤ Æ÷¸ËÀÌ °³¹ßµÇ¾ú´Ù. UTF-8 Àº ´Ù¸¥ °÷Áß¿¡¼ IEFT-RFC 2279 ¿¡ Á¤ÀǵǾî ÀÖÀ¸¸ç ÀÌ ¶§¹®¿¡ ÀÚÀ¯·ÎÀÌ ÀÐÇôÁö°í »ç¿ëµÉ ¼ö ÀÖ´Â Àß Á¤ÀÇµÈ Ç¥ÁØÀÌ´Ù. UTF-8 Àº °¡º¯ ³Êºñ (variable-width) ÀÎÄÚµùÀ¸·Î 0 ¿¡¼ 0x7f (127) ±îÁö ¹øÈ£°¡ ¸Å°ÜÁø ¹®ÀÚµé ÀÚ½ÅÀ» ½Ì±Û ¹ÙÀÌÆ®·Î ÀÎÄÚµåÇÏ¸ç ¹Ý¸é ´õ¿í Å« °ªÀ» °®´Â ¹®ÀÚµéÀº ±× °ª¿¡ µû¶ó Á¤º¸°¡ 2 ¿¡¼ 6 ¹ÙÀÌÆ®·Î ÀÎÄÚµåµÈ´Ù. ÀÎÄÚµùÀº ƯÈ÷ ´ÙÀ½ÀÇ Á¤È®ÇÑ Æ¯¼ºÀ» °®µµ·Ï ¼³°èµÇ¾î¿Ô´Ù (ÀÌ Á¤º¸ÀÇ Ãâó´Â RFC ¹× ¸®´ª½º utf-8 ¸ÇÆäÀÌÁöÀÌ´Ù):
°íÀüÀûÀÎ ¹Ì±¹ ¾Æ½ºÅ° ¹®ÀÚ (0 ¿¡¼ 0x7f) ´Â ÀÚ½ÅÀ¸·Î ÀÎÄÚµåµÇ´Âµ¥ µû¶ó¼ ´ÜÁö 7 ºñÆ® ¾Æ½ºÅ° ¹®ÀÚµéÀ» Æ÷ÇÔÇÑ ÆÄÀÏ ¹× ¹®ÀÚ¿Àº ¾Æ½ºÅ°¿Í UTF-8 ÇÏ¿¡¼ µ¿ÀÏÇÑ ÀÎÄÚµùÀ» °®´Â´Ù. ÀÌ´Â ¸¹Àº ±âÁ¸ ¹Ì±¹ ÇÁ·Î±×·¥°ú µ¥ÀÌŸ ÆÄÀÏ¿¡ ´ëÇØ ¿ªÇà ȣȯ¼ºÀ» Á¦°øÇϱ⠶§¹®¿¡ ³î¶ó¿î °ÍÀÌ´Ù.
0x7f ¸¦ ÃÊ°úÇÏ´Â ¸ðµç UCS ¹®ÀÚ´Â 0x80 ¿¡¼ 0xfd ÀÇ ¹üÀ§³»ÀÇ ¹ÙÀÌÆ®·Î¸¸ ±¸¼ºµÇ´Â ¸ÖƼ¹ÙÀÌÆ® ½ÃÄö½º·Î ÀÎÄÚµåµÈ´Ù. ÀÌ´Â ¾î¶°ÇÑ ¾Æ½ºÅ° ¹ÙÀÌÆ®µµ ´Ù¸¥ ¹®ÀÚÀÇ ÀϺκÐÀ¸·Î ³ªÅ¸³¯ ¼ö ¾øÀ½À» ÀǹÌÇÑ´Ù. ´Ù¸¥ ¸¹Àº ÀÎÄÚµùÀº ÇÁ·Î±×·¥ÀÇ ½ÇÆи¦ ¾ß±âÇÏ´Â ÀÓº£µðµå NIL °ú °°Àº ¹®ÀÚ¸¦ Çã¿ëÇÑ´Ù.
UTF-8 ¹× 2 ¹ÙÀÌÆ® ¶Ç´Â 4 ¹ÙÀÌÆ® °íÁ¤ ÆøÀ» °®´Â ¹®ÀÚ Ç¥Çö»çÀÌ¿¡ º¯È¯ÀÌ ½±´Ù. (À̵éÀº °¢°¢ UCS-2 ¹× UCS-4 ·Î ºÒ¸°´Ù)
UCS-4 ¹®ÀÚ¿ÀÇ »çÀüÇÐÀû Á¤·Ä ¼ø¼°¡ À¯ÁöµÇ¸ç Boyer-Moore ÀÇ fast °Ë»ö ¾Ë°í¸®µëÀÌ UTF-8 µ¥ÀÌŸ¿¡ Á÷Á¢ÀûÀ¸·Î »ç¿ëµÉ ¼ö ÀÖ´Ù.
¸ðµç °¡´ÉÇÑ 2^31 UCS Äڵ尡 UTF-8 À» »ç¿ëÇؼ ÀÎÄÚµåµÉ ¼ö ÀÖ´Ù.
ÇϳªÀÇ ¾Æ½ºÅ°°¡ ¾Æ´Ñ UCS ¹®ÀÚ¸¦ Ç¥ÇöÇÏ´Â ¸ÖƼ¹ÙÀÌÆ® ½ÃÄö½ºÀÇ Ã¹¹ø° ¹ÙÀÌÆ®´Â ´Ã 0xc0 °ú 0xfd »çÀÌÀÇ ¹üÀ§¿¡ ÀÖÀ¸¸ç ÀÌ·¯ÇÑ ¸ÖƼ¹ÙÀÌÆ® ½ÃÄö½ºÀÇ ±æÀ̸¦ °¡¸®Å²´Ù. ¸ÖƼ¹ÙÀÌÆ® ½ÃÄö½º³»¿¡¼ ¸ðµç µÚÀÇ ¹ÙÀÌÆ®´Â 0x80 °ú 0xbf »çÀÌÀÇ ¹üÀ§¿¡ ÀÖ´Ù. ÀÌ´Â ½¬¿î À絿±â¸¦ Çã¿ëÇϴµ¥ ÇÑ ¹ÙÀÌÆ®¸¦ »ý·«ÇÏ´Â °æ¿ì ``´ÙÀ½" ¹®ÀÚ·Î °Ç³Ê¶Ù´Â °ÍÀº ½¬¿ì¸ç ¶ÇÇÑ ``´ÙÀ½" ¶Ç´Â ``ÀÌÀü" ¹®ÀÚ·Î À̵¿ÇÏ´Â °ÍÀº ´Ã ½±´Ù.
¿ä¾àÇϸé UTF-8 º¯È¯ Æ÷¸ËÀº ´Ù¸¥ Á¤È®ÇÑ Æ¯¼ºÀ» °®À» »Ó ¾Æ´Ï¶ó ¸ðµç ¼¼°èÀÇ ¾ð¾î¸¦ Áö¿øÇÒ ¼ö ÀÖ°í Áö±ÝÀ¸·Î¼´Â ¹Ì±¹ ¾Æ½ºÅ° ÆÄÀÏ°ú ¿ªÇà ȣȯ¼ºÀ» °®°í Àֱ⠶§¹®¿¡ ±¹Á¦È ÅؽºÆ® Á¤º¸¸¦ ±³È¯Çϴµ¥ ÀÖ¾î °¡Àå À¯·ÂÇÑ ¹æ¹ýÀÌ µÇ°í ÀÖ´Ù. ¸¹Àº °æ¿ì¿¡ ÀÖ¾î ÀúÀÚ´Â À̸¦ »ç¿ëÇϱæ ÃßõÇϸç ƯÈ÷ ÅؽºÆ® ÆÄÀϳ»¿¡¼ µ¥ÀÌŸ¸¦ Á¤·ÄÇÒ ¶§´Â À̸¦ »ç¿ëÇÏ±æ ¹Ù¶õ´Ù.
UTF-8 À» ¾ð±ÞÇÏ´Â ÀÌÀ¯´Â ¾î¶² ¹ÙÀÌÆ® ½ÃÄö½º°¡ ºñÇÕ¹ýÀûÀÎ UTF-8 À̸ç ÀÌ°ÍÀÌ ¾Ç¿ëµÉ ¼ö ÀÖ´Â º¸¾È ±¸¸ÛÀÏ ¼öµµ Àֱ⠶§¹®ÀÌ´Ù. UTF-8 ÀÎÄÚ´õ´Â ``°¡´ÉÇÑ °¡Àå ªÀº" ÀÎÄÚµùÀ» »ç¿ëÇÑ´Ù°í ¾Ë·ÁÁ® ÀÖÁö¸¸ ¼øÁøÇÑ µðÄÚ´õ°¡ ÇÊ¿äÀÌ»óÀ¸·Î ±ä ÀÎÄÚµùÀ» ¹Þ¾ÆµéÀÏ ¼öµµ ÀÖ´Ù. Á¤¸»·Î ´õ¿í ÃʱâÀÇ Ç¥ÁØÀº µðÄÚ´õ°¡ ``non-shortest form" ÀÎÄÚµùÀ» ¹Þ¾ÆµéÀ̵µ·Ï Çã¿ëÇß´Ù. ¿©±â¼ÀÇ ¹®Á¦´Â ÀÌ°ÍÀÌ ÀáÀçÀûÀ¸·Î À§ÇèÇÑ ÀÔ·ÂÀÌ ´Ù¼öÀÇ ¹æ½ÄÀ¸·Î Ç¥ÇöµÉ ¼ö ÀÖÀ¸¸ç µû¶ó¼ À§ÇèÇÑ ÀÔ·ÂÀ» °Ë»çÇÏ´Â º¸¾È ·çƾÀ» ¹«·ÂȽÃų ¼öµµ ÀÖ´Ù´Â °ÍÀ» ÀǹÌÇÑ´Ù´Â °ÍÀÌ´Ù. RFC ´Â ´ÙÀ½°ú °°ÀÌ ¹®Á¦Á¡À» ±â¼úÇÏ°í ÀÖ´Ù:
UTF-8 À» ±¸ÇöÇÑ »ç¶÷Àº ºñÇÕ¹ýÀûÀÎ UTF-8 ½ÃÄö½º ó¸® ¹æ¹ýÀÇ º¸¾È Ãø¸éÀ» °í·ÁÇÒ ÇÊ¿ä°¡ ÀÖ´Ù. ¾î¶² °æ¿ì¿¡ ÀÖ¾î °ø°ÝÀÚ°¡ UTF-8 Æļ¿¡ UTF-8 ±¸¹®¿¡¼ Çã¿ëµÇÁö ¾Ê´Â ¿ÁÅÝ (ÆÈÁß¼ö, octet) ½ÃÄö½º¸¦ º¸³¿À¸·Î½á Á¶½É¼º¾ø´Â Æļ¸¦ ¾Ç¿ëÇÒ ¼ö ÀÖÀ» °ÍÀ̶ó°í »ó»óÇÒ ¼ö ÀÖ´Ù.
ƯÈ÷ ¹Ì¹¦ÇÑ ÇüÅÂÀÇ ÀÌ °ø°ÝÀÌ UTF-8 ·Î ÀÎÄÚµåµÈ ÀÔ·Â Æû¿¡ ´ëÇØ º¸¾È¿¡ Áß´ëÇÑ À¯È¿¼º °Ë»ç¸¦ ¼öÇàÇÏÁö¸¸ ¾î¶² ºñÇÕ¹ýÀûÀÎ ¿ÁÅÝ ½ÃÄö½º¸¦ ¹®ÀÚ·Î Çؼ®ÇÏ´Â Æļ¿¡ ´ëÇØ ¼öÇàµÉ ¼ö ÀÖ´Ù. ¿¹¸¦ µé¾î ½Ì±Û ¿ÁÅÝ ½ÃÄö½º 00 À¸·Î ÀÎÄÚµåµÉ ¶§´Â NUL ¹®ÀÚ¸¦ ±ÝÁöÇÏÁö¸¸ C0 80 (ÇÊ¿äÀÌ»óÀ¸·Î ±æ±â¶§¹®¿¡ ºñÇÕ¹ýÀûÀÌ´Ù) ÀÇ ºñÇÕ¹ýÀûÀÎ µÎ ¿ÁÅÝ ½ÃÄö½º´Â Çã¿ëÇؼ À̸¦ NUL ¹®ÀÚ (00) À¸·Î Çؼ®ÇÒ ¼öµµ ÀÖ´Ù. ´Ù¸¥ ¿¹´Â ¿ÁÅÝ ½ÃÄö½º 2F 2E 2E 2F ("/../") ¸¦ ±ÝÁöÇÏÁö¸¸ ¾ÆÁ÷±îÁö´Â ºñÇÕ¹ýÀûÀÎ ¿ÁÅÝ ½ÃÄö½º 2F C0 AE 2E 2F ¸¦ Çã¿ëÇÏ´Â ÆļÀÏ °ÍÀÌ´Ù.
ÀÌ¿¡ ´ëÇÑ ´õ¿í ÀÚ¼¼ÇÑ ³íÀÇ´Â http://www.cl.cam.ac.uk/~mgk25/unicode.html ¿¡¼ Marjus Kuhn ÀÇ UTF-8 and Unicode FAQ for Unis/Linux ·ÎºÎÅÍ ¾òÀ» ¼ö ÀÖ´Ù.
µû¶ó¼ UTF-8 ÀÔ·ÂÀ» ¹Þ¾ÆµéÀÏ ¶§ À¯È¿ÇÑ UTF-8 ÀÎÁö¸¦ °Ë»çÇÒ ÇÊ¿ä°¡ ÀÖ´Ù. Ç¥ 4-1 Àº ¸ðµç ÇÕ¹ýÀûÀÎ UTF-8 ½ÃÄö½º ¸ñ·ÏÀÌ´Ù; ÀÌ Ç¥¿Í ÀÏÄ¡ÇÏÁö ¾Ê´Â ¸ðµç ¹®ÀÚ ½ÃÄö½º´Â ÇÕ¹ýÀûÀÎ UTF-8 ½ÃÄö½º°¡ ¾Æ´Ï´Ù. Ç¥¿¡¼ ù¹ø° ¿Àº UTF-8 ·Î ÀÎÄÚµåµÇ´Â ´Ù¾çÇÑ ¹®ÀÚ°ªµéÀÌ´Ù. µÎ¹ø° ¿Àº ÀÌ ¹®ÀÚµéÀÌ ¾î¶»°Ô ¹ÙÀ̳ʸ® °ªÀ¸·Î ÀÎÄÚµåµÇ´Â Áö¸¦ º¸¿©ÁØ´Ù; ``x" ´Â µ¥ÀÌŸ (0 ¶Ç´Â 1) °¡ ³õÀÌ´Â °÷À» ³ªÅ¸³½´Ù. ±×·¯³ª ¸î¸î °ªµéÀº °¡´ÉÇÑ °¡Àå ªÀº ÀÎÄÚµùÀÌ ¾Æ´Ï±â ¶§¹®¿¡ Çã¿ëµÇÁö ¾Ê¾Æ¾ß ÇÑ´Ù. ¸¶Áö¸· ¿Àº °¢ ¹ÙÀÌÆ®°¡ °¡Áú ¼ö ÀÖ´Â (16Áø¹ý) À¯È¿ÇÑ °ªÀ» ³ªÅ¸³½´Ù. µû¶ó¼ ÇÁ·Î±×·¥Àº ¸ðµç ¹®ÀÚ°¡ ¼¼¹ø° ¿ÀÇ ÆÐÅÏ ÁßÀÇ Çϳª¿Í ÀÏÄ¡ÇÏ´ÂÁö °Ë»çÇØ¾ß ÇÑ´Ù. ``-" ´Â ÇÕ¹ýÀûÀÎ °ª (Æ÷°ýÀûÀÎ ) ÀÇ ¹üÀ§¸¦ ³ªÅ¸³½´Ù. ¹°·Ð ½ÃÄö½º°¡ ÇÕ¹ýÀûÀÎ UTF-8 ½ÃÄö½º¶ó°í Çؼ À̸¦ ¼ö¿ëÇØ¾ß ÇÑ´Ù´Â °ÍÀ» ÀǹÌÇÏÁö´Â ¾ÊÀ¸¸ç (½º½º·Î ´Ù¸¥ °Ë»ç¸¦ ÇÒ ÇÊ¿ä°¡ ÀÖ´Ù) ÀϹÝÀûÀ¸·Î ´Ù¸¥ °Ë»ç¸¦ Çϱâ Àü¿¡ UTF-8 ÇÕ¹ý¼º¿¡ ´ëÇØ ¸ðµç UTF-8 µ¥ÀÌŸ¸¦ °Ë»çÇØ¾ß ÇÑ´Ù.
Ç¥ 4-1. ÇÕ¹ýÀûÀÎ UTF-8 ½ÃÄö½º
UCS Code (Hex) | Binary UTF-8 Format | Legal UTF-8 Values (Hex) |
---|---|---|
00-7F | 0xxxxxxx | 00-7F |
80-7FF | 110xxxxx 10xxxxxx | C2-DF 80-BF |
800-FFF | 1110xxxx 10xxxxxx 10xxxxxx | E0 A0*-BF 80-BF |
1000-FFFF | 1110xxxx 10xxxxxx 10xxxxxx | E1-EF 80-BF 80-BF |
10000-3FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx | F0 90*-BF 80-BF 80-BF |
40000-FFFFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx | F1-F3 80-BF 80-BF 80-BF |
40000-FFFFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx | F1-F3 80-BF 80-BF 80-BF |
100000-10FFFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx | F4 80-8F* 80-BF 80-BF |
200000-3FFFFFF | 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx | too large; see below |
04000000-7FFFFFFF | 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx | too large; see below |
¾Õ¿¡¼ ¾ð±ÞÇßµíÀÌ ¹®Àڼ¿¡ ´ëÇÑ Ç¥ÁØ¿¡´Â ISO 10646 °ú Unicode µÎ°³°¡ ÀÖÀ¸¸ç À̵éÀº ¹®ÀÚ ÁöÁ¤À» µ¿±âÈÇϴµ¥ µ¿ÀÇÇÏ¿´´Ù. ISO/IEC 10646 °ú IETF RFC ³»ÀÇ UTF-8 ÀÇ Á¤ÀÇ´Â Uniforum ÀÇ Unicode °¡ Áö¿øÇÏ´Â ¹üÀ§¹ÛÀÇ ¹®ÀÚµéÀ» ÀÎÄÚµåÇϱâ À§ÇØ ÇöÀç 5 ¿Í 6 ¹ÙÀÌÆ® ½ÃÄö½º¸¦ Áö¿øÇÑ´Ù. ±×·¯³ª ÀÌ °ªµéÀÌ Unicode ¹®ÀÚ¸¦ Áö¿øÇϴµ¥ »ç¿ëÇÒ ¼ö ¾øÀ¸¸ç ISO 10646 ÀÇ ÇâÈÄ ¹öÀü¿¡¼µµ µ¿ÀÏÇÑ ÇѰ踦 °®À» °ÍÀ¸·Î »ý°¢µÈ´Ù. µû¶ó¼ ´ëºÎºÐÀÇ ¸ñÀû¿¡ ´ëÇØ 5 ¿Í 6 ¹ÙÀÌÆ® UTF-8 ÀÎÄÚµùÀº ÇÕ¹ýÀûÀÌÁö ¾ÊÀ¸¸ç º¸Åë À̸¦ ¹ö·Á¾ß ÇÑ´Ù (Ưº°ÇÑ ¸ñÀûÀÌ ¾Æ´Ñ °æ¿ì¶ó¸é).
ÀÌ·¯ÇÑ ÀÏ·ÃÀÇ À¯È¿ÇÑ °ªµéÀ» °áÁ¤ÇÏ´Â °ÍÀº ¾î·Á¿ì¸ç »ç½Ç ÀÌ ¹®¼ÀÇ Ãʱ⠹öÀü¿¡´Â ´Ù¼ÒÀÇ Æ²¸° ¿£Æ®¸®¸¦ °®°í ÀÖ¾ú´Ù (¾î¶² °æ¿ì¿¡ ÀÖ¾î ³Ê¹« ±ä ¹®ÀÚ¸¦ Çã¿ëÇß´Ù). ¾ð¾î °³¹ßÀÚµéÀº ¶óÀ̺귯¸®¿¡ À¯È¿ÇÑ UTF-8 °ªÀ» °Ë»çÇÏ´Â ÇÔ¼ö¸¦ Æ÷ÇÔÇØ¾ß Çϴµ¥ À̸¦ ¿Ã¹Ù¸£°Ô °Ë»çÇÏ´Â °ÍÀº ¸Å¿ì ¾î·Æ±â ¶§¹®ÀÌ´Ù.
¾î¶² °æ¿ì¿¡ ÀÖ¾î¼ 16Áø¹ý ½ÃÄö½º C0 80 À» ºÎÁÖÀÇÇÏ°Ô ÀÚ¸£°í (³»ºÎÀûÀ¸·Î »ç¿ëÇÏ°í) ½ÍÀ» ¼öµµ ÀÖ´Ù°í ÀúÀÚ´Â ¾ð±ÞÇÑ´Ù. ÀÌ´Â Çã¿ëµÇ´Â °æ¿ì ¾Æ½ºÅ° NUL (NIL) À» ³ªÅ¸³¾ ¼ö ÀÖ´Â ³Ê¹« ±ä ½ÃÄö½ºÀÌ´Ù. C ¿Í C++ ¿¡¼ º¸Åë ¹®ÀÚ¿¿¡ NIL ¹®ÀÚ¸¦ Æ÷ÇÔÇÏ´Â °ÍÀº ¹®Á¦°¡ »ý±â±â ¶§¹®¿¡ NIL À» µ¥ÀÌŸ ½ºÆ®¸²ÀÇ ÀϺκÐÀ¸·Î ³ªÅ¸³»±æ ¿øÇÒ ¶§ ÀÌ ½ÃÄö½º¸¦ »ç¿ëÇØ¿Ô´Ù; ÀÚ¹ÙÁ¶Â÷µµ ÀÌ·¯ÇÑ ¿¹¸¦ »ç¿ëÇÏ°í ÀÖ´Ù. µ¥ÀÌŸ¸¦ ó¸®ÇÒ ¶§ C0 80 À» ³»ºÎÀûÀ¸·Î´Â ÀÚÀ¯·Ó°Ô »ç¿ëÇضó ±×·¯³ª ±â¼úÀûÀ¸·Î À̸¦ µ¥ÀÌŸ¿¡ ÀúÀåÇϱâ Àü¿¡ ´Ù½Ã 00 À¸·Î ½ÇÁ¦ÀûÀ¸·Î ÀüȯÇØ¾ß ÇÑ´Ù. ÇÊ¿ä¿¡ µû¶ó UTF-8 µ¥ÀÌŸ ½ºÆ®¸²³»ÀÇ ÀÔ·ÂÀ¸·Î C0 80 À» ºÎÁÖÀÇÇÏ°Ô ¹Þ¾ÆµéÀÏ ¼öµµ ÀÖ´Ù. ÀÌ ½ÃÄö½º´Â »óÈ£¿î¿ë¼º¿¡ µµ¿òÀ» Áֱ⠶§¹®¿¡ º¸¾È¿¡ Çظ¦ ³¢Ä¡Áö ¾Ê´Â´Ù¸é ÀÌ ½ÃÄö½º¸¦ ¼ö¿ëÇÏ´Â °ÍÀÌ ¾Æ¸¶µµ ÁÁÀº ½À°üÀÌ´Ù.
À̸¦ ´Ù·ç´Â °ÍÀº ¾î·Á¿ï ¼ö ÀÖ´Ù. º¯È¯À» ´Ù·ç±â À§ÇØ ftp://ftp.unicode.org/Public/PROGRAMS/CVTUTF/ConvertUTF.c ¿¡¼ ¾òÀ» ¼ö ÀÖ´Â Unicode ¿¡¼ °³¹ßÇÑ C ·çƾÀ» »ìÆ캼 ¼öµµ ÀÖ´Ù. ÀúÀÚ¿¡°Ô ÀÌ ·çƾÀÌ ¿ÀÇ ¼Ò½º ¼ÒÇÁÆ®¿þ¾îÀÎÁö ¸íÈ®ÇÏÁö´Â ¾Ê´Ù (¶óÀ̼¾½º¿¡ ¼öÁ¤°¡´É ¿©ºÎ°¡ ¸íÈ®È÷ ¾ð±ÞµÇ¾î ÀÖÁö ¾Ê´Ù) µû¶ó¼ ÁÖÀÇÇضó.
ÀÌ Àý¿¡¼´Â UTF-8 À» ±â¼úÇߴµ¥ ÀÌ´Â °¡Àå ³Î¸® ¾²ÀÌ´Â UCS ¸ÖƼ¹ÙÀÌÆ® ÀÎÄÚµùÀ̱⠶§¹®ÀÌ´Ù. ÀÌ´Â ¸¹Àº ±¹Á¦È ÅؽºÆ® ó¸® ¹®Á¦¸¦ °£´ÜÇÏ°Ô ÇÑ´Ù. ±×·¯³ª UTF-8 ¸¸ÀÌ À¯ÀÏÇÑ ÀÎÄÚµùÀº ¾Æ´Ï¸ç UTF-8 °ú °°Àº Á¾·ùÀÇ ¹®Á¦Á¡À» °®°í °°Àº ¿¬À¯·Î ÀÎÇØ À¯È¿¼ºÀ» Æò°¡ÇØ¾ß ÇÏ´Â UTF-16 °ú UTF-7 °ú °°Àº ´Ù¸¥ ÀÎÄÚµùµµ ÀÖ´Ù.
´Ù¸¥ ¹®Á¦´Â ISO 10646/À¯´ÏÄڵ忡¼ ÇÑ°¡Áö ÀÌ»óÀÇ ¹æ¹ýÀ¸·Î ¾î¶² ±¸ (phrase) °¡ Ç¥ÇöµÉ ¼ö ÀÖ´Ù´Â °ÍÀÌ´Ù. ¿¹¸¦ µé¾î ¾î¶² °Á¶µÈ ¹®ÀÚ´Â ¾Ç¼¾Æ®¸¦ °®´Â ÇϳªÀÇ ¹®ÀÚ ¹× ÀÏ·ÃÀÇ ¹®ÀÚ (±âº» ¹®ÀÚ + º°µµÀÇ ±¸¼º ¾Ç¼¾Æ®) ·Î Ç¥ÇöµÉ ¼ö ÀÖ´Ù. ÀÌ·¯ÇÑ µÎ ÇüÅ´ µ¿ÀÏÇÏ°Ô ³ªÅ¸³¯ ¼öµµ ÀÖ´Ù. ¶ÇÇÑ ³¢¿ö ³ÖÀ» ¼ö ÀÖ´Â zero-width °ø¹éÀ¸·Î ÀÌ´Â ¿Ü°ü»ó À¯»çÇÑ ¾ÆÀÌÅÛÀÌ ´Ù¸£°Ô »ý°¢µÇµµ·Ï ÇÑ´Ù. ÀÌ·¯ÇÑ ¼û°ÜÁø ÅؽºÆ®°¡ ÇÁ·Î±×·¥À» ¹æÇØÇÒ ¼ö ÀÖ´Â »óȲÀ» Á¶½ÉÇضó. ÀÌ´Â ÀϹÝÀûÀ¸·Î ÇØ°áÇϱ⠾î·Á¿î ¹®Á¦ÀÌ´Ù; ´ëºÎºÐÀÇ ÇÁ·Î±×·¥Àº ¿Ïº®È÷ Ưº°ÇÑ ½ÃÄö½º°¡ ³ªÅ¸³¯ ¼ö ÀÖ´Â ¹æ¹ýÀ» Ŭ¶óÀ̾ðÆ®°¡ ¾Ë ¼ö ÀÖ°Ô²û ¾ö°ÝÇÑ Á¦¾î¸¦ ÇÏÁö ¸øÇÑ´Ù (À̴ Ŭ¶óÀ̾ðÆ®ÀÇ ÆùÆ®, µð½ºÇ÷¹ÀÌ Æ¯¼º, ·ÎÄÉÀÏ µî¿¡ ÀÇÁ¸Çϱ⠶§¹®ÀÌ´Ù).