4.8. ¹®ÀÚ ÀÎÄÚµù

4.8.1. ¹®ÀÚ ÀÎÄÚµù ¼Ò°³

¹Ì±¹ÀεéÀº ¿À·§µ¿¾È ¾Æ½ºÅ° ¹®ÀÚ¼ÂÀ» ÀÌ¿ëÇÏ¿© ÅؽºÆ®¸¦ ¼­·Î ±³È¯Çß´Ù; º»·¡ ¹Ì±¹ÀÇ ¸ðµç ½Ã½ºÅÛµéÀÌ ¾Æ½ºÅ°¸¦ Áö¿øÇϱ⠶§¹®¿¡ ¿µ¾î ÅؽºÆ®¸¦ ¼Õ½±°Ô ±³È¯ÇÒ ¼ö ÀÖ´Ù. ºÒÇàÈ÷µµ ¾Æ½ºÅ°´Â °ÅÀÇ ¸ðµç ´Ù¸¥ ¾ð¾îÀÇ ¹®ÀÚ¸¦ ´Ù·ç±â¿¡´Â ºÎÀûÀýÇÏ´Ù. ¿À·§µ¿¾È ¿©·¯ ³ª¶óµéÀº ´Ù¸¥ ¾ð¾î·Î ÅؽºÆ®¸¦ ±³È¯ÇÏ´Â ¿©·¯°¡Áö ±â¹ýÀ» äÅÃÇØ¿ÔÀ¸¸ç ÀÌ´Â ´õ¿í ´õ »óÈ£ ¿¬°áµÈ ¼¼»ó¿¡¼­ µ¥ÀÌŸ¸¦ ±³È¯ÇÏ´Â °ÍÀ» ¾î·Æ°Ô ¸¸µé°í ÀÖ´Ù.

´õ¿í ÃÖ±Ù¿¡ ISO ´Â ISO 10646, Universal Multiple-Octet Coded Character Set (UCS) À» °³¹ßÇߴµ¥ UCS ´Â ¼¼»óÀÇ ¸ðµç ¹®ÀÚ °¢°¢¿¡ ´ëÇØ À¯ÀÏÇÑ 31 ºñÆ® °ªÀ» Á¤ÀÇÇÏ´Â ÄÚµåÈ­µÈ ¹®ÀÚ¼ÂÀÌ´Ù. UCS ÀÇ Ã¹ 65536 ¹®ÀÚ (µû¶ó¼­ 16 ºñÆ®¿¡ ²À¸Â´Ù) ´Â Basic Multilingual Plane (BMP) À̶ó°í ĪÇϸç BMP ´Â °ÅÀÇ ¿À´Ã³¯ ¸ðµç ±¸¾î¸¦ ´Ù·ç·Á°í ÇÑ´Ù. Unicode Æ÷·³Àº À¯´ÏÄÚµå Ç¥ÁØÀ» °³¹ßÇÏ°í Àִµ¥ ÀÌ´Â UCS ¿¡ ÁßÁ¡À» µÎ¾î »óÈ£ ÀÌ¿ëÀ» µ½±â À§ÇØ ¾à°£ÀÇ Ãß°¡ÀûÀÎ ÇÕÀǸ¦ Ãß°¡ÇÑ´Ù. ¿ª»çÀûÀ¸·Î À¯´ÏÄÚµå¿Í ISO 10646 Àº °æÀï ±×·ìÀÌ °³¹ßÇßÁö¸¸ °í¸¿°Ôµµ µÎ ±×·ìÀº °øµ¿ ÀÛ¾÷ÀÇ Çʿ伺À» ±ú´Þ¾ÒÀ¸¸ç ÇöÀç ¼­·Î Çù·ÂÇÏ¸ç °³¹ßÇÏ°í ÀÖ´Ù.

±¹Á¦È­µÈ ¹®ÀÚ¸¦ ´Ù·ç´Â »õ·Î¿î ¼ÒÇÁÆ®¿þ¾î¸¦ ÀÛ¼ºÇÏ°í ÀÖ´Ù¸é ±¹Á¦ÀûÀÎ ¹®ÀÚ¸¦ ´Ù·ç±â À§ÇÑ ±âÃÊ·Î ISO 10646/À¯´ÏÄڵ带 »ç¿ëÇØ¾ß ÇÑ´Ù. ±×·¯³ª ´Ù¾çÇÑ ¿¾³¯ (¾ð¾î¿¡ ƯÁ¤ÀûÀÎ) ¹®ÀÚ¼ÂÀ¸·Î ¾²¿©Áø ¿¾³¯ ¹®¼­¸¦ ó¸®ÇÒ ÇÊ¿ä°¡ ÀÖÀ» ¼ö Àִµ¥ ÀÌ °æ¿ì¿¡ ÀÖ¾î ½Å·ÚµÇÁö ¾ÊÀº »ç¿ëÀÚ°¡ ´Ù¸¥ ¹®¼­ÀÇ ¹®Àڼ ¼³Á¤À» Á¦¾îÇÒ ¼ö ¾øµµ·Ï º¸ÁõÇÒ ÇÊ¿ä°¡ ÀÖ´Ù (ÀÌ´Â ¹®¼­ÀÇ Çؼ®¿¡ »ó´çÈ÷ ¿µÇâÀ» ¹ÌÄ¥ ¼ö Àֱ⠶§¹®ÀÌ´Ù).

4.8.2. UTF-8 ¼Ò°³

´ëºÎºÐÀÇ ¼ÒÇÁÆ®¿þ¾î´Â 16 ºñÆ® ¶Ç´Â 32 ºñÆ® ¹®ÀÚ¸¦ ´Ù·çµµ·Ï ¼³°èµÇÁö ¾Ê¾Ò´Âµ¥ ÀÌÁ¦ºÎÅÍ 8 ºñÆ® ÀÌ»óÀÇ Æ÷°ýÀûÀÎ ¹®ÀÚ¼ÂÀ» »ý¼ºÇÏ´Â °ÍÀÌ ÇÊ¿äÇÏ°Ô µÇ¾ú´Ù. µû¶ó¼­ ±âÁ¸ ÇÁ·Î±×·¥ ¹× ¶óÀ̺귯¸®°¡ ´õ¿í ½±°Ô ´Ù·ê ¼ö ÀÖ´Â Æ÷¸ËÀ¸·Î ÀÌ·¯ÇÑ ÀáÀçÀûÀ¸·Î ±¹Á¦ÀûÀÎ ¹®ÀÚ¸¦ ÀÎÄÚµåÇÒ ¼ö ÀÖµµ·Ï UTF-8 À̶ó´Â ƯÁ¤ Æ÷¸ËÀÌ °³¹ßµÇ¾ú´Ù. UTF-8 Àº ´Ù¸¥ °÷Áß¿¡¼­ IEFT-RFC 2279 ¿¡ Á¤ÀǵǾî ÀÖÀ¸¸ç ÀÌ ¶§¹®¿¡ ÀÚÀ¯·ÎÀÌ ÀÐÇôÁö°í »ç¿ëµÉ ¼ö ÀÖ´Â Àß Á¤ÀÇµÈ Ç¥ÁØÀÌ´Ù. UTF-8 Àº °¡º¯ ³Êºñ (variable-width) ÀÎÄÚµùÀ¸·Î 0 ¿¡¼­ 0x7f (127) ±îÁö ¹øÈ£°¡ ¸Å°ÜÁø ¹®ÀÚµé ÀÚ½ÅÀ» ½Ì±Û ¹ÙÀÌÆ®·Î ÀÎÄÚµåÇÏ¸ç ¹Ý¸é ´õ¿í Å« °ªÀ» °®´Â ¹®ÀÚµéÀº ±× °ª¿¡ µû¶ó Á¤º¸°¡ 2 ¿¡¼­ 6 ¹ÙÀÌÆ®·Î ÀÎÄÚµåµÈ´Ù. ÀÎÄÚµùÀº ƯÈ÷ ´ÙÀ½ÀÇ Á¤È®ÇÑ Æ¯¼ºÀ» °®µµ·Ï ¼³°èµÇ¾î¿Ô´Ù (ÀÌ Á¤º¸ÀÇ Ãâó´Â RFC ¹× ¸®´ª½º utf-8 ¸ÇÆäÀÌÁöÀÌ´Ù):

¿ä¾àÇϸé UTF-8 º¯È¯ Æ÷¸ËÀº ´Ù¸¥ Á¤È®ÇÑ Æ¯¼ºÀ» °®À» »Ó ¾Æ´Ï¶ó ¸ðµç ¼¼°èÀÇ ¾ð¾î¸¦ Áö¿øÇÒ ¼ö ÀÖ°í Áö±ÝÀ¸·Î¼­´Â ¹Ì±¹ ¾Æ½ºÅ° ÆÄÀÏ°ú ¿ªÇà ȣȯ¼ºÀ» °®°í Àֱ⠶§¹®¿¡ ±¹Á¦È­ ÅؽºÆ® Á¤º¸¸¦ ±³È¯Çϴµ¥ ÀÖ¾î °¡Àå À¯·ÂÇÑ ¹æ¹ýÀÌ µÇ°í ÀÖ´Ù. ¸¹Àº °æ¿ì¿¡ ÀÖ¾î ÀúÀÚ´Â À̸¦ »ç¿ëÇϱæ ÃßõÇϸç ƯÈ÷ ÅؽºÆ® ÆÄÀϳ»¿¡¼­ µ¥ÀÌŸ¸¦ Á¤·ÄÇÒ ¶§´Â À̸¦ »ç¿ëÇÏ±æ ¹Ù¶õ´Ù.

4.8.3. UTF-8 º¸¾È ÀïÁ¡

UTF-8 À» ¾ð±ÞÇÏ´Â ÀÌÀ¯´Â ¾î¶² ¹ÙÀÌÆ® ½ÃÄö½º°¡ ºñÇÕ¹ýÀûÀÎ UTF-8 À̸ç ÀÌ°ÍÀÌ ¾Ç¿ëµÉ ¼ö ÀÖ´Â º¸¾È ±¸¸ÛÀÏ ¼öµµ Àֱ⠶§¹®ÀÌ´Ù. UTF-8 ÀÎÄÚ´õ´Â ``°¡´ÉÇÑ °¡Àå ªÀº" ÀÎÄÚµùÀ» »ç¿ëÇÑ´Ù°í ¾Ë·ÁÁ® ÀÖÁö¸¸ ¼øÁøÇÑ µðÄÚ´õ°¡ ÇÊ¿äÀÌ»óÀ¸·Î ±ä ÀÎÄÚµùÀ» ¹Þ¾ÆµéÀÏ ¼öµµ ÀÖ´Ù. Á¤¸»·Î ´õ¿í ÃʱâÀÇ Ç¥ÁØÀº µðÄÚ´õ°¡ ``non-shortest form" ÀÎÄÚµùÀ» ¹Þ¾ÆµéÀ̵µ·Ï Çã¿ëÇß´Ù. ¿©±â¼­ÀÇ ¹®Á¦´Â ÀÌ°ÍÀÌ ÀáÀçÀûÀ¸·Î À§ÇèÇÑ ÀÔ·ÂÀÌ ´Ù¼öÀÇ ¹æ½ÄÀ¸·Î Ç¥ÇöµÉ ¼ö ÀÖÀ¸¸ç µû¶ó¼­ À§ÇèÇÑ ÀÔ·ÂÀ» °Ë»çÇÏ´Â º¸¾È ·çƾÀ» ¹«·ÂÈ­½Ãų ¼öµµ ÀÖ´Ù´Â °ÍÀ» ÀǹÌÇÑ´Ù´Â °ÍÀÌ´Ù. RFC ´Â ´ÙÀ½°ú °°ÀÌ ¹®Á¦Á¡À» ±â¼úÇÏ°í ÀÖ´Ù:

UTF-8 À» ±¸ÇöÇÑ »ç¶÷Àº ºñÇÕ¹ýÀûÀÎ UTF-8 ½ÃÄö½º ó¸® ¹æ¹ýÀÇ º¸¾È Ãø¸éÀ» °í·ÁÇÒ ÇÊ¿ä°¡ ÀÖ´Ù. ¾î¶² °æ¿ì¿¡ ÀÖ¾î °ø°ÝÀÚ°¡ UTF-8 Æļ­¿¡ UTF-8 ±¸¹®¿¡¼­ Çã¿ëµÇÁö ¾Ê´Â ¿ÁÅÝ (ÆÈÁß¼ö, octet) ½ÃÄö½º¸¦ º¸³¿À¸·Î½á Á¶½É¼º¾ø´Â Æļ­¸¦ ¾Ç¿ëÇÒ ¼ö ÀÖÀ» °ÍÀ̶ó°í »ó»óÇÒ ¼ö ÀÖ´Ù.

ƯÈ÷ ¹Ì¹¦ÇÑ ÇüÅÂÀÇ ÀÌ °ø°ÝÀÌ UTF-8 ·Î ÀÎÄÚµåµÈ ÀÔ·Â Æû¿¡ ´ëÇØ º¸¾È¿¡ Áß´ëÇÑ À¯È¿¼º °Ë»ç¸¦ ¼öÇàÇÏÁö¸¸ ¾î¶² ºñÇÕ¹ýÀûÀÎ ¿ÁÅÝ ½ÃÄö½º¸¦ ¹®ÀÚ·Î Çؼ®ÇÏ´Â Æļ­¿¡ ´ëÇØ ¼öÇàµÉ ¼ö ÀÖ´Ù. ¿¹¸¦ µé¾î ½Ì±Û ¿ÁÅÝ ½ÃÄö½º 00 À¸·Î ÀÎÄÚµåµÉ ¶§´Â NUL ¹®ÀÚ¸¦ ±ÝÁöÇÏÁö¸¸ C0 80 (ÇÊ¿äÀÌ»óÀ¸·Î ±æ±â¶§¹®¿¡ ºñÇÕ¹ýÀûÀÌ´Ù) ÀÇ ºñÇÕ¹ýÀûÀÎ µÎ ¿ÁÅÝ ½ÃÄö½º´Â Çã¿ëÇؼ­ À̸¦ NUL ¹®ÀÚ (00) À¸·Î Çؼ®ÇÒ ¼öµµ ÀÖ´Ù. ´Ù¸¥ ¿¹´Â ¿ÁÅÝ ½ÃÄö½º 2F 2E 2E 2F ("/../") ¸¦ ±ÝÁöÇÏÁö¸¸ ¾ÆÁ÷±îÁö´Â ºñÇÕ¹ýÀûÀÎ ¿ÁÅÝ ½ÃÄö½º 2F C0 AE 2E 2F ¸¦ Çã¿ëÇÏ´Â Æļ­ÀÏ °ÍÀÌ´Ù.

ÀÌ¿¡ ´ëÇÑ ´õ¿í ÀÚ¼¼ÇÑ ³íÀÇ´Â http://www.cl.cam.ac.uk/~mgk25/unicode.html ¿¡¼­ Marjus Kuhn ÀÇ UTF-8 and Unicode FAQ for Unis/Linux ·ÎºÎÅÍ ¾òÀ» ¼ö ÀÖ´Ù.

4.8.4. UTF-8 ÇÕ¹ýÀûÀÎ °ª

µû¶ó¼­ UTF-8 ÀÔ·ÂÀ» ¹Þ¾ÆµéÀÏ ¶§ À¯È¿ÇÑ UTF-8 ÀÎÁö¸¦ °Ë»çÇÒ ÇÊ¿ä°¡ ÀÖ´Ù. Ç¥ 4-1 Àº ¸ðµç ÇÕ¹ýÀûÀÎ UTF-8 ½ÃÄö½º ¸ñ·ÏÀÌ´Ù; ÀÌ Ç¥¿Í ÀÏÄ¡ÇÏÁö ¾Ê´Â ¸ðµç ¹®ÀÚ ½ÃÄö½º´Â ÇÕ¹ýÀûÀÎ UTF-8 ½ÃÄö½º°¡ ¾Æ´Ï´Ù. Ç¥¿¡¼­ ù¹ø° ¿­Àº UTF-8 ·Î ÀÎÄÚµåµÇ´Â ´Ù¾çÇÑ ¹®ÀÚ°ªµéÀÌ´Ù. µÎ¹ø° ¿­Àº ÀÌ ¹®ÀÚµéÀÌ ¾î¶»°Ô ¹ÙÀ̳ʸ® °ªÀ¸·Î ÀÎÄÚµåµÇ´Â Áö¸¦ º¸¿©ÁØ´Ù; ``x" ´Â µ¥ÀÌŸ (0 ¶Ç´Â 1) °¡ ³õÀÌ´Â °÷À» ³ªÅ¸³½´Ù. ±×·¯³ª ¸î¸î °ªµéÀº °¡´ÉÇÑ °¡Àå ªÀº ÀÎÄÚµùÀÌ ¾Æ´Ï±â ¶§¹®¿¡ Çã¿ëµÇÁö ¾Ê¾Æ¾ß ÇÑ´Ù. ¸¶Áö¸· ¿­Àº °¢ ¹ÙÀÌÆ®°¡ °¡Áú ¼ö ÀÖ´Â (16Áø¹ý) À¯È¿ÇÑ °ªÀ» ³ªÅ¸³½´Ù. µû¶ó¼­ ÇÁ·Î±×·¥Àº ¸ðµç ¹®ÀÚ°¡ ¼¼¹ø° ¿­ÀÇ ÆÐÅÏ ÁßÀÇ Çϳª¿Í ÀÏÄ¡ÇÏ´ÂÁö °Ë»çÇØ¾ß ÇÑ´Ù. ``-" ´Â ÇÕ¹ýÀûÀÎ °ª (Æ÷°ýÀûÀÎ ) ÀÇ ¹üÀ§¸¦ ³ªÅ¸³½´Ù. ¹°·Ð ½ÃÄö½º°¡ ÇÕ¹ýÀûÀÎ UTF-8 ½ÃÄö½º¶ó°í Çؼ­ À̸¦ ¼ö¿ëÇØ¾ß ÇÑ´Ù´Â °ÍÀ» ÀǹÌÇÏÁö´Â ¾ÊÀ¸¸ç (½º½º·Î ´Ù¸¥ °Ë»ç¸¦ ÇÒ ÇÊ¿ä°¡ ÀÖ´Ù) ÀϹÝÀûÀ¸·Î ´Ù¸¥ °Ë»ç¸¦ Çϱâ Àü¿¡ UTF-8 ÇÕ¹ý¼º¿¡ ´ëÇØ ¸ðµç UTF-8 µ¥ÀÌŸ¸¦ °Ë»çÇØ¾ß ÇÑ´Ù.

Ç¥ 4-1. ÇÕ¹ýÀûÀÎ UTF-8 ½ÃÄö½º

UCS Code (Hex)Binary UTF-8 FormatLegal UTF-8 Values (Hex)
00-7F0xxxxxxx00-7F
80-7FF110xxxxx 10xxxxxxC2-DF 80-BF
800-FFF1110xxxx 10xxxxxx 10xxxxxxE0 A0*-BF 80-BF
1000-FFFF1110xxxx 10xxxxxx 10xxxxxxE1-EF 80-BF 80-BF
10000-3FFFF11110xxx 10xxxxxx 10xxxxxx 10xxxxxxF0 90*-BF 80-BF 80-BF
40000-FFFFFF11110xxx 10xxxxxx 10xxxxxx 10xxxxxxF1-F3 80-BF 80-BF 80-BF
40000-FFFFFF11110xxx 10xxxxxx 10xxxxxx 10xxxxxxF1-F3 80-BF 80-BF 80-BF
100000-10FFFFF11110xxx 10xxxxxx 10xxxxxx 10xxxxxxF4 80-8F* 80-BF 80-BF
200000-3FFFFFF111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxxtoo large; see below
04000000-7FFFFFFF1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxxtoo large; see below

¾Õ¿¡¼­ ¾ð±ÞÇßµíÀÌ ¹®Àڼ¿¡ ´ëÇÑ Ç¥ÁØ¿¡´Â ISO 10646 °ú Unicode µÎ°³°¡ ÀÖÀ¸¸ç À̵éÀº ¹®ÀÚ ÁöÁ¤À» µ¿±âÈ­Çϴµ¥ µ¿ÀÇÇÏ¿´´Ù. ISO/IEC 10646 °ú IETF RFC ³»ÀÇ UTF-8 ÀÇ Á¤ÀÇ´Â Uniforum ÀÇ Unicode °¡ Áö¿øÇÏ´Â ¹üÀ§¹ÛÀÇ ¹®ÀÚµéÀ» ÀÎÄÚµåÇϱâ À§ÇØ ÇöÀç 5 ¿Í 6 ¹ÙÀÌÆ® ½ÃÄö½º¸¦ Áö¿øÇÑ´Ù. ±×·¯³ª ÀÌ °ªµéÀÌ Unicode ¹®ÀÚ¸¦ Áö¿øÇϴµ¥ »ç¿ëÇÒ ¼ö ¾øÀ¸¸ç ISO 10646 ÀÇ ÇâÈÄ ¹öÀü¿¡¼­µµ µ¿ÀÏÇÑ ÇѰ踦 °®À» °ÍÀ¸·Î »ý°¢µÈ´Ù. µû¶ó¼­ ´ëºÎºÐÀÇ ¸ñÀû¿¡ ´ëÇØ 5 ¿Í 6 ¹ÙÀÌÆ® UTF-8 ÀÎÄÚµùÀº ÇÕ¹ýÀûÀÌÁö ¾ÊÀ¸¸ç º¸Åë À̸¦ ¹ö·Á¾ß ÇÑ´Ù (Ưº°ÇÑ ¸ñÀûÀÌ ¾Æ´Ñ °æ¿ì¶ó¸é).

ÀÌ·¯ÇÑ ÀÏ·ÃÀÇ À¯È¿ÇÑ °ªµéÀ» °áÁ¤ÇÏ´Â °ÍÀº ¾î·Á¿ì¸ç »ç½Ç ÀÌ ¹®¼­ÀÇ Ãʱ⠹öÀü¿¡´Â ´Ù¼ÒÀÇ Æ²¸° ¿£Æ®¸®¸¦ °®°í ÀÖ¾ú´Ù (¾î¶² °æ¿ì¿¡ ÀÖ¾î ³Ê¹« ±ä ¹®ÀÚ¸¦ Çã¿ëÇß´Ù). ¾ð¾î °³¹ßÀÚµéÀº ¶óÀ̺귯¸®¿¡ À¯È¿ÇÑ UTF-8 °ªÀ» °Ë»çÇÏ´Â ÇÔ¼ö¸¦ Æ÷ÇÔÇØ¾ß Çϴµ¥ À̸¦ ¿Ã¹Ù¸£°Ô °Ë»çÇÏ´Â °ÍÀº ¸Å¿ì ¾î·Æ±â ¶§¹®ÀÌ´Ù.

¾î¶² °æ¿ì¿¡ À־ 16Áø¹ý ½ÃÄö½º C0 80 À» ºÎÁÖÀÇÇÏ°Ô ÀÚ¸£°í (³»ºÎÀûÀ¸·Î »ç¿ëÇÏ°í) ½ÍÀ» ¼öµµ ÀÖ´Ù°í ÀúÀÚ´Â ¾ð±ÞÇÑ´Ù. ÀÌ´Â Çã¿ëµÇ´Â °æ¿ì ¾Æ½ºÅ° NUL (NIL) À» ³ªÅ¸³¾ ¼ö ÀÖ´Â ³Ê¹« ±ä ½ÃÄö½ºÀÌ´Ù. C ¿Í C++ ¿¡¼­ º¸Åë ¹®ÀÚ¿­¿¡ NIL ¹®ÀÚ¸¦ Æ÷ÇÔÇÏ´Â °ÍÀº ¹®Á¦°¡ »ý±â±â ¶§¹®¿¡ NIL À» µ¥ÀÌŸ ½ºÆ®¸²ÀÇ ÀϺκÐÀ¸·Î ³ªÅ¸³»±æ ¿øÇÒ ¶§ ÀÌ ½ÃÄö½º¸¦ »ç¿ëÇØ¿Ô´Ù; ÀÚ¹ÙÁ¶Â÷µµ ÀÌ·¯ÇÑ ¿¹¸¦ »ç¿ëÇÏ°í ÀÖ´Ù. µ¥ÀÌŸ¸¦ ó¸®ÇÒ ¶§ C0 80 À» ³»ºÎÀûÀ¸·Î´Â ÀÚÀ¯·Ó°Ô »ç¿ëÇضó ±×·¯³ª ±â¼úÀûÀ¸·Î À̸¦ µ¥ÀÌŸ¿¡ ÀúÀåÇϱâ Àü¿¡ ´Ù½Ã 00 À¸·Î ½ÇÁ¦ÀûÀ¸·Î ÀüȯÇØ¾ß ÇÑ´Ù. ÇÊ¿ä¿¡ µû¶ó UTF-8 µ¥ÀÌŸ ½ºÆ®¸²³»ÀÇ ÀÔ·ÂÀ¸·Î C0 80 À» ºÎÁÖÀÇÇÏ°Ô ¹Þ¾ÆµéÀÏ ¼öµµ ÀÖ´Ù. ÀÌ ½ÃÄö½º´Â »óÈ£¿î¿ë¼º¿¡ µµ¿òÀ» Áֱ⠶§¹®¿¡ º¸¾È¿¡ Çظ¦ ³¢Ä¡Áö ¾Ê´Â´Ù¸é ÀÌ ½ÃÄö½º¸¦ ¼ö¿ëÇÏ´Â °ÍÀÌ ¾Æ¸¶µµ ÁÁÀº ½À°üÀÌ´Ù.

À̸¦ ´Ù·ç´Â °ÍÀº ¾î·Á¿ï ¼ö ÀÖ´Ù. º¯È¯À» ´Ù·ç±â À§ÇØ ftp://ftp.unicode.org/Public/PROGRAMS/CVTUTF/ConvertUTF.c ¿¡¼­ ¾òÀ» ¼ö ÀÖ´Â Unicode ¿¡¼­ °³¹ßÇÑ C ·çƾÀ» »ìÆ캼 ¼öµµ ÀÖ´Ù. ÀúÀÚ¿¡°Ô ÀÌ ·çƾÀÌ ¿ÀÇ ¼Ò½º ¼ÒÇÁÆ®¿þ¾îÀÎÁö ¸íÈ®ÇÏÁö´Â ¾Ê´Ù (¶óÀ̼¾½º¿¡ ¼öÁ¤°¡´É ¿©ºÎ°¡ ¸íÈ®È÷ ¾ð±ÞµÇ¾î ÀÖÁö ¾Ê´Ù) µû¶ó¼­ ÁÖÀÇÇضó.

4.8.5. UTF-8 °ü·Ã ÀïÁ¡

ÀÌ Àý¿¡¼­´Â UTF-8 À» ±â¼úÇߴµ¥ ÀÌ´Â °¡Àå ³Î¸® ¾²ÀÌ´Â UCS ¸ÖƼ¹ÙÀÌÆ® ÀÎÄÚµùÀ̱⠶§¹®ÀÌ´Ù. ÀÌ´Â ¸¹Àº ±¹Á¦È­ ÅؽºÆ® ó¸® ¹®Á¦¸¦ °£´ÜÇÏ°Ô ÇÑ´Ù. ±×·¯³ª UTF-8 ¸¸ÀÌ À¯ÀÏÇÑ ÀÎÄÚµùÀº ¾Æ´Ï¸ç UTF-8 °ú °°Àº Á¾·ùÀÇ ¹®Á¦Á¡À» °®°í °°Àº ¿¬À¯·Î ÀÎÇØ À¯È¿¼ºÀ» Æò°¡ÇØ¾ß ÇÏ´Â UTF-16 °ú UTF-7 °ú °°Àº ´Ù¸¥ ÀÎÄÚµùµµ ÀÖ´Ù.

´Ù¸¥ ¹®Á¦´Â ISO 10646/À¯´ÏÄڵ忡¼­ ÇÑ°¡Áö ÀÌ»óÀÇ ¹æ¹ýÀ¸·Î ¾î¶² ±¸ (phrase) °¡ Ç¥ÇöµÉ ¼ö ÀÖ´Ù´Â °ÍÀÌ´Ù. ¿¹¸¦ µé¾î ¾î¶² °­Á¶µÈ ¹®ÀÚ´Â ¾Ç¼¾Æ®¸¦ °®´Â ÇϳªÀÇ ¹®ÀÚ ¹× ÀÏ·ÃÀÇ ¹®ÀÚ (±âº» ¹®ÀÚ + º°µµÀÇ ±¸¼º ¾Ç¼¾Æ®) ·Î Ç¥ÇöµÉ ¼ö ÀÖ´Ù. ÀÌ·¯ÇÑ µÎ ÇüÅ´ µ¿ÀÏÇÏ°Ô ³ªÅ¸³¯ ¼öµµ ÀÖ´Ù. ¶ÇÇÑ ³¢¿ö ³ÖÀ» ¼ö ÀÖ´Â zero-width °ø¹éÀ¸·Î ÀÌ´Â ¿Ü°ü»ó À¯»çÇÑ ¾ÆÀÌÅÛÀÌ ´Ù¸£°Ô »ý°¢µÇµµ·Ï ÇÑ´Ù. ÀÌ·¯ÇÑ ¼û°ÜÁø ÅؽºÆ®°¡ ÇÁ·Î±×·¥À» ¹æÇØÇÒ ¼ö ÀÖ´Â »óȲÀ» Á¶½ÉÇضó. ÀÌ´Â ÀϹÝÀûÀ¸·Î ÇØ°áÇϱ⠾î·Á¿î ¹®Á¦ÀÌ´Ù; ´ëºÎºÐÀÇ ÇÁ·Î±×·¥Àº ¿Ïº®È÷ Ưº°ÇÑ ½ÃÄö½º°¡ ³ªÅ¸³¯ ¼ö ÀÖ´Â ¹æ¹ýÀ» Ŭ¶óÀ̾ðÆ®°¡ ¾Ë ¼ö ÀÖ°Ô²û ¾ö°ÝÇÑ Á¦¾î¸¦ ÇÏÁö ¸øÇÑ´Ù (À̴ Ŭ¶óÀ̾ðÆ®ÀÇ ÆùÆ®, µð½ºÇ÷¹ÀÌ Æ¯¼º, ·ÎÄÉÀÏ µî¿¡ ÀÇÁ¸Çϱ⠶§¹®ÀÌ´Ù).