프로필사진
owgno6
CODELIB
Recent Posts
Recent Comments
«   2024/09   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
Archives
Today
Total

티스토리 뷰

기타

UTF-8 인코딩 방식

owgno6 2018. 9. 7. 09:16


 

컴퓨터에서 데이터를 부호화하는 것을 인코딩(encoding)이라하고

부호화된 데이터를 부호화되기 전으로 되돌리는 것을 디코딩(decoding)이라 한다.

 

문자, 기호, 숫자 데이터를 부호화하는 것도 인코딩이고

부호화된 문자, 기호, 숫자 데이터를 부호화되기 전으로 되돌리는 것도 디코딩이다.

 

지구상에는 수많은 문자와 기호가 있다

문자 인코딩 방식 중 전세계 문자와 기호를 원활하게 인코딩하는 방식이 UTF-8 이다.

 

예전에는 영어문자만을 위한 ASCII가 쓰였으나 ANSI, ISO-8859-1로 발전하여

현재는 전세계 문자와 기호를 인코딩하는데 UTF-8 이 사용되고 있다.

 

그래서 html문서 작성시 head부분에 이 html문서의 문자셋(=문자집합 : character set : charset)utf-8로 인코딩함을 표시 한다.

 

웹페이지 작성시 <meta>태그를 이용하여 아래와 같은 방법으로 charsetutf-8을 나타낸다.


<!DOCTYPE html>

<html>

<head>

<meta http-equiv="content-type" content="text/html; charset=UTF-8" />

</head>

<body>

<p>UTF-8charset에 대한 이해</p>

</body>

</html>

 

utf-8로 인코딩하지 않으면 html문서를 브라우저에서 구현할때 한글이 깨져보이는 현상이 발생할 수 있다.



현재 한국에서 사용되는 인코딩 방식으로는 크게 EUC-KR 방식과 UTF-8 방식이 있다.

 

euc-kr 방식은 원래 영어만을 고려한 1byte 길이의 ASCII 라는 인코딩 방식을 확장하여 한글을 사용할 수 있도록 만든 2byte 길이의 국가 언어 코드다.

국가 언어코드. 즉 우리나라에서만 쓸 수 있도록 만든 코드이며 세계 어디에서나 공통으로 사용되는 인코딩 방식이 아니기 때문에, 다른 언어를 사용하는 환경(외국 등)에서는 한글 페이지를 제대로 볼 수 없는 문제가 발생한다.

 

이를 해결하기 위해 새로운 인코딩 방식이 개발되었는데, 그중 가장 보편화된 인코딩이 바로 UTF-8 (3byte).


예전에는 용량이 작은 euc-kr 방식을 선호하는 곳들도 많았으나, 현재는 용량 문제보다 표준화 및 글로벌 환경을 고려해야 하므로 

UTF-8 인코딩 방식 사용을 하고 있습니다.

 

https://ko.wikipedia.org/wiki/UTF-8

 

 

댓글