UnicodeとUTF-8について

文字コードの概念

文字集合と文字エンコーディング(文字符号化方式)の2つの概念を合わせたもののこと

Unicodeとは?

Unicodeは符号化文字集合である。
文字集合(文字セット)とは、表現できる文字の集合体である(“あ”、”わ”・・・などの文字の集合体である)
符号化文字集合にはコードポイント(符号位置)と言う文字集合内の個々の文字に対して、数値(非負整数値)が割り振られている。

UTF-8

UTF-8はUnicodeの文字符号化方式である
文字符号化方式とは、コードポイントをバイト列に変換することを指す

簡単なサンプル

Unicodeのコードポイントで表した「あ」 => U+3042
UTF-8で符号化 => 0xE3 0x81 0x82
UTF-16で符号化 => 0x30 0x42