XOOPS Brasil

 

9.11. Os conjuntos de Caracteres e Collations que o MySQL Suporta

Aqui está uma lista do conjunto de caracter e collation que o MySQL suporta. Como as opções e configuração de instalação diferem, alguns sites não terão todos os itens da lista, e alguns sites terão itens que não estão na lista porque a definição de novos conjunto de caracteres e collation é direto.

O MySQL suporta mais de 70 collations e mais de 30 conjunto de caracteres.

mysql> SHOW CHARACTER SET;
+----------+-----------------------------+---------------------+--------+
| Charset | Description | Default collation | Maxlen |
+----------+-----------------------------+---------------------+--------+
| big5 | Big5 Traditional Chinese | big5_chinese_ci | 2 |
| dec8 | DEC West European | dec8_swedish_ci | 1 |
| cp850 | DOS West European | cp850_general_ci | 1 |
| hp8 | HP West European | hp8_english_ci | 1 |
| koi8r | KOI8-R Relcom Russian | koi8r_general_ci | 1 |
| latin1 | ISO 8859-1 West European | latin1_swedish_ci | 1 |
| latin2 | ISO 8859-2 Central European | latin2_general_ci | 1 |
| swe7 | 7bit Swedish | swe7_swedish_ci | 1 |
| ascii | US ASCII | ascii_general_ci | 1 |
| ujis | EUC-JP Japanese | ujis_japanese_ci | 3 |
| sjis | Shift-JIS Japanese | sjis_japanese_ci | 2 |
| cp1251 | Windows Cyrillic | cp1251_bulgarian_ci | 1 |
| hebrew | ISO 8859-8 Hebrew | hebrew_general_ci | 1 |
| tis620 | TIS620 Thai | tis620_thai_ci | 1 |
| euckr | EUC-KR Korean | euckr_korean_ci | 2 |
| koi8u | KOI8-U Ukrainian | koi8u_general_ci | 1 |
| gb2312 | GB2312 Simplified Chinese | gb2312_chinese_ci | 2 |
| greek | ISO 8859-7 Greek | greek_general_ci | 1 |
| cp1250 | Windows Central European | cp1250_general_ci | 1 |
| gbk | GBK Simplified Chinese | gbk_chinese_ci | 2 |
| latin5 | ISO 8859-9 Turkish | latin5_turkish_ci | 1 |
| armscii8 | ARMSCII-8 Armenian | armscii8_general_ci | 1 |
| utf8 | UTF-8 Unicode | utf8_general_ci | 3 |
| ucs2 | UCS-2 Unicode | ucs2_general_ci | 2 |
| cp866 | DOS Russian | cp866_general_ci | 1 |
| keybcs2 | DOS Kamenicky Czech-Slovak | keybcs2_general_ci | 1 |
| macce | Mac Central European | macce_general_ci | 1 |
| macroman | Mac West European | macroman_general_ci | 1 |
| cp852 | DOS Central European | cp852_general_ci | 1 |
| latin7 | ISO 8859-13 Baltic | latin7_general_ci | 1 |
| cp1256 | Windows Arabic | cp1256_general_ci | 1 |
| cp1257 | Windows Baltic | cp1257_general_ci | 1 |
| binary | Binary pseudo charset | binary | 1 |
+----------+-----------------------------+---------------------+--------+
33 rows in set (0.01 sec)

NB: TODOS OS CONJUNTO DE CARACTERES TEM UMA COLLATION BINÁRIA. NÃO INCLUÍMOS A COLLATION BINÁRIA EM TODAS AS DESCRIÇÕES A SEGUIR.

9.11.1. O Conjunto de Caracteres Unicode

É claro que existem os nossos dois conjuntos de caracteres Unicode. Você pode armazenar texto em cerca de 650 línguas usando estes conjunto de caracteres. Não adicionamos um grande número de collations para estes dois novos conjuntos ainda, mas isto acontecerá logo. Agora eles possuem a collation caso-insensitivo e acento-insensitivo, mais a collation binária.

+---------+-----------------+-------------------+--------+
| Charset | Description | Default collation | Maxlen |
+---------+-----------------+-------------------+--------+
| utf8 | UTF-8 Unicode | utf8_general_ci | 3 |
| ucs2 | UCS-2 Unicode | ucs2_general_ci | 2 |
+---------+-----------------+-------------------+--------+

9.11.2. Conjunto de Caracteres para Plataformas Específicas

+----------+-----------------------------+---------------------+--------+
| Charset | Description | Default collation | Maxlen |
+----------+-----------------------------+---------------------+--------+
| dec8 | DEC West European | dec8_swedish_ci | 1 |
| hp8 | HP West European | hp8_english_ci | 1 |
+----------+-----------------------------+---------------------+--------+

9.11.3. Conjunto de Caracteres do Sul da Europa e Oriente Médio

+----------+-----------------------------+---------------------+--------+
| Charset | Description | Default collation | Maxlen |
+----------+-----------------------------+---------------------+--------+
| armscii8 | ARMSCII-8 Armenian | armscii8_general_ci | 1 |
| cp1256 | Windows Arabic | cp1256_general_ci | 1 |
| hebrew | ISO 8859-8 Hebrew | hebrew_general_ci | 1 |
| greek | ISO 8859-7 Greek | greek_general_ci | 1 |
| latin5 | ISO 8859-9 Turkish | latin5_turkish_ci | 1 |
| geostd8 | Georgian | geostd8_general_ci | 1 |
+----------+-----------------------------+---------------------+--------+

9.11.4. Os Conjuntos de Caracteres Asiáticos

O conjunto de caracteres Asiático que suportamos inclui Chinês, Japonês, Coreano e Tailandês. Estes podem ser complicados. Por exemplo, o conjunto Chinês devem permitir milhares de caracteres diferentes.

+----------+-----------------------------+---------------------+--------+
| Charset | Description | Default collation | Maxlen |
+----------+-----------------------------+---------------------+--------+
| big5 | Big5 Traditional Chinese | big5_chinese_ci | 2 |
| gb2312 | GB2312 Simplified Chinese | gb2312_chinese_ci | 2 |
| gbk | GBK Simplified Chinese | gbk_chinese_ci | 2 |
| euckr | EUC-KR Korean | euckr_korean_ci | 2 |
| ujis | EUC-JP Japanese | ujis_japanese_ci | 3 |
| sjis | Shift-JIS Japanese | sjis_japanese_ci | 2 |
| tis620 | TIS620 Thai | tis620_thai_ci | 1 |
+----------+-----------------------------+---------------------+--------+

9.11.5. Os Conjuntos de Caracteres Bálticos

O conjunto de caracter Báltico cobre as linguagens da Estonia, Letônia e Lituânia. Existem dois conjunto de caracteres Bálticos suportados:

  • latin7 (ISO 8859-13 Baltic):

    +----------------------+----------+----+---------+----------+---------+
    | Collation | Charset | Id | Default | Compiled | Sortlen |
    +----------------------+----------+----+---------+----------+---------+
    | latin7_estonian_cs | latin7 | 20 | | | 0 |
    | latin7_general_ci | latin7 | 41 | Yes | | 0 |
    | latin7_general_cs | latin7 | 42 | | | 0 |
    | latin7_bin | latin7 | 79 | | | 0 |
    +----------------------+----------+----+---------+----------+---------+
    

  • cp1257 (Windows Baltic):

    +----------------------+----------+----+---------+----------+---------+
    | Collation | Charset | Id | Default | Compiled | Sortlen |
    +----------------------+----------+----+---------+----------+---------+
    | cp1257_lithuanian_ci | cp1257 | 29 | | | 0 |
    | cp1257_bin | cp1257 | 58 | | | 0 |
    | cp1257_general_ci | cp1257 | 59 | Yes | | 0 |
    +----------------------+----------+----+---------+----------+---------+
    

9.11.6. Os Conjuntos de Caracteres Cirílicos

Aqui estão os conjunto de caracteres e collation cirílicos para uso com as linguagens Belarússia, Búlgaro, Russo e Ucraniano.

  • cp1251 (Windows Cyrillic):

    +----------------------+----------+----+---------+----------+---------+
    | Collation | Charset | Id | Default | Compiled | Sortlen |
    +----------------------+----------+----+---------+----------+---------+
    | cp1251_bulgarian_ci | cp1251 | 14 | | | 0 |
    | cp1251_ukrainian_ci | cp1251 | 23 | | | 0 |
    | cp1251_bin | cp1251 | 50 | | | 0 |
    | cp1251_general_ci | cp1251 | 51 | Yes | | 0 |
    | cp1251_general_cs | cp1251 | 52 | | | 0 |
    +----------------------+----------+----+---------+----------+---------+
    

  • cp866 (DOS Russian):

    +----------------------+----------+----+---------+----------+---------+
    | Collation | Charset | Id | Default | Compiled | Sortlen |
    +----------------------+----------+----+---------+----------+---------+
    | cp866_general_ci | cp866 | 36 | Yes | | 0 |
    | cp866_bin | cp866 | 68 | | | 0 |
    +----------------------+----------+----+---------+----------+---------+
    

  • koi8r (KOI8-R Relcom Russian, primarily used in Russia on Unix):

    +----------------------+----------+----+---------+----------+---------+
    | Collation | Charset | Id | Default | Compiled | Sortlen |
    +----------------------+----------+----+---------+----------+---------+
    | koi8r_general_ci | koi8r | 7 | Yes | | 0 |
    | koi8r_bin | koi8r | 74 | | | 0 |
    +----------------------+----------+----+---------+----------+---------+
    

  • koi8u (KOI8-U Ukrainian, primarily used in Ukraine on Unix):

    +----------------------+----------+----+---------+----------+---------+
    | Collation | Charset | Id | Default | Compiled | Sortlen |
    +----------------------+----------+----+---------+----------+---------+
    | koi8u_general_ci | koi8u | 22 | Yes | | 0 |
    | koi8u_bin | koi8u | 75 | | | 0 |
    +----------------------+----------+----+---------+----------+---------+
    

9.11.7. O Conjunto de Caracteres da Europa Central

Temos algum suporte para conjunto de caracteres usados na República Tcheca, Eslováquia, Hungria, Romênia, Eslovênia, Croácia e Polônia.

  • cp1250 (Windows Central European):

    +----------------------+----------+----+---------+----------+---------+
    | Collation | Charset | Id | Default | Compiled | Sortlen |
    +----------------------+----------+----+---------+----------+---------+
    | cp1250_general_ci | cp1250 | 26 | Yes | | 0 |
    | cp1250_czech_ci | cp1250 | 34 | | Yes | 2 |
    | cp1250_bin | cp1250 | 66 | | | 0 |
    +----------------------+----------+----+---------+----------+---------+
    

  • cp852 (DOS Central European):

    +----------------------+----------+----+---------+----------+---------+
    | Collation | Charset | Id | Default | Compiled | Sortlen |
    +----------------------+----------+----+---------+----------+---------+
    | cp852_general_ci | cp852 | 40 | Yes | | 0 |
    | cp852_bin | cp852 | 81 | | | 0 |
    +----------------------+----------+----+---------+----------+---------+
    

  • macce (Mac Central European):

    +----------------------+----------+----+---------+----------+---------+
    | Collation | Charset | Id | Default | Compiled | Sortlen |
    +----------------------+----------+----+---------+----------+---------+
    | macce_general_ci | macce | 38 | Yes | | 0 |
    | macce_bin | macce | 43 | | | 0 |
    +----------------------+----------+----+---------+----------+---------+
    

  • latin2 (ISO 8859-2 Central European):

    +----------------------+----------+----+---------+----------+---------+
    | Collation | Charset | Id | Default | Compiled | Sortlen |
    +----------------------+----------+----+---------+----------+---------+
    | latin2_czech_ci | latin2 | 2 | | Yes | 4 |
    | latin2_general_ci | latin2 | 9 | Yes | | 0 |
    | latin2_hungarian_ci | latin2 | 21 | | | 0 |
    | latin2_croatian_ci | latin2 | 27 | | | 0 |
    | latin2_bin | latin2 | 77 | | | 0 |
    +----------------------+----------+----+---------+----------+---------+
    

  • keybcs2 (DOS Kamenicky Czech-Slovak):

    +----------------------+----------+----+---------+----------+---------+
    | Collation | Charset | Id | Default | Compiled | Sortlen |
    +----------------------+----------+----+---------+----------+---------+
    | keybcs2_general_ci | keybcs2 | 37 | Yes | | 0 |
    | keybcs2_bin | keybcs2 | 73 | | | 0 |
    +----------------------+----------+----+---------+----------+---------+
    

9.11.8. Os Conjuntos de Caracteres da Europa Ocidental

O Cojunto de Caracteres da Europa Ocidental cobre a maioria das linguagens desta região como Francês, Espanhol, Catalão, Basco, Português, Italiano, Albanês, Holandês, Alemão, Finlandes, Dinamarquês, Sueco, Norueguês, Faroese, Islandês, Irlandês, Escocês e Inglês

  • latin1 (ISO 8859-1 West European):

    +----------------------+----------+----+---------+----------+---------+
    | Collation | Charset | Id | Default | Compiled | Sortlen |
    +----------------------+----------+----+---------+----------+---------+
    | latin1_german1_ci | latin1 | 5 | | | 0 |
    | latin1_swedish_ci | latin1 | 8 | Yes | Yes | 0 |
    | latin1_danish_ci | latin1 | 15 | | | 0 |
    | latin1_german2_ci | latin1 | 31 | | Yes | 2 |
    | latin1_bin | latin1 | 47 | | Yes | 0 |
    | latin1_general_ci | latin1 | 48 | | | 0 |
    | latin1_general_cs | latin1 | 49 | | | 0 |
    +----------------------+----------+----+---------+----------+---------+
    

    A collation latin1_swedish_ci é o padrão que provavelmente é usado pela maioria dos utilizadores do MySQL. É constantemente indicado que ele é baseado nas regras de collation do Suéco/Finlandês, mas você encontrará Suécos e Finlandeses que descordam desta afirmação.

    As collations latin1_german1_ci e latin1_german2_ci são baseadas nos padrões DIN-1 e DIN-2, onde DIN significa Deutsches Institut für Normung (isto é, a resposta Alemã ao ANSI). DIN-1 é chamada collation de dicionário e o DIN-2 é chamado a collation de agenda.

    • Regras latin1_german1_ci (dicionários):


            ‘Ä’ = ‘A’, ‘Ö’ = ‘O’, ‘Ü’ = ‘U’, ‘ß’ = ‘s
            

    • Regras latin1_german2_ci (agendas):


            ‘Ä’ = 'AE', ‘Ö’ = 'OE', ‘Ü’ = 'UE', ‘ß’ = 'ss'
            

  • macroman (Mac West European):

    +----------------------+----------+----+---------+----------+---------+
    | Collation | Charset | Id | Default | Compiled | Sortlen |
    +----------------------+----------+----+---------+----------+---------+
    | macroman_general_ci | macroman | 39 | Yes | | 0 |
    | macroman_bin | macroman | 53 | | | 0 |
    +----------------------+----------+----+---------+----------+---------+
    

  • cp850 (DOS West European):

    +----------------------+----------+----+---------+----------+---------+
    | Collation | Charset | Id | Default | Compiled | Sortlen |
    +----------------------+----------+----+---------+----------+---------+
    | cp850_general_ci | cp850 | 4 | Yes | | 0 |
    | cp850_bin | cp850 | 80 | | | 0 |
    +----------------------+----------+----+---------+----------+---------+