File: support.rst

package info (click to toggle)
python-charset-normalizer 3.4.3-1
links: PTS, VCS
area: main
in suites: forky, sid
size: 712 kB
sloc: python: 5,434; makefile: 25; sh: 17
file content (183 lines) | stat: -rw-r--r-- 7,055 bytes
parent folder | download | duplicates (2)
=================
 Support
=================

**If you are running:**

- Python >=2.7,<3.5: Unsupported
- Python 3.5: charset-normalizer < 2.1
- Python 3.6: charset-normalizer < 3.1

Upgrade your Python interpreter as soon as possible.

-------------------
Supported Encodings
-------------------

Here are a list of supported encoding and supported language with latest update. Also this list
may change depending of your python version.

Charset Normalizer is able to detect any of those encoding. This list is NOT static and depends heavily on what your
current cPython version is shipped with. See https://docs.python.org/3/library/codecs.html#standard-encodings

===============  ===============================================================================================================================
IANA Code Page   Aliases
===============  ===============================================================================================================================
ascii            646, ansi_x3.4_1968, ansi_x3_4_1968, ansi_x3.4_1986, cp367, csascii, ibm367, iso646_us, iso_646.irv_1991, iso_ir_6, us, us_ascii
big5             big5_tw, csbig5, x_mac_trad_chinese
big5hkscs        big5_hkscs, hkscs
cp037            037, csibm037, ebcdic_cp_ca, ebcdic_cp_nl, ebcdic_cp_us, ebcdic_cp_wt, ibm037, ibm039
cp1026           1026, csibm1026, ibm1026
cp1125           1125, ibm1125, cp866u, ruscii
cp1140           1140, ibm1140
cp1250           1250, windows_1250
cp1251           1251, windows_1251
cp1252           1252, windows_1252
cp1253           1253, windows_1253
cp1254           1254, windows_1254
cp1255           1255, windows_1255
cp1256           1256, windows_1256
cp1257           1257, windows_1257
cp1258           1258, windows_1258
cp273            273, ibm273, csibm273
cp424            424, csibm424, ebcdic_cp_he, ibm424
cp437            437, cspc8codepage437, ibm437
cp500            500, csibm500, ebcdic_cp_be, ebcdic_cp_ch, ibm500
cp775            775, cspc775baltic, ibm775
cp850            850, cspc850multilingual, ibm850
cp852            852, cspcp852, ibm852
cp855            855, csibm855, ibm855
cp857            857, csibm857, ibm857
cp858            858, csibm858, ibm858
cp860            860, csibm860, ibm860
cp861            861, cp_is, csibm861, ibm861
cp862            862, cspc862latinhebrew, ibm862
cp863            863, csibm863, ibm863
cp864            864, csibm864, ibm864
cp865            865, csibm865, ibm865
cp866            866, csibm866, ibm866
cp869            869, cp_gr, csibm869, ibm869
cp932            932, ms932, mskanji, ms_kanji
cp949            949, ms949, uhc
cp950            950, ms950
euc_jis_2004     jisx0213, eucjis2004, euc_jis2004
euc_jisx0213     eucjisx0213
euc_jp           eucjp, ujis, u_jis
euc_kr           euckr, korean, ksc5601, ks_c_5601, ks_c_5601_1987, ksx1001, ks_x_1001, x_mac_korean
gb18030          gb18030_2000
gb2312           chinese, csiso58gb231280, euc_cn, euccn, eucgb2312_cn, gb2312_1980, gb2312_80, iso_ir_58, x_mac_simp_chinese
gbk              936, cp936, ms936
hp_roman8        roman8, r8, csHPRoman8
hz               hzgb, hz_gb, hz_gb_2312
iso2022_jp       csiso2022jp, iso2022jp, iso_2022_jp
iso2022_jp_1     iso2022jp_1, iso_2022_jp_1
iso2022_jp_2     iso2022jp_2, iso_2022_jp_2
iso2022_jp_3     iso2022jp_3, iso_2022_jp_3
iso2022_jp_ext   iso2022jp_ext, iso_2022_jp_ext
iso2022_kr       csiso2022kr, iso2022kr, iso_2022_kr
iso8859_10       csisolatin6, iso_8859_10, iso_8859_10_1992, iso_ir_157, l6, latin6
iso8859_11       thai, iso_8859_11, iso_8859_11_2001
iso8859_13       iso_8859_13, l7, latin7
iso8859_14       iso_8859_14, iso_8859_14_1998, iso_celtic, iso_ir_199, l8, latin8
iso8859_15       iso_8859_15, l9, latin9
iso8859_16       iso_8859_16, iso_8859_16_2001, iso_ir_226, l10, latin10
iso8859_2        csisolatin2, iso_8859_2, iso_8859_2_1987, iso_ir_101, l2, latin2
iso8859_3        csisolatin3, iso_8859_3, iso_8859_3_1988, iso_ir_109, l3, latin3
iso8859_4        csisolatin4, iso_8859_4, iso_8859_4_1988, iso_ir_110, l4, latin4
iso8859_5        csisolatincyrillic, cyrillic, iso_8859_5, iso_8859_5_1988, iso_ir_144
iso8859_6        arabic, asmo_708, csisolatinarabic, ecma_114, iso_8859_6, iso_8859_6_1987, iso_ir_127
iso8859_7        csisolatingreek, ecma_118, elot_928, greek, greek8, iso_8859_7, iso_8859_7_1987, iso_ir_126
iso8859_8        csisolatinhebrew, hebrew, iso_8859_8, iso_8859_8_1988, iso_ir_138
iso8859_9        csisolatin5, iso_8859_9, iso_8859_9_1989, iso_ir_148, l5, latin5
iso2022_jp_2004  iso_2022_jp_2004, iso2022jp_2004
johab            cp1361, ms1361
koi8_r           cskoi8r
kz1048           kz_1048, rk1048, strk1048_2002
latin_1          8859, cp819, csisolatin1, ibm819, iso8859, iso8859_1, iso_8859_1, iso_8859_1_1987, iso_ir_100, l1, latin, latin1
mac_cyrillic     maccyrillic
mac_greek        macgreek
mac_iceland      maciceland
mac_latin2       maccentraleurope, maclatin2
mac_roman        macintosh, macroman
mac_turkish      macturkish
ptcp154          csptcp154, pt154, cp154, cyrillic_asian
shift_jis        csshiftjis, shiftjis, sjis, s_jis, x_mac_japanese
shift_jis_2004   shiftjis2004, sjis_2004, s_jis_2004
shift_jisx0213   shiftjisx0213, sjisx0213, s_jisx0213
tis_620          tis620, tis_620_0, tis_620_2529_0, tis_620_2529_1, iso_ir_166
utf_16           u16, utf16
utf_16_be        unicodebigunmarked, utf_16be
utf_16_le        unicodelittleunmarked, utf_16le
utf_32           u32, utf32
utf_32_be        utf_32be
utf_32_le        utf_32le
utf_8            u8, utf, utf8, utf8_ucs2, utf8_ucs4 (+utf_8_sig)
utf_7*           u7, unicode-1-1-utf-7
cp720            N.A.
cp737            N.A.
cp856            N.A.
cp874            N.A.
cp875            N.A.
cp1006           N.A.
koi8_r           N.A.
koi8_t           N.A.
koi8_u           N.A.
===============  ===============================================================================================================================

*: Only if a SIG/mark is found.

-------------------
Supported Languages
-------------------

Those language can be detected inside your content. All of these are specified in ./charset_normalizer/assets/__init__.py .


| English,
| German,
| French,
| Dutch,
| Italian,
| Polish,
| Spanish,
| Russian,
| Japanese,
| Portuguese,
| Swedish,
| Chinese,
| Ukrainian,
| Norwegian,
| Finnish,
| Vietnamese,
| Czech,
| Hungarian,
| Korean,
| Indonesian,
| Turkish,
| Romanian,
| Farsi,
| Arabic,
| Danish,
| Serbian,
| Lithuanian,
| Slovene,
| Slovak,
| Malay,
| Hebrew,
| Bulgarian,
| Croatian,
| Hindi,
| Estonian,
| Thai,
| Greek,
| Tamil.

----------------------------
Incomplete Sequence / Stream
----------------------------

It is not (yet) officially supported. If you feed an incomplete byte sequence (eg. truncated multi-byte sequence) the detector will
most likely fail to return a proper result.
If you are purposely feeding part of your payload for performance concerns, you may stop doing it as this package is fairly optimized.

We are working on a dedicated way to handle streams.