首页 > 范文大全

Python编码问题详解

时间：2022年12月11日

来源：muchun

编辑：本站小编

收藏本文

下载本文

下面就是小编给大家分享的Python编码问题详解，本文共6篇，希望大家喜欢!本文原稿由网友“muchun”提供。

篇1：Python编码问题详解

1.1 str和unicode

python中有两种数据模型来支持字符串这种数据类型，str和unicode，它们的基类都是basestring。比如s = “中文”就是str类型的字符串，而u=u“中文”就是一个unicode类型的字符串。unicode是由str类型的字符串解码后得到，unicode也可以编码成str类型。即

str -->decode -->unicode

unicode -->encode -->str

严格来说，str也许应该叫做字节串，因为对于UTF-8编码的str类型“中文”，使用len函数得到的结果是6，因为UTF-8编码的str类型“中文”实际是“\\xe4\\xb8\\xad\\xe6\\x96\\x87”。而对于unicode类型u“中文”(实际是u“\\u4e2d\\u6587”)，使用len()函数得到结果是2.

1.2 头部编码声明

在python源代码文件中如果有用到非ascii字符，比如中文，那么需要在源码文件头部声明源代码字符编码，格式如下：

#-*- coding: utf-8 -*-

这个格式看起比较复杂，其实python只检查#、coding，编码等字符串，可以简写成#coding:utf-8，甚至还可以写成#coding:u8。

篇2：Python编码问题详解

2.1 头部编码声明和文件编码问题

文件头部编码声明决定了python解析源码中的str的编码选择方式，比如头部声明的是utf-8编码，则代码中s=“中文”python就会按照utf-8编码格式来解析，通过repr(s)可以看到字符编码是“\\xe4\\xb8\\xad\\xe6\\x96\\x87”，如果头部声明的编码是gbk编码，则python会对s采用gbk编码解析，结果是“\\xd6\\xd0\\xce\\xc4”。

需要注意的是，文件本身的编码要跟文件头部声明编码一致，不然就会出现问题。文件本身的编码在Linux下面可以在vim下用命令set fenc来查看。如果文件本身编码是gbk，而源码文件头部声明的编码是utf-8，这样如果源码中有中文就会有问题了，因为本身中文str存储是按照gbk编码来的，而python在解析str的时候又以为是utf-8编码，这样就会报SyntaxError: (unicode error) 'utf8' codec can't decode byte错误，

2.2 默认编码问题

下面看个python默认编码导致的问题：

#coding: utf-8

u = u“中文”

print repr(u) # u'\\u4e2d\\u6587'

s = “中文”

print repr(s) # '\\xe4\\xb8\\xad\\xe6\\x96\\x87'

u2 = s.decode(“utf-8”)

print repr(u2) # u'\\u4e2d\\u6587'

#s2 = u.decode(“utf-8”) #编码错误

#u2 = s.encode(“utf-8”) #解码错误

注意实例中注释掉的2行代码，对于unicode最好不要直接调用decode，str最好不要直接调用encode方法。因为如果是直接调用，则相当于u.encode(default_encoding).decode(“utf-8”)，default_encoding是python的unicode实现中用的默认编码，即sys.getdefaultencoding()得到的编码,如果你没有设置过，那么默认编码就是ascii，如果你的unicode本身超出了ascii编码范围就会报错。同理，如果对str直接调用encode方法，那么默认会先对str进行解码，即s.decode(default_encoding).encode(“utf-8”),如果str本身是中文，而default_encoding是ascii的话，解码就会出错，从而导致上面这两行会分别报UnicodeEncodeError: 'ascii' codec can't encode characters in position...错误和UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position...错误。

上面例子中注释掉的两行代码如果执行就会报错，当然，如果本身str或者unicode都在ascii编码范围，就没有问题。比如s = “abc”; s.encode(“utf-8”)就不会有问题，语句执行后会返回一个跟s的id不同的str。

篇3：常用字符集编码详解

ASCII

ASCII码是7位编码，编码范围是0×00-0×7F，ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。其中0×00-0×20和0×7F共33个控制字符。

只支持ASCII码的系统会忽略每个字节的最高位，只认为低7位是有效位。HZ字符编码就是早期为了在只支持7位ASCII系统中传输中文而设计的编码。早期很多邮件系统也只支持ASCII编码，为了传输中文邮件必须使用BASE64或者其他编码方式。

GB2312

GB2312是基于区位码设计的，区位码把编码表分为94个区，每个区对应94个位，每个字符的区号和位号组合起来就是该汉字的区位码。区位码一般用10进制数来表示，如1601就表示16区1位，对应的字符是“啊”。在区位码的区号和位号上分别加上0xA0就得到了GB2312编码。

区位码中01-09区是符号、数字区，16-87区是汉字区，10-15和88-94是未定义的空白区。它将收录的汉字分成两级：第一级是常用汉字计 3755个，置于16-55区，按汉语拼音字母/笔形顺序排列；第二级汉字是次常用汉字计3008个，置于56-87区，按部首/笔画顺序排列。一级汉字是按照拼音排序的，这个就可以得到某个拼音在一级汉字区位中的范围，很多根据汉字可以得到拼音的程序就是根据这个原理编写的。

GB2312字符集中除常用简体汉字字符外还包括希腊字母、日文平假名及片假名字母、俄语西里尔字母等字符，未收录繁体中文汉字和一些生僻字。可以用繁体汉字测试某些系统是不是只支持GB2312编码。

GB2312的编码范围是0xA1A1-0×7E7E，去掉未定义的区域之后可以理解为实际编码范围是0xA1A1-0xF7FE。

EUC-CN可以理解为GB2312的别名，和GB2312完全相同。

区位码更应该认为是字符集的定义，定义了所收录的字符和字符位置，而GB2312及EUC-CN是实际计算机环境中支持这种字符集的编码。HZ和ISO- 2022-CN是对应区位码字符集的另外两种编码，都是用7位编码空间来支持汉字。区位码和GB2312编码的关系有点像 Unicode和UTF-8。

GBK

GBK编码是GB2312编码的超集，向下完全兼容GB2312，同时GBK收录了Unicode基本多文种平面中的所有CJK汉字。同 GB2312一样，GBK也支持希腊字母、日文假名字母、俄语字母等字符，但不支持韩语中的表音字符（非汉字字符）。GBK还收录了GB2312不包含的汉字部首符号、竖排标点符号等字符。

GBK的整体编码范围是为0×8140-0xFEFE，不包括低字节是0×7F的组合。高字节范围是0×81-0xFE，低字节范围是0×40-7E和0×80-0xFE。

低字节是0×40-0×7E的GBK字符有一定特殊性，因为这些字符占用了ASCII码的位置，这样会给一些系统带来麻烦。

有些系统中用0×40-0×7E中的字符（如“|”）做特殊符号，在定位这些符号时又没有判断这些符号是不是属于某个 GBK字符的低字节，这样就会造成错误判断。在支持GB2312的环境下就不存在这个问题。需要注意的是支持GBK的环境中小于0×80的某个字节未必就是ASCII符号；另外就是最好选用小于0×40的ASCII符号做一些特殊符号，这样就可以快速定位，且不用担心是某个汉字的另一半。Big5编码中也存在相应问题。

CP936和GBK的有些许差别，绝大多数情况下可以把CP936当作GBK的别名，

GB18030

GB18030编码向下兼容GBK和GB2312，兼容的含义是不仅字符兼容，而且相同字符的编码也相同。GB18030收录了所有Unicode3.1中的字符，包括中国少数民族字符，GBK不支持的韩文字符等等，也可以说是世界大多民族的文字符号都被收录在内。

GBK和GB2312都是双字节等宽编码，如果算上和ASCII兼容所支持的单字节，也可以理解为是单字节和双字节混合的变长编码。GB18030编码是变长编码，有单字节、双字节和四字节三种方式。

GB18030的单字节编码范围是0×00-0×7F，完全等同与ASCII；双字节编码的范围和GBK相同，高字节是0×81-0xFE，低字节的编码范围是0×40-0×7E和0×80-FE；四字节编码中第一、三字节的编码范围是0×81-0xFE，二、四字节是0×30-0×39。

Windows中CP936代码页使用0×80来表示欧元符号，而在GB18030编码中没有使用0×80编码位，用其他位置来表示欧元符号。这可以理解为是GB18030向下兼容性上的一点小问题；也可以理解为0×80是CP936对GBK的扩展，而GB18030只是和GBK兼容良好。

unicode

每一种语言的不同的编码页，增加了那些需要支持不同语言的软件的复杂度。因而人们制定了一个世界标准，叫做unicode。unicode为每个字符提供了唯一的特定数值，不论在什么平台上、不论在什么软件中，也不论什么语言。也就是说，它世界上使用的所有字符都列出来，并给每一个字符一个唯一特定数值。

Unicode的最初目标，是用1个16位的编码来为超过65000字符提供映射。但这还不够，它不能覆盖全部历史上的文字，也不能解决传输的问题 (implantation head-ache’s)，尤其在那些基于网络的应用中。已有的软件必须做大量的工作来程序16位的数据。

因此，Unicode用一些基本的保留字符制定了三套编码方式。它们分别是UTF-8,UTF-16和UTF-32。正如名字所示，在 UTF－8中，字符是以8位序列来编码的，用一个或几个字节来表示一个字符。这种方式的最大好处，是UTF－8保留了ASCII字符的编码做为它的一部分，例如，在UTF－8和ASCII中，“A”的编码都是0×41.

UTF－16和UTF－32分别是Unicode的16位和32位编码方式。考虑到最初的目的，通常说的Unicode就是指UTF-16。在讨论Unicode时，搞清楚哪种编码方式非常重要。

UTF-8

Unicode Transformation Format-8bit，允许含BOM，但通常不含BOM。是用以解决国际上字符的一种多字节编码，它对英文使用8位（即一个字节），中文使用24为（三个字节）来编码。UTF-8包含全世界所有国家需要用到的字符，是国际编码，通用性强。UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示。如，如果是UTF8编码，则在外国人的英文IE上也能显示中文，他们无需下载IE的中文语言支持包。

GBK的文字编码是用双字节来表示的，即不论中、英文字符均使用双字节来表示，为了区分中文，将其最高位都设定成1。GBK包含全部中文字符，是国家编码，通用性比UTF8差，不过UTF8占用的数据库比GBD大。

GBK、GB2312等与UTF8之间都必须通过Unicode编码才能相互转换：

GBK、GB2312－－Unicode－－UTF8

UTF8－－Unicode－－GBK、GB2312

对于一个网站、论坛来说，如果英文字符较多，则建议使用UTF－8节省空间。不过现在很多论坛的插件一般只支持GBK。

篇4：Python开发编码规范

热点排行

Python入门教程超详细1小时学会

python 中文乱码问题深入分析

比较详细Python正则表达式操作指

Python字符串的encode与decode研

Python open读写文件实现脚本

Python enumerate遍历数组示例应

Python 深入理解yield

Python+Django在windows下的开发

python 字符串split的用法分享

python 文件和路径操作函数小结

篇5：Python中使用不同编码读写txt文件详解

这篇文章主要介绍了Python中使用不同编码读写txt文件详解,本文给出不同编码下的读写文件代码方法,需要的朋友可以参考下

代码如下:

import os

import codecs

filenames=os.listdir(os.getcwd)

ut=file(“name.txt”,“w”)

for filename in filenames:

out.write(filename.decode(“gb2312”).encode(“utf-8”))

out.close()

将执行文件的当前目录及文件名写入到name.txt文件中，以utf-8格式保存

如果采用ANSI编码保存，用如下代码写入即可：

代码如下:

out.write(filename)

打开文件并写入

引用codecs模块，对该模块目前不了解，在此记录下方法，有空掌握该模块功能及用法。

代码如下:

import codecs

file=codecs.open(“lol.txt”,“w”,“utf-8”)

file.write(u“我”)

file.close()

读取ANSI编码的文本文件和utf-8编码的文件

读取ANSI编码文件

建立一个文件test.txt，文件格式用ANSI，内容为:

代码如下:

abc中文

用python来读取

代码如下:

# coding=gbk

print open(“Test.txt”).read()

结果：abc中文

读取utf-8编码文件（无BOM）

把文件格式改成UTF-8：

代码如下:

结果：abc涓

显然，这里需要解码：

代码如下:

# -*- coding: utf-8 -*-

import codecs

print open(“Test.txt”).read().decode(“utf-8”)

结果：abc中文

读取utf-8编码文件（有BOM）

某些软件在保存一个以UTF-8编码的文件时，默认会在文件开始的地方插入三个不可见的字符（0xEF 0xBB 0xBF，即BOM）。在有些软件可以控制是否插入BOM。如果在有BOM的情况下，在读取时需要自己去掉这些字符，python中的codecs module定义了这个常量：

代码如下:

# -*- coding: utf-8 -*-

import codecs

data = open(“Test.txt”).read()

if data[:3] == codecs.BOM_UTF8:

data = data[3:]

print data.decode(“utf-8”)

结果：abc中文

在看下面的例子：

代码如下:

# -*- coding: utf-8 -*-

data = open(“name_utf8.txt”).read()

u=data.decode(“utf-8”)

print u[1:]

打开utf-8格式的文件并读取utf-8字符串后，解码变成unicode对象，

但是会把附加的三个字符同样进行转换，变成一个unicode字符。该字符不能被打印。所以为了正常显示，采用u[1:]的方式，过滤到第一个字符。

注意：在处理unicode中文字符串的时候，必须首先对它调用encode函数，转换成其它编码输出。

设置python默认编码

代码如下:

import sys

reload(sys)

sys.setdefaultencoding(“utf-8”)

print sys.getdefaultencoding()

今天碰到了 python 编码问题, 报错信息如下

代码如下:

Traceback (most recent call last):

File “ntpath.pyc”, line 108, in join

UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xa1 in position 36: ordinal not in range(128)

显然是当前的编码为ascii, 无法解析0xa1(十进制为161, 超过上限128). 进入python console后, 发现默认编码确实是 ascii, 验证过程为:

在python2.6中无法调用sys.setdefaultencoding()函数来修改默认编码，因为python在启动的时候会调用site.py文件，在这个文件中设置完默认编码后会删除sys的setdefaultencoding方法。不能再被调用了. 在确定sys已经导入的情况下, 可以reload sys这个模块之后, 再 sys.setdefaultencoding(‘utf8‘)

代码如下:

import sys

reload(sys)

sys.setdefaultencoding(“utf-8”)

print sys.getdefaultencoding()

确实有效, 根据 limodou 讲解, site.py 是 python 解释器启动后, 默认加载的一个脚本. 如果使用 python -S 启动的话, 将不会自动加载 site.py.

上面写的挺嗦的.

==================================

如何永久地将默认编码设置为utf-8呢? 有2种方法:

==================================

第一个方法<不推荐>: 编辑site.py, 修改setencoding()函数, 强制设置为 utf-8

第二个方法<推荐>: 增加一个名为 sitecustomize.py, 推荐存放的路径为 site-packages 目录下