点赞、收藏、加关注，下次找我不迷路

写了个读取中文文件的程序，运行后却发现内容全是乱码，这可怎么办呀？别担心，今天这篇文章就来帮你彻底解决这个问题，让乱码问题彻底消失！

一、认识 Python 中文编码问题

在 Python 编程过程中，中文编码问题是新手经常遇到的难题。当我们尝试读取中文文件、输出中文内容或者进行网络请求获取中文数据时，常常会看到屏幕上出现 “?????”“锟斤拷” 等乱码现象。这些乱码不仅影响程序的可读性，还可能导致我们对数据的理解出现偏差，甚至影响程序的正常运行。

比如，小王写的程序是用来读取一个名为 “古诗.txt” 的文件，文件里存储着一些中文古诗。他使用了简单的代码with open('古诗.txt', 'r') as f: print(f.read())，结果运行后输出的却是一堆乱码。这就是典型的中文编码问题没有正确处理的情况。

二、编码基本概念

要解决 Python 的中文编码问题，我们首先需要了解一些基本的编码概念。我们可以把编码比作一种翻译方式，计算机要存储和处理文字，需要把文字转换成二进制数据，而编码就是规定如何进行这种转换的规则。不同的编码规则就像是不同的翻译手册，只有使用正确的编码，才能准确地 “翻译” 出文字的内容。

（一）常见的编码格式

编码格式	特点
UTF-8	通用的编码格式，支持几乎所有语言，是 Python 3 的默认编码。它使用 1 到 4 个字节来表示不同的字符，对英文使用 1 个字节，对中文通常使用 3 个字节
GBK	中文编码格式，占用空间相对较小，支持简体中文和繁体中文。它使用 2 个字节来表示一个汉字
ASCII	早期的编码格式，只支持英文和一些特殊字符，不支持中文

（二）编码与解码

在 Python 中，涉及到两个重要的操作：编码（encode）和解码（decode）。编码是将字符串转换为字节数据的过程，解码则是将字节数据转换为字符串的过程。如果编码和解码使用的格式不一致，就会导致乱码问题。

比如，我们有一个字符串 “你好”，使用 UTF-8 编码后会得到相应的字节数据；如果我们错误地使用 GBK 来解码这些字节数据，就无法正确得到 “你好” 这个字符串，从而出现乱码。

三、手把手教你处理中文编码问题

（一）了解 Python 的默认编码

在 Python 3 中，默认的编码是 UTF-8，但这并不意味着在所有情况下都能正确处理中文。我们可以通过一段简单的代码来查看当前 Python 环境的默认编码：

import sys
print(sys.getdefaultencoding())

运行这段代码，通常会输出 “utf-8”。但如果我们在一些特殊的环境中，比如在 Windows 系统的某些命令行工具中，默认编码可能不是 UTF-8，这就需要我们手动设置。

（二）文件操作中的中文编码处理

文件操作是中文编码问题的 “重灾区”。下面我们分步骤来解决文件读取和写入时的中文编码问题。

1. 读取中文文件

当我们读取中文文件时，需要指定正确的编码格式。以读取刚才小王的 “古诗.txt” 文件为例，正确的做法是在打开文件时指定编码为 “utf-8”（假设文件是以 UTF-8 格式保存的）：

with open('古诗.txt', 'r', encoding='utf-8') as f:
    content = f.read()
    print(content)

如果文件是以 GBK 格式保存的，那么就需要将编码指定为 “gbk”：

with open('古诗.txt', 'r', encoding='gbk') as f:
    content = f.read()
    print(content)

2. 写入中文文件

写入中文文件时，同样需要指定编码格式，以确保写入的内容能正确保存：

content = "床前明月光，疑是地上霜。"
with open('新古诗.txt', 'w', encoding='utf-8') as f:
    f.write(content)

（三）网络请求中的中文编码处理

在进行网络请求获取中文内容时，也需要注意编码问题。比如，使用 requests 库获取网页内容时，默认情况下可能无法正确解析中文：

import requests

response = requests.get('https://example.com/中文网页')
# 错误处理方式，可能会出现乱码
print(response.text)

# 正确处理方式，先获取内容的字节数据，再指定正确的编码进行解码
content = response.content.decode('utf-8')
print(content)

（四）字符串的编码与解码操作

在实际编程中，我们经常需要对字符串进行编码和解码操作。比如，当我们从网络获取到字节数据时，需要使用正确的编码将其解码为字符串；当我们需要将字符串传输给其他系统时，可能需要将其编码为指定的字节格式。

1. 编码操作

将字符串编码为字节数据：

string = "你好，世界！"
# 编码为UTF-8格式的字节数据
bytes_data = string.encode('utf-8')
print(bytes_data)  # 输出：b'\xe4\xbd\xa0\xe5\xa5\xbd\xef\xbc\x8c\xe4\xb8\x96\xe7\x95\x8c\xef\xbc\x81'

# 编码为GBK格式的字节数据
bytes_data = string.encode('gbk')
print(bytes_data)  # 输出：b'\xc4\xe3\xba\xc3\xa3\xac\xca\xc0\xbd\xe7\xa3\xac'

2. 解码操作

将字节数据解码为字符串：

bytes_data = b'\xe4\xbd\xa0\xe5\xa5\xbd\xef\xbc\x8c\xe4\xb8\x96\xe7\x95\x8c\xef\xbc\x81'
# 用UTF-8解码
string = bytes_data.decode('utf-8')
print(string)  # 输出：你好，世界！

bytes_data = b'\xc4\xe3\xba\xc3\xa3\xac\xca\xc0\xbd\xe7\xa3\xac'
# 用GBK解码
string = bytes_data.decode('gbk')
print(string)  # 输出：你好，世界！

四、解决中文编码问题的常见技巧

（一）遇到乱码先别急，一步步排查

当遇到中文乱码问题时，不要慌张，按照以下步骤进行排查：

确定出现乱码的位置，是在文件读取、网络请求还是其他操作中。

检查操作时是否指定了正确的编码格式。

确认文件的实际编码格式是否与指定的一致，可以通过一些文本编辑器（如 Notepad++）来查看文件的编码。

如果是网络请求，查看网页的 Content-Type 头信息，了解服务器返回的内容编码。

（二）设置全局编码（不推荐轻易使用）

在某些情况下，我们可以设置 Python 的全局编码，但这并不是一种推荐的做法，因为可能会带来一些潜在的问题。如果确实需要设置，可以使用以下方法：

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

需要注意的是，在 Python 3 中，reload(sys)这行代码可能会报错，因为 Python 3 对模块的重新加载方式有所改变。所以，除非万不得已，不建议使用这种方法。

（三）使用 codecs 模块

Python 的 codecs 模块提供了更强大的编码和解码功能，我们可以使用它来处理一些复杂的编码问题：

import codecs

# 读取文件
with codecs.open('古诗.txt', 'r', 'utf-8') as f:
    content = f.read()
    print(content)

# 写入文件
with codecs.open('新古诗.txt', 'w', 'utf-8') as f:
    f.write("白日依山尽，黄河入海流。")

以上就是关于 Python 中文编码问题处理的全部内容，希望这篇文章能帮助你在 Python 编程的道路上少走弯路，轻松应对中文编码问题。

蓝布编程网

分享编程技术文章，编程语言教程与实战经验

实测有效!Python 中文编码问题处理，乱码问题彻底消失