chardet是什么
chardet是python的一个第三方编码检测模块,chardet 提供自动检测字符编码的功能,可以检测文件,XML等字符编码的类型。通过pip install chardet安装使用。
使用chardet检测编码非常容易,chardet支持检测中文、日文、韩文等多种语言。
chardet.detect() 函数接受一个参数,一个非unicode字符串, 它返回一个字典, 其中包含自动检测到的字符编码和从0到1的可信度级别。
chardet安装
模块官网下载地址:https://pypi.org/project/chardet/
直接下载:chardet-4.0.0.tar.gz (1.9 MB)
本地(本站)下载: chardet-4.0.0.tar.gz
方式一 源码安装:
第一步:下载好模块压缩文件;
第二步:解压文件到python安装位置下的‘Lib\site-packages’目录下,例如:‘C:\python3.9\Lib\site-packages’;
第三步:打开终端命令窗口,进入解压的‘chardet’目录下,执行命令:python setup.py install
方式二 PIP:
前提:已安装过‘pip’;
第一步:终端命令窗口;
第二步:输入:pip install chardet
chardet实例
import chardet
import requests
# 网页编码
url = 'https://www.baidu.com'
r = requests.get(url)
e = chardet.detect(r.content)
# 单独提取出编码
encoding = e.get('encoding')
# 文件编码判断
f = open('test.txt', 'rb') # 需要文件已存在
ff = f.read()
en = chardet.detect(ff)
print(en['encoding'])
f.close()