-
Python使用 pytesseract 进行图片识别
在编写爬虫的时候,如果遇见参数图片化的情况的(例如登录验证码),就需要对图片验证码进行识别,我们就可以使用pytesseract。 pytesseract简介 pytesseract是一款用于光学字符识别(OCR)的python工具,即从图片中识别出和“读取”其中嵌入的文字。 底层使用的是Google的Tesseract-OCR 引擎(Tesseract是一个开源文本识别 (OCR) 引擎(注意:…...
塵風- 0
- 0
- 2.2k
-
python Queue(进程队列)
在Python中我知道队列模块有: from queue import Queue此模块适用于线程间通信,但不能用于进程间通信。from multiprocessing import Queue此模块用于对进程,但是不能用于进程池。 下面笔记记录的就是:from multiprocessing import Queue 用于进程间通信的队列。 部分内容来源以及相关资料: Python 队列(Que…...
塵風- 0
- 0
- 845
-
网站被黑,被搜索引擎收录垃圾信息删除处理教程
现在有非常多的站点被黑导致网站被搜索引擎收录了许多的色情、赌博信息,导致网站被降权,或者搜索品牌词的时候出现的站点信息变成了垃圾信息等情况,尽管有的企业不依赖SEO转化,但是品牌词有搜索量的公司遇见这种情况也是比较重要的问题。 注意:这篇文章是教你怎么处理/删除:被搜索引擎收录垃圾信息,而不是教你处理网站被黑(至于网站被黑这问题怎么处理,则太宽泛了,问题原因数不胜数,不是一篇文章说的清楚的)。 处…...
塵風- 0
- 0
- 1.2k
-
Python获取两个列表的交集
python获取两个列表的交集方法分享:记录了三个Python获取两个列表的交集的方法,它们分别使用:列表转集合、for循环、列表推导式配合lambda函数实现,具体的示例代码如下: 方法一 列表转集合 推荐 集合操作符& 将两个列表转换为set集合,然后使用集合操作符&求解两个set集合的交集 # -*- coding: utf-8 -*- list1 = ['…...
塵風- 0
- 0
- 821
-
Python for循环同时遍历两个列表
Python for循环同时遍历两个列表我们可以使用Python zip函数来实现, zip() 函数简介 zip() 函数是 Python 内置函数之一,zip() 函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成zip对象。 在Python2中,zip() 函数返回的是列表,在Python3中,则是返回上述所说的zip对象,这样可以减少内存。如果需要列…...
塵風- 0
- 0
- 357
-
在Python中打开文件使用utf-8-sig和utf-8的区别
今天在使用Python读取CSV文件的时候,出现了一个KeyError的错误的,这个错误提示很明显,就是没有对应的列名,但是经过检查我的CSV文件中是有对应的列名的呀,然后编码格式我也检查了,这个时候我就想先打印列名看下,打印后就看出问题了。 问题原因 假设通过Excel打开我的CSV文件,列名是:列名1、列名2... 但是打印出的结果是如下: ['\ufeff列名1', …...
塵風- 0
- 0
- 631
-
python os.path.dirname(__file__)
os.path.dirname() 是python os.path 模块的一种方法: 作用: 返回文件路径(只是路径 不包含文件名) os.path.dirname(path) # 返回路径path的目录名称 os.path.dirname(__file__) # 直接返回当前文件路径 os.path.dirname()注意点: os.path.dirname() 和os.path.basenam…...
塵風- 0
- 0
- 876
-
百度已收录404链接自动提取软件+使用教程-免费
软件介绍 现在有非常多的网站被黑然后搜索被搜索引擎收录了色情赌博一类的垃圾信息,我们站点被黑处理完成后把这些垃圾信息链接设置为404就需要对这些已经收录的链接进行提取,然后提交到百度资源平台删除,但是对于大部分没有技术基础的小伙伴来说,都只能一个个手动去复制,这样太过于麻烦了,所有开发了这个软件分享给大家。 关于处理流程的教程,我之前也分享了相关文章,如果你有需要,也可以查看: 网站被黑,被搜索引…...
塵風- 0
- 6
- 792
-
Pycharm项目目录文件夹图标小圆点代表什么意思
Pycharm项目目录文件夹图标小圆点代表什么意思:带小圆点的目录则代表这是一个Python的包,这个目录里面会有__init__.py文件。 如下图所示: 带点和不带点区别 带有小圆点的文件夹目录是packkage,即Python的包,里面会有__init__.py文件 没有点的是一个directory,即是普通的文件夹 在文件夹添加或者删除__init__.py文件,它就会变成包或者普通文件夹…...
塵風- 0
- 0
- 1k
-
使用Python检查提取网站死链
网站死链会影响我们的用户体验和搜索引擎对我们站点的评分(尤其是网站存在已经被做成赌博、色情网站的链接,影响很大),但是网站运营时长长了,就难免会有这样的问题,所以我们可以考虑定期的处理下,我之前分享过一些WordPress死链、外部链接处理的文章,如果你是使用WordPress,就可以直接参考下述的文章去解决: WordPress去除文章失效链接 WordPress文章外部链接清除 WordPre…...
塵風- 0
- 0
- 486
-
Python拼接URL:urllib.parse urljoin使用
Python拼接URL可以使用urllib.parse中的urljoin方法,urllib是Python中一个用于URL 处理的模块,urllib.parse 用于解析 URL,在之前分享的Python从路径|URL中获取文件名、文件后缀的方法中提到过使用其中的urlparse方法解析URL,感兴趣的可以去看看。 urllib.parse模块的的urlparse和urljoin刚好是两个相反的功能…...
塵風- 0
- 0
- 924
-
Windows下将Pycharm终端更改为PowerShell
Windows下将Pycharm终端更改为PowerShell:我们都知道power shell不管是从功能上还是性能上都要比CMD要强大得多,我们安装了power shell后,可以将pycharm编辑器中的默认终端切换为power shell,方便我们的使用。 更改流程 1:找到power shell路径 先搜索到我们的power shell,右键,然后选择打开文件位置 打开是几个快捷键:我们…...
塵風- 0
- 0
- 2k
-
Python3 sorted() 函数 – 对所有可迭代的对象进行排序操作
sorted() 函数描述 Python3 sorted() 函数是python 3 中的一个内置函数,sorted() 函数作用是可以对所有可迭代的对象进行排序操作。 PS:有时候我们需要对拿到的字典之类的数据进行排序,就可以直接使用这个函数,而不需要进行for循环这样的操作去处理啦,如果数据是列表的话,也可以使用sort()函数,具体可以看我之前的文章:python sort()函数详解。 s…...
塵風- 0
- 0
- 905
-
Python字典按照值(value)的大小进行排序方法
Python字典按照值(value)的大小进行排序可以使用collections的Counter()函数和sorted函数两种方式进行,关于Counter和sorted函数之前也记录过,关于这两个详细的就不说了,有需要可以自己看看: python Counter()函数介绍 - 统计值出现的次数 Python3 sorted() 函数 - 对所有可迭代的对象进行排序操作。 下面我们直接看使用它们对…...
塵風- 0
- 0
- 696
-
python chardet模块
chardet是什么 chardet是python的一个第三方编码检测模块,chardet 提供自动检测字符编码的功能,可以检测文件,XML等字符编码的类型。通过pip install chardet安装使用。 使用chardet检测编码非常容易,chardet支持检测中文、日文、韩文等多种语言。 chardet.detect() 函数接受一个参数,一个非unicode字符串, 它返回一个字典, …...
塵風- 0
- 0
- 2k
-
Pycharm安装教程(非常详细)
PyCharm简介 PyCharm是一款由JetBrains公司开发的集成开发环境(IDE),专门用于Python编程。PyCharm可以说是Python开发者首选的IDE之一,适用于从初学者到专业开发者的各种需求。 它提供了丰富的功能和工具,帮助开发者更高效地编写、调试和部署Python代码。PyCharm具有智能代码补全、代码导航、调试器、版本控制集成、内置终端等功能,使得开发过程更加流畅和便…...
塵風- 0
- 0
- 2.1k
-
Python enumerate() 函数,Python将列表转换为索引:元素的字典
Python将列表转换为索引:元素的字典可以使用Python enumerate() 函数,enumerate() 函数是Python中的一个内置函数。 enumerate() 函数 介绍 enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中。 Python 2.3. 以上版本可用,2.6 添加 sta…...
塵風- 0
- 0
- 715
-
Python for 循环列表每次取值指定个数元素
Python中的for循环是我们非常经常使用的语句,for 循环用于迭代序列(即列表,元组,字典,集合或字符串),会将序列里面的值依次取出,有些时候我们需要循序一次取值多个元素就不行了,所以这篇文章来分享下Python for 循环每次从列表中取指定个数元素方法:我们可以使用range() 函数获取列表长度然后指定步长配合列表索引取值的方式来实现,下面是示例代码: 示例代码 range() 函数简…...
塵風- 0
- 0
- 453
-
Python爬虫报错:(Caused by SSLError(SSLEOFError(8, ‘EOF occurred in violation of protocol (_ssl.c:1129)’)))解决
今天在写爬虫的时候遇到一个错误,即: requests.exceptions.SSLError: HTTPSConnectionPool(host='httpbin.org', port=443): Max retries exceeded with url: /get (Caused by SSLError(SSLEOFError(8, 'EOF occurred …...
塵風- 0
- 0
- 16.9k
-
power shell 激活python虚拟环境报错:无法加载文件 *.ps1,因为在此系统上禁止运行脚本。有关详细信息,请参阅 …
在使用python虚拟环境的时候,使用power shell 激活虚拟环境的过程中,出现报错: 报错信息 无法加载文件 *.ps1,因为在此系统上禁止运行脚本。有关详细信息,请参阅 https:/go.microsoft.com/fwlink/?LinkID=135170 中的 about_Execution_Policies。 解决方案 管理员打开PowerShell执行Set-Executio…...
塵風- 0
- 0
- 2k











