-
fake-useragent模块报错:rror occurred during loading data. Trying to use cache server解决方法
rror occurred during loading data. Trying to use cache server报错原因: fake-useragent模块需要在线下载包含useragent信息的json文件,但是由于国内网络的特殊原因,现在如果直接使用,会出现如下报错提示: rror occurred during loading data. Trying to use cache s…...
塵風- 0
- 0
- 757
-
Python使用 pytesseract 进行图片识别
在编写爬虫的时候,如果遇见参数图片化的情况的(例如登录验证码),就需要对图片验证码进行识别,我们就可以使用pytesseract。 pytesseract简介 pytesseract是一款用于光学字符识别(OCR)的python工具,即从图片中识别出和“读取”其中嵌入的文字。 底层使用的是Google的Tesseract-OCR 引擎(Tesseract是一个开源文本识别 (OCR) 引擎(注意:…...
塵風- 0
- 0
- 2.2k
-
python os.path.dirname(__file__)
os.path.dirname() 是python os.path 模块的一种方法: 作用: 返回文件路径(只是路径 不包含文件名) os.path.dirname(path) # 返回路径path的目录名称 os.path.dirname(__file__) # 直接返回当前文件路径 os.path.dirname()注意点: os.path.dirname() 和os.path.basenam…...
塵風- 0
- 0
- 858
-
Python爬虫:设置随机User-Agent模块fake-useragent
Python爬虫:设置随机User-Agent模块fake-useragent介绍和使用。 模块简介 GitHub地址 https://github.com/hellysmile/fake-useragent UA数据来源 目前1.5x的版本我看GitHub介绍数据是从 https://user-agents.net/ 下载的。下面的使用的部分示例是1.2或者1.3版本新增的功…...
塵風- 0
- 0
- 3.2k
-
Python3 sorted() 函数 – 对所有可迭代的对象进行排序操作
sorted() 函数描述 Python3 sorted() 函数是python 3 中的一个内置函数,sorted() 函数作用是可以对所有可迭代的对象进行排序操作。 PS:有时候我们需要对拿到的字典之类的数据进行排序,就可以直接使用这个函数,而不需要进行for循环这样的操作去处理啦,如果数据是列表的话,也可以使用sort()函数,具体可以看我之前的文章:python sort()函数详解。 s…...
塵風- 0
- 0
- 885
-
python requests请求之timeout参数
requests请求之timeout参数 1、python 的requests请求都可以使用timeout参数。2、timeout参数可以传入一个简单的浮点数,它将请求的连接部分和读取部分设为相同的超时时间。3、timeout参数也可以传入一个包含两个简单浮点数的元组,用来分别设置请求超时时间和读取超时时间。 举例说明: 1、传入简单浮点数: import requests # 设置超时时间为1秒…...
塵風- 0
- 0
- 1.1k
-
power shell 激活python虚拟环境报错:无法加载文件 *.ps1,因为在此系统上禁止运行脚本。有关详细信息,请参阅 …
在使用python虚拟环境的时候,使用power shell 激活虚拟环境的过程中,出现报错: 报错信息 无法加载文件 *.ps1,因为在此系统上禁止运行脚本。有关详细信息,请参阅 https:/go.microsoft.com/fwlink/?LinkID=135170 中的 about_Execution_Policies。 解决方案 管理员打开PowerShell执行Set-Executio…...
塵風- 0
- 0
- 2k
-
百度已收录404链接自动提取软件+使用教程-免费
软件介绍 现在有非常多的网站被黑然后搜索被搜索引擎收录了色情赌博一类的垃圾信息,我们站点被黑处理完成后把这些垃圾信息链接设置为404就需要对这些已经收录的链接进行提取,然后提交到百度资源平台删除,但是对于大部分没有技术基础的小伙伴来说,都只能一个个手动去复制,这样太过于麻烦了,所有开发了这个软件分享给大家。 关于处理流程的教程,我之前也分享了相关文章,如果你有需要,也可以查看: 网站被黑,被搜索引…...
塵風- 0
- 6
- 762
-
网站搜索页面出现大量垃圾网页被收录怎么处理
网站搜索页面出现大量垃圾网页被收录怎么处理?这个问题是前几天一个朋友问我的,问题示例如下: 问题展示 再说解决方法之前我们先聊聊这个问题出现的原因,原因很明显: 就是网站被模拟搜索了大量的垃圾信息关键词,然后出现了对应的页面让搜索引擎抓取了。 像这种也算是"黑帽SEO"推广了吧...不过我认为这个东西实现起来还是很简单的,技术含量很低,而且挺早之前就出现了。 我可不可以不处理?…...
塵風- 0
- 0
- 1k
-
网站被黑,被搜索引擎收录垃圾信息删除处理教程
现在有非常多的站点被黑导致网站被搜索引擎收录了许多的色情、赌博信息,导致网站被降权,或者搜索品牌词的时候出现的站点信息变成了垃圾信息等情况,尽管有的企业不依赖SEO转化,但是品牌词有搜索量的公司遇见这种情况也是比较重要的问题。 注意:这篇文章是教你怎么处理/删除:被搜索引擎收录垃圾信息,而不是教你处理网站被黑(至于网站被黑这问题怎么处理,则太宽泛了,问题原因数不胜数,不是一篇文章说的清楚的)。 处…...
塵風- 0
- 0
- 1.1k
-
Python 列表中获取最后一个元素的方法
Python 列表中获取最后一个元素的方法:在 Python 中,有多种方法可以获取列表的最后一个元素。我这里分享介绍通过列表索引、pop() 函数这两种方法,使用索引可以直接通过list[-1]获取,pop() 函数的话会删除并返回指定索引位置的元素,可以自己根据实际情况选择对应的方法。以下是每种方法的详细说明和示例代码。 使用索引 Python 的列表支持负索引,这非常方便。负索引从列表的末尾…...
塵風- 0
- 0
- 332
-
Python Excel常用操作库+使用笔记分享
Python操作Excel表格的库有不少,我接触到的比较多的主要要“三个”,这篇文章主要是对它们几个之间的区别介绍和基础使用笔记,它们分别是:xlrd+xlwt,openpyxl库,csv库。并整理了对应的官方文档地址, 方便进行使用学习, 干货文章快快收藏吧. 介绍和区别 xlrd+xlwt xlrd+xlwt是两个库:xlrd用于读取,xlwt用于写入编辑,xlrd和xlwt可以读取格式为.x…...
塵風- 0
- 0
- 558
-
Pycharm项目目录文件夹图标小圆点代表什么意思
Pycharm项目目录文件夹图标小圆点代表什么意思:带小圆点的目录则代表这是一个Python的包,这个目录里面会有__init__.py文件。 如下图所示: 带点和不带点区别 带有小圆点的文件夹目录是packkage,即Python的包,里面会有__init__.py文件 没有点的是一个directory,即是普通的文件夹 在文件夹添加或者删除__init__.py文件,它就会变成包或者普通文件夹…...
塵風- 0
- 0
- 982
-
Python从列表中随机获取元素方法
Python从列表中随机获取元素方法:可以使用python中random模块的sample, choice, choices,randint方法来进行。下面我们一起来看下四种从列表中随机获取元素方法: sample random.sample(sequence, k) sample的作用是从指定序列中随机获取指定长度的片断并随机排列,结果以列表的形式返回。 注意:sample函数不会修改原有序列(…...
塵風- 0
- 0
- 5.5k
-
Python glob模块和主要方法
概述 glob是python自己带的一个文件操作相关模块,查找文件目录和文件,类似于Windows下的文件搜索。 glob模块会将查找到的文件目录或文件的搜索结果返回到一个列表中。 支持的通配符: 支持:*,?,[],这三个通配符 *代表匹配0个或多个字符?代表匹配任意一个字符[]匹配指定范围内的字符如:[0-9]匹配所有数字[a-z]匹配所有字母[1,2,3]仅匹配1,2,3三个数字[!1,2,…...
塵風- 0
- 0
- 1.7k
-
HTTP请求头字段Sec-Fetch-Dest介绍
Sec-Fetch-Dest是一个用于HTTP请求头的字段 (全名应该是"Security Fetch Destination",意思是安全获取目标) ,用于指示浏览器请求的目标资源类型以及请求的目的和处理方式。该字段通常由浏览器自动生成,并在发送请求时包含在HTTP请求中。它有助于服务器和浏览器之间更好地理解请求的目的和处理方式。 Sec-Fetch-Dest字段值 Sec-…...
塵風- 0
- 0
- 1.8k
-
Pycharm函数注释(参数和返回值)无法自动生成问题解决
正常使用Pycharm,对定义的函数书写注释(三个引号),Pycharm是会自动生成函数参数和返回值的注释格式,如下: 问题展示 # 定义一个函数 def test(a, b): """ # 再输入三个引号(单引号和双引号均可)后回车,会自动生成函数参数和返回值的注释 pass 正常情况: 输出结果为 def test(a, b): '''…...
塵風- 0
- 0
- 1.8k
-
Pycharm批量添加引号
Pycharm批量添加引号和选中多行进行编辑技巧记录分享: Pycharm中批量添加单引号或者是双引号我们可以通过pycharm中的搜索替换中正则表达式功能或者是批量选择多行的方式进行添加,非常简单和高效,在我们写代码的时候可以很好的帮助我们提高效率,不用一个个去点击添加,就比如我们复制浏览器header要做个dict的时候。 PS:网上说Pycharm中有自带的快捷键,我找了下并没有找到,也就没…...
塵風- 0
- 0
- 2k
-
python Queue(进程队列)
在Python中我知道队列模块有: from queue import Queue此模块适用于线程间通信,但不能用于进程间通信。from multiprocessing import Queue此模块用于对进程,但是不能用于进程池。 下面笔记记录的就是:from multiprocessing import Queue 用于进程间通信的队列。 部分内容来源以及相关资料: Python 队列(Que…...
塵風- 0
- 0
- 834
-
使用Python检查提取网站死链
网站死链会影响我们的用户体验和搜索引擎对我们站点的评分(尤其是网站存在已经被做成赌博、色情网站的链接,影响很大),但是网站运营时长长了,就难免会有这样的问题,所以我们可以考虑定期的处理下,我之前分享过一些WordPress死链、外部链接处理的文章,如果你是使用WordPress,就可以直接参考下述的文章去解决: WordPress去除文章失效链接 WordPress文章外部链接清除 WordPre…...
塵風- 0
- 0
- 463












