全部标签

Python爬虫

最新随机最多浏览最多喜欢最多评论

分类：
Python笔记 Pycharm Python爬虫 Python与SEO Python Requests Python内置函数 Python内置模块 Python列表 Python字典 Python异常处理

下载1个资源

下载1个资源
精品资源 Python Requests Python与SEO Python爬虫 SEO技巧

百度已收录404链接自动提取软件+使用教程-免费

软件介绍现在有非常多的网站被黑然后搜索被搜索引擎收录了色情赌博一类的垃圾信息，我们站点被黑处理完成后把这些垃圾信息链接设置为404就需要对这些已经收录的链接进行提取，然后提交到百度资源平台删除，但是对于大部分没有技术基础的小伙伴来说，都只能一个个手动去复制，这样太过于麻烦了，所有开发了这个软件分享给大家。关于处理流程的教程，我之前也分享了相关文章，如果你有需要，也可以查看：网站被黑，被搜索引…...
- 塵風
- 23年12月6日
- 0
- 2
- 420
Python Requests Python爬虫 Python笔记

python模块requests参数stream

使用python requests模块下载大文件时，建议使用strea模式．默认情况下是false，他会立即开始下载文件并存放到内存当中，倘若文件过大就会导致内存不足的情况．当把get函数的stream参数设置成True时，它不会立即开始下载，当你使用iter_content或iter_lines遍历内容或访问内容属性时才开始下载。需要注意一点：文件没有下载之前，它也需要保持连接。 iter_…...
- 塵風
- 21年10月29日
- 0
- 0
- 618
Python笔记 Python Requests Python异常处理 Python爬虫

Python requests 异常InsecureRequestWarning: Unverified HTTPS request is being made to host ‘***domain’. Adding certificate verification is strongly advised. See…解决

Python在使用requests模块的时候出现如下异常信息: C:\Python\Python39\lib\site-packages\urllib3\connectionpool.py:1043: InsecureRequestWarning: Unverified HTTPS request is being made to host 'you request domain…...
- 塵風
- 23年12月7日
- 0
- 0
- 433
Python异常处理 Python爬虫 Python笔记

解决python：AttributeError: ‘set’ object has no attribute ‘items’错误记录

在之前写爬虫代码的时候，我自以为认代码各方面的都没问题了，但是出现了这样一个错误： AttributeError: 'set' object has no attribute 'items' 手动苦笑不得，检查了一遍代码发现都没问题，但是运行还是出现这个错误，于是我就果断百度了下，出现这个错误可能是我们把一组dict，用逗号相隔了例如{“id”,id}应…...
- 塵風
- 21年11月1日
- 0
- 0
- 1.6k
Python笔记 Python Requests Python爬虫

Python模块requests参数verify – SSL证书认证

Python模块requests参数verify - SSL证书认证 requests模块中verify关键词参数用于控制是否开启SSL证书认证，requests在请求HTTPS链接时，默认是开启SSL证书认证的，即请求中verify参数默认为True(verify=True)。关闭SSL证书认证如果要关闭SSL证书认证，我们可以把verify参数设置False即可，例如： # -*- cod…...
- 塵風
- 23年12月16日
- 0
- 0
- 486
Python笔记 Python爬虫

Python爬虫：设置随机User-Agent模块fake-useragent

Python爬虫：设置随机User-Agent模块fake-useragent介绍和使用。模块简介 GitHub地址 https://github.com/hellysmile/fake-useragent UA数据来源目前1.5x的版本我看GitHub介绍数据是从 https://user-agents.net/ 下载的。下面的使用的部分示例是1.2或者1.3版本新增的功…...
- 塵風
- 22年4月9日
- 0
- 0
- 2.5k
网络基础 Python爬虫

HTTP请求头字段Sec-Fetch-Dest介绍

Sec-Fetch-Dest是一个用于HTTP请求头的字段 (全名应该是"Security Fetch Destination"，意思是安全获取目标) ，用于指示浏览器请求的目标资源类型以及请求的目的和处理方式。该字段通常由浏览器自动生成，并在发送请求时包含在HTTP请求中。它有助于服务器和浏览器之间更好地理解请求的目的和处理方式。 Sec-Fetch-Dest字段值 Sec-…...
- 塵風
- 23年12月18日
- 0
- 0
- 1.3k
Python笔记 Python异常处理 Python爬虫

Python爬虫报错：(Caused by SSLError(SSLEOFError(8, ‘EOF occurred in violation of protocol (_ssl.c:1129)’)))解决

今天在写爬虫的时候遇到一个错误，即： requests.exceptions.SSLError: HTTPSConnectionPool(host='httpbin.org', port=443): Max retries exceeded with url: /get (Caused by SSLError(SSLEOFError(8, 'EOF occurred …...
- 塵風
- 22年6月26日
- 0
- 0
- 15.9k
WordPress技巧 Python爬虫 SEO基础 WordPress与SEO

网站搜索页面出现大量垃圾网页被收录怎么处理

网站搜索页面出现大量垃圾网页被收录怎么处理？这个问题是前几天一个朋友问我的，问题示例如下：问题展示再说解决方法之前我们先聊聊这个问题出现的原因，原因很明显：就是网站被模拟搜索了大量的垃圾信息关键词，然后出现了对应的页面让搜索引擎抓取了。像这种也算是"黑帽SEO"推广了吧...不过我认为这个东西实现起来还是很简单的，技术含量很低，而且挺早之前就出现了。我可不可以不处理？…...
- 塵風
- 23年12月23日
- 0
- 0
- 631
Python爬虫 Python笔记

Python使用 pytesseract 进行图片识别

在编写爬虫的时候，如果遇见参数图片化的情况的(例如登录验证码)，就需要对图片验证码进行识别，我们就可以使用pytesseract。 pytesseract简介 pytesseract是一款用于光学字符识别（OCR）的python工具，即从图片中识别出和“读取”其中嵌入的文字。底层使用的是Google的Tesseract-OCR 引擎（Tesseract是一个开源文本识别 (OCR) 引擎（注意：…...
- 塵風
- 22年10月11日
- 0
- 0
- 2k
SEO技巧 Python爬虫 SEO基础

网站被黑，被搜索引擎收录垃圾信息删除处理教程

现在有非常多的站点被黑导致网站被搜索引擎收录了许多的色情、赌博信息，导致网站被降权，或者搜索品牌词的时候出现的站点信息变成了垃圾信息等情况，尽管有的企业不依赖SEO转化，但是品牌词有搜索量的公司遇见这种情况也是比较重要的问题。注意：这篇文章是教你怎么处理/删除：被搜索引擎收录垃圾信息，而不是教你处理网站被黑（至于网站被黑这问题怎么处理，则太宽泛了，问题原因数不胜数，不是一篇文章说的清楚的）。处…...
- 塵風
- 23年12月28日
- 0
- 0
- 744
Python异常处理 Python爬虫 Python笔记

fake-useragent模块报错：rror occurred during loading data. Trying to use cache server解决方法

rror occurred during loading data. Trying to use cache server报错原因： fake-useragent模块需要在线下载包含useragent信息的json文件，但是由于国内网络的特殊原因，现在如果直接使用，会出现如下报错提示： rror occurred during loading data. Trying to use cache s…...
- 塵風
- 23年3月19日
- 0
- 0
- 637
Python笔记 Python Requests Python异常处理 Python爬虫

Python requests 异常Max retries exceeded with url: 请求地址… (Caused by SSLError(SSLCertVerificationError(1, ‘[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1129)’)))”))}解决

今天在写爬虫的时候遇见了如下错误： Max retries exceeded with url: https://******... (Caused by SSLError(SSLCertVerificationError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get …...
- 塵風
- 24年1月6日
- 0
- 0
- 358
Python异常处理 Python爬虫 Python笔记

python错误: Object of type * is not JSON serializable解决

Object of type * is not JSON serializable错误是我在写爬虫的时候遇到的一个问题引起函数 json.dumps()函数引起的在处理数据的时候使用json.dumps()函数将dict（字典）数据类型转化为json数据的时候，促发了这个错误。原因：原因是转化的dict(字典)数据中有value数据没处理好，字典的值中包含了generator、byte（字…...
- 塵風
- 22年12月10日
- 0
- 0
- 5.5k
Python与SEO Python Requests Python爬虫 Python笔记

使用Python检查提取网站死链

网站死链会影响我们的用户体验和搜索引擎对我们站点的评分(尤其是网站存在已经被做成赌博、色情网站的链接，影响很大)，但是网站运营时长长了，就难免会有这样的问题，所以我们可以考虑定期的处理下，我之前分享过一些WordPress死链、外部链接处理的文章，如果你是使用WordPress，就可以直接参考下述的文章去解决： WordPress去除文章失效链接 WordPress文章外部链接清除 WordPre…...
- 塵風
- 24年4月1日
- 0
- 0
- 241
Python笔记 Python Requests Python爬虫

Python requests获取状态码

Python requests获取状态码可以通过status_code获取，例如： r = requests.get('https://httpbin.org/get') print(r.status_code) # 打印状态码但是：requests默认不会获取301/302状态码。使用上述代码如果请求了一个被301/302跳转的URL，也会返回跳转后的状态码，如果是正常请求…...
- 塵風
- 23年4月22日
- 0
- 0
- 1.1k
Python Requests Python异常处理 Python爬虫 Python笔记

Python requests 异常Proxy URL had no scheme, should start with http:// or https://解决

异常原因 Python requests 异常Proxy URL had no scheme, should start with http:// or https://解决，在使用Python requests的proxy代理功能的时候出现了这个错误，意思是我们使用的代理方案应该以http:// or https://开头。在网上看到的原因是说在Python3.7及以上版本中使用request…...
- 塵風
- 24年7月9日
- 0
- 0
- 353
Python笔记 Python内置模块 Python爬虫

Python拼接URL：urllib.parse urljoin使用

Python拼接URL可以使用urllib.parse中的urljoin方法，urllib是Python中一个用于URL 处理的模块，urllib.parse 用于解析 URL，在之前分享的Python从路径|URL中获取文件名、文件后缀的方法中提到过使用其中的urlparse方法解析URL，感兴趣的可以去看看。 urllib.parse模块的的urlparse和urljoin刚好是两个相反的功能…...
- 塵風
- 23年9月15日
- 0
- 0
- 570
Python笔记 Python Requests Python爬虫

Python爬虫requests参数timeout以及retrying的使用

timeout参数的使用在某些网络情况不好或者服务器端异常的情况会出现请求慢或者请求异常的情况，这个时候我们需要给请求设置一个超时时间，而不是让程序一直在等待结果。写一个简单的例子： import .requests response = requests.get('https://www.linfengnet.com/', timeout=3) print(response…...
- 塵風
- 21年10月5日
- 0
- 0
- 858
Python与SEO Python Requests Python爬虫 Python笔记 SEO技巧

如何查询百度搜索资源平台API推送配额

查询百度搜索资源平台API推送配额可以直接推送然后获取返回的结果得到的我们的百度搜索资源平台API推送配额。如果不想暂用托送额度查询的话，可以直接把推送一个星号*作为URL推送，那么会返回推送的结果，可以看到推送额度，这个*号会被当做不合规的URL，不会暂用我们的推送额度。百度推送API结果说明通过API地址推送后会返回json格式的数据，其中remain字段的值是当前剩余推送额度，详细解析…...
- 塵風
- 24年1月12日
- 0
- 0
- 331