python做简单爬虫的一些常用组件

23 阅读 0 评论 0 点赞

文章目录

前言
request
json
bs4

前言

最近一直在做零散的一次性的爬虫工作，基本都是用python开发的，整理一下python做小规模爬虫开发常用的一些工具类

request

python最简单的发http请求的包，request.get和request.post就可以搞定绝大部分的抓取需求了，postman也提供直接把请求转成request代码的功能
在这里插入图片描述

import requests

url = "https://www.who.int/publications/i/item/9789240087002"

payload = {}
headers = {
  'Cookie': '_cfuvid=ckXDZTR8JfnelALNiB3ROmqSzyj13jtX.4WlS8zKHSw-1722239912266-0.0.1.1-604800000'
}

response = requests.request("GET", url, headers=headers, data=payload)

print(response.text)

json

类似java里的fastjson包，可以把map对象和json字符串相互转换，转换方法为json.loads(把json字符串转成map对象)和json.dumps(把map对象转成json字符串)

import json
dict_test={"key":"这是一个测试map"}
text_test=json.dumps(dict_test,ensure_ascii=False)
print(text_test)
dict_test2=json.loads(text_test)
print(dict_test2)

在这里插入图片描述
注意json.dumps如果要转换中文的话加一个ensure_ascii=False，要不然结果就会是这样

bs4

bs4是一个做html和xml树解析的包，使用如下

from bs4 import BeautifulSoup
html=BeautifulSoup(response.text)
html.find_all("div",class_="")

直接构建一个BeatifulSoup对象之后用find函数就可以定位到对应元素（组）

本站资源均来自互联网，仅供研究学习，禁止违法使用和商用，产生法律纠纷本站概不负责！如果侵犯了您的权益请与我们联系！

转载请注明出处：免费源码网-免费的源码资源网站 » python做简单爬虫的一些常用组件

点赞(0) 打赏

本文分类：文章资讯
本文标签：python做简单爬虫的一些常用组件
浏览次数：23 次浏览
本文链接：https://freeymw.com/article/20137.html

上一篇 > 用60行python代码制作一个扫雷
下一篇 > 常见的指令

评论列表共有 0 条评论

暂无评论

python做简单爬虫的一些常用组件

文章目录

前言

request

json

bs4

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复