豆瓣电影信息爬虫实战-2024年6月

53 阅读 0 评论 0 点赞

豆瓣电影信息爬虫教程

摘要

本文将详细介绍如何使用Python编写一个爬虫程序，用于抓取豆瓣电影列表页面上的电影详细信息。通过本教程，你将学习到如何使用requests和PyQuery库来发送HTTP请求、解析HTML内容，并提取所需的数据。

环境搭建

在开始之前，请确保你的Python环境已经安装了以下库：

pip install requests pyquery

技术栈介绍

Python: 一种易于学习且功能强大的编程语言。
Requests: 用于发送HTTP请求的库。
PyQuery: 类似于jQuery的库，用于解析HTML文档。
re (正则表达式): 用于字符串搜索和匹配。

爬虫逻辑概述

本爬虫的主要任务是从一个给定的豆瓣电影列表页面URL中提取电影的详细信息，包括：

电影标题
导演
主演
类型
制作地区
发行年份
评分数量
每部电影的详细URL

详细代码解析

import requests
from pyquery import PyQuery as pq
import re

def doulist_crawler(url):
    '''
    联系方式：
    wx: Wusp1994
    企鹅号: 812190146
    此函数爬取豆瓣电影列表页面，并提取列出的电影的详细信息。
    该函数向指定的豆瓣电影列表URL发送GET请求，并使用预定义的头部信息来模拟浏览器请求。如果请求成功，它将使用PyQuery解析HTML内容，并提取电影的详细信息，如标题、导演、主演、类型、地区、年份、评分和评分数量。每部电影的信息存储在一个字典中，并添加到名为'doulist'的列表中。然后打印出详细信息。
    提取的数据包括：
    - 电影标题
    - 导演
    - 主演
    - 类型
    - 制作地区
    - 发行年份
    - 评分数量
    - 每部电影的详细URL
    参数:
        url (str): 要爬取的豆瓣-豆列的电影列表页面的URL。
        https://www.douban.com/doulist/240962/
    返回:
        list: 包含每部电影详细信息的字典组成的列表。
    :return:
    '''
    # 定义请求头
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
        # 其他需要的请求头...
    }
    # 发送 GET 请求并获取响应内容
    response = requests.get(url, headers=headers)

    # 确保请求成功
    if response.status_code == 200:
        # 使用 PyQuery 解析网页内容
        doc = pq(response.text)
        doulist_item_doc = doc(".doulist-item")
        doulist = []
        for item in doulist_item_doc.items():
            item_dict = {}
            # 初始化变量
            director = None
            starring = None
            genre = None
            region = None
            year = None
            detail_url = item(".title a").attr("href")
            title = item(".title a").text()
            rating_nums = item(".rating_nums").text()
            rating_count_text = item('.rating span:contains("人评价")').text()
            rating_count = int(re.search(r'\d+', rating_count_text).group(0))
            lines = item('div.abstract').text().split('\n')
            for line in lines:
                if '导演' in line:
                    director = line.split('导演:')[-1].strip()
                elif '主演' in line:
                    starring = line.split('主演:')[-1].strip()
                elif '类型' in line:
                    genre = line.split('类型:')[-1].strip()
                elif '制片国家/地区' in line:
                    region = line.split('制片国家/地区:')[-1].strip()
                elif '年份' in line:
                    year = line.split('年份:')[-1].strip()

            item_dict['director'] = director
            item_dict['starring'] = starring
            item_dict['genre'] = genre
            item_dict['region'] = region
            item_dict['year'] = year
            item_dict['detail_url'] = detail_url
            item_dict['title'] = title
            item_dict['rating_count'] = rating_count
            doulist.append(item_dict)

        return doulist  # 返回电影列表
    else:
        # 联系方式：
        # wx: Wusp1994
        # 企鹅号: 812190146
        print(f"请求失败，状态码：{response.status_code}")
        return []  # 如果请求失败，返回空列表

if __name__ == "__main__":
    # 联系方式：
    # wx: Wusp1994
    # 企鹅号: 812190146
    move_list = doulist_crawler('https://www.douban.com/doulist/240962/')
    print(move_list)

导入库

import requests
from pyquery import PyQuery as pq
import re

定义爬虫函数

def doulist_crawler(url):
    # 函数定义，接受一个豆瓣电影列表页面的URL

设置请求头

headers = {
    'User-Agent': '...',
    'Accept': '...'
}

发送GET请求

response = requests.get(url, headers=headers)

检查响应状态

if response.status_code == 200:
    # 请求成功，继续处理

解析HTML内容

doc = pq(response.text)

提取电影信息

遍历电影列表项，提取每部电影的相关信息：

for item in doulist_item_doc.items():
    # 提取信息并存储到字典

存储与返回电影信息

doulist.append(item_dict)
return doulist

运行爬虫

要运行爬虫，只需调用doulist_crawler函数，并传入豆瓣电影列表页面的URL：

movies = doulist_crawler('https://www.douban.com/doulist/240962/')
print(movies)

注意事项

遵守豆瓣的使用条款，避免频繁请求。
考虑网站的反爬虫机制，可能需要使用代理或更新请求头。
爬取的数据仅用于个人学习和研究，不得用于商业用途。

结论

通过本文，你已经学习了如何使用Python编写一个简单的爬虫来抓取豆瓣电影信息。这是一个实践网络请求和HTML解析的好机会。希望本文对你有所帮助，祝你编程愉快。

本站资源均来自互联网，仅供研究学习，禁止违法使用和商用，产生法律纠纷本站概不负责！如果侵犯了您的权益请与我们联系！

转载请注明出处：免费源码网-免费的源码资源网站 » 豆瓣电影信息爬虫实战-2024年6月

点赞(0) 打赏

本文分类：文章资讯
本文标签：豆瓣电影信息爬虫实战-2024年6月
浏览次数：53 次浏览
本文链接：https://freeymw.com/article/11753.html

上一篇 > 《银行存量客户运营》导读
下一篇 > vue3 + vite 中使用 svg-icon 的图标

评论列表共有 0 条评论

暂无评论

豆瓣电影信息爬虫实战-2024年6月

豆瓣电影信息爬虫教程

摘要

目录

环境搭建

技术栈介绍

爬虫逻辑概述

详细代码解析

导入库

定义爬虫函数

设置请求头

发送GET请求

检查响应状态

解析HTML内容

提取电影信息

存储与返回电影信息

运行爬虫

注意事项

结论

评论列表共有 0 条评论

发表评论取消回复

豆瓣电影信息爬虫实战-2024年6月

豆瓣电影信息爬虫教程

摘要

目录

环境搭建

技术栈介绍

爬虫逻辑概述

详细代码解析

导入库

定义爬虫函数

设置请求头

发送GET请求

检查响应状态

解析HTML内容

提取电影信息

存储与返回电影信息

运行爬虫

注意事项

结论

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复