Lwgzc手游网 / 好玩就多玩会！

最新更新|软件分类|软件专题|软件标签|软件发布

资讯
频道

您的位置：首页 > 资讯中心 > 手机教程 > 安卓教程 > 使用Python和Selenium采集动态网页信息的方法

使用Python和Selenium采集动态网页信息的方法

时间：2024-11-01 09:48:02来源：Lwgzc手游网作者：佚名我要评论用手机看

扫描二维码随身看资讯

使用手机二维码应用扫描右侧二维码，您可以
1. 在手机上细细品读~
2. 分享给您的微信好友或朋友圈~

--- 好的方法很多，我们先掌握一种 ---

【背景】

对于网页信息的采集，静态页面我们通常都可以通过Python的request.get()库就能获取到整个页面的信息。

但是对于动态生成的网页信息来说，我们通过request.get()是获取不到。

【方法】

可以通过Python第三方库Selenium来配合实现信息获取，采取方案：Python + request + Selenium + BeautifulSoup

我们拿纵横中文网的小说采集举例（注意：请查看网站的robots协议找到可以爬取的内容，所谓盗亦有道）：

思路整理：

1. 通过Selenium 定位元素的方式找到小说章节信息

2. 通过BeautifulSoup加工后提取章节标题和对应的各章节的链接信息

3. 通过request + BeautifulSoup 按章节链接提取小说内容，并将内容存储下来

【上代码】

1. 先在开发者工具中，调试定位所需元素对应的xpath命令编写方式

2. 通过Selenium 中find_elements()定位元素的方式找到所有小说章节，我们这里定义一个方法接受参数来使用

3. 把采集到的信息通过BeautifulSoup加工后，提取章节标题和链接内容

4. 通过request + BeautifulSoup 按章节链接提取小说内容，并保存到一个文件中

热门手游下载

相关文章

热门文章

推荐专题

电脑游戏盒子

爱奇艺VIP会员账号获取器

热门手游推荐 换一批

下载排行榜

关于本站|下载帮助|下载声明|软件发布|联系我们|友情链接

Copyright © 2023 www.lwgzc.com.All rights reserved.

粤ICP备2020129034号