以鸟哥笔记为例,没有分页号的动态加载列表页怎么采集?

最近在研究采集的过程中,发现了很多网站的列表页是动态加载的,自用的采集器完全无法获取要采集的文章链接,这就导致无法采集。

以鸟哥笔记为例,没有分页号的动态加载列表页怎么采集?

按我个人的理解,碰到动态加载的页面有两种方式解决:一是让网页在本地渲染完,直接对渲染完的页面获取采集文章的URL列表,鼓捣了半天,不行放弃了;第二是分析请求的地址看能不能找到规律。

首先在要采集的列表页打开开发者功能的面板,进到Network的Tab。

在列表页点击如第一张图所示的【加载更多】,在Network中立马就抓到了请求的地址。

双击打开后,进入了一个新的列表页,有20篇文章。

但是我发现,这个列表页不包含初始的文章,大概看了下整个链接的构造:

https://www.niaogebiji.com/pc/index/getMoreArticle/?catid=103&timepoint=1554966723&viewnum=3163&format=html

##有四个参数:catid、timepoint、viewnum、format。

其中?是查询符,告诉服务器要查询的catid是文章的分类,format是格式化成html,这两个参数非常重要保留,timepoint和viewnum貌似不重要,那么就构成了:https://www.niaogebiji.com/pc/index/getMoreArticle/?catid=103&format=html

打开新的链接,就是最新的20篇文章了,至于之后的文章怎么获取,应该是由viewnum来控制。我尝试获取了之后加载的viewnum的值分别是3163、4022、3477,并且尝试了其他的数值,但是没有发现什么规律,毕竟最新的20篇基本上可以满足需求,至此获取动态加载页面的链接OK了,采集成功。

本文作者:𝙕𝙆𝘾𝙊𝙄

文章名称:以鸟哥笔记为例,没有分页号的动态加载列表页怎么采集?

文章链接:https://www.zkcoi.com/365up/program/236.html

本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
𝙕𝙆𝘾𝙊𝙄𝙕𝙆𝘾𝙊𝙄
上一篇 2019年4月18日 下午5:00
下一篇 2019年4月26日 下午2:38

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

私聊博主

立即联系
一般有空就回复

qrcode_web

微信扫码联系我

分享本页
返回顶部