支付宝搜索“521047472”
领个红包吧!

以鸟哥笔记为例,没有分页号的动态加载列表页怎么采集?

最近在研究采集的过程中,发现了很多网站的列表页是动态加载的,自用的采集器完全无法获取要采集的文章链接,这就导致无法采集。

按我个人的理解,碰到动态加载的页面有两种方式解决:一是让网页在本地渲染完,直接对渲染完的页面获取采集文章的URL列表,鼓捣了半天,不行放弃了;第二是分析请求的地址看能不能找到规律。

首先在要采集的列表页打开开发者功能的面板,进到Network的Tab。

在列表页点击如第一张图所示的【加载更多】,在Network中立马就抓到了请求的地址。

双击打开后,进入了一个新的列表页,有20篇文章。

但是我发现,这个列表页不包含初始的文章,大概看了下整个链接的构造:

https://www.niaogebiji.com/pc/index/getMoreArticle/?catid=103&timepoint=1554966723&viewnum=3163&format=html

##有四个参数:catid、timepoint、viewnum、format。

其中?是查询符,告诉服务器要查询的catid是文章的分类,format是格式化成html,这两个参数非常重要保留,timepoint和viewnum貌似不重要,那么就构成了:https://www.niaogebiji.com/pc/index/getMoreArticle/?catid=103&format=html

打开新的链接,就是最新的20篇文章了,至于之后的文章怎么获取,应该是由viewnum来控制。我尝试获取了之后加载的viewnum的值分别是3163、4022、3477,并且尝试了其他的数值,但是没有发现什么规律,毕竟最新的20篇基本上可以满足需求,至此获取动态加载页面的链接OK了,采集成功。

赞(0) 打赏
支付宝搜索“521047472” 领个红包吧!:思想创意收集馆 » 以鸟哥笔记为例,没有分页号的动态加载列表页怎么采集?
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

zk的思想创意收集馆

市场入门运营入门

支付宝搜索“521047472” 领个红包吧!

支付宝扫一扫打赏

微信扫一扫打赏