欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程资源 > 编程问答 >内容正文

编程问答

关于火车采集js调用文章资讯的方法 淘宝采集 相关

发布时间:2023/12/20 编程问答 27 豆豆
生活随笔 收集整理的这篇文章主要介绍了 关于火车采集js调用文章资讯的方法 淘宝采集 相关 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

关于火车采集js调用文章资讯的方法

心岛发布于2014年12月16日  分类: 数据采集  浏览:761 人次  评论:0 

一、需要准备的工具软件:

火车头采集

抓包软件(我使用的是fiddler)


二、首先以淘宝密儿为例说明如何对js调用的网页进行抓包

整体思路:利用网页cookie进行数据抓包处理。

1、安装运行抓包软件:

2、打开淘宝密儿网页并将网页滚动至网页底部,滚动过程中,你会发现大约一张页面会有5次js加载,然后点击状态栏的抓包软件,所有的抓包数据一目了然:


三、根据抓包数据设置采集规则

1、打开火车采集软件,新建一采集任务,然后点击采集网址选项卡的添加按钮,添加采集网址:

2、提取js页面的下层页面网址和该栏目的文章总数:

关于找网址的方法如下图所示:

利用文本工具打开代码后的对应关系如下(注意:复制的是项目的值,不要连标题都复制过去):

这样完成后会采集到列表页面网址,但是我们还需要通过代码分析的方法将下层的网址也要提取出来:


注意:上图中需要将cookie复制到上图中的对应位置,然后开始查看:

如上图所示,这样就是已经成功执行了,注意红框中的总页数,如果大家最后采集到的页面总数可以和此处对比!

3、提取内容页的脚本规则:

利用上一步中我们查看到的代码来分析

至此,通过抓包软件获取js页面文章地址的方法就讲述完毕了,如果大家有任何问题,请在心岛博客中留言,我讲尽快协助解决问题!

总结

以上是生活随笔为你收集整理的关于火车采集js调用文章资讯的方法 淘宝采集 相关的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。