当前位置：首页 > 编程资源 > 编程问答 >内容正文

编程问答

关于火车采集js调用文章资讯的方法淘宝采集相关

发布时间：2023/12/20 编程问答 27 豆豆

生活随笔收集整理的这篇文章主要介绍了关于火车采集js调用文章资讯的方法淘宝采集相关小编觉得挺不错的,现在分享给大家,帮大家做个参考.

心岛发布于2014年12月16日　分类： 数据采集 　浏览：761 人次　评论：0　

一、需要准备的工具软件：

火车头采集器

抓包软件（我使用的是fiddler）

二、首先以淘宝密儿为例说明如何对js调用的网页进行抓包

整体思路：利用网页cookie进行数据抓包处理。

1、安装运行抓包软件：

2、打开淘宝密儿网页并将网页滚动至网页底部，滚动过程中，你会发现大约一张页面会有5次js加载,然后点击状态栏的抓包软件，所有的抓包数据一目了然：

三、根据抓包数据设置采集规则

1、打开火车采集软件，新建一采集任务，然后点击采集网址选项卡的添加按钮，添加采集网址：

2、提取js页面的下层页面网址和该栏目的文章总数：

关于找网址的方法如下图所示：

利用文本工具打开代码后的对应关系如下（注意：复制的是项目的值，不要连标题都复制过去）：

这样完成后会采集到列表页面网址，但是我们还需要通过代码分析的方法将下层的网址也要提取出来：

注意：上图中需要将cookie复制到上图中的对应位置，然后开始查看：

如上图所示，这样就是已经成功执行了，注意红框中的总页数，如果大家最后采集到的页面总数可以和此处对比！

3、提取内容页的脚本规则：

利用上一步中我们查看到的代码来分析

至此，通过抓包软件获取js页面文章地址的方法就讲述完毕了，如果大家有任何问题，请在心岛博客中留言，我讲尽快协助解决问题！

以上是生活随笔为你收集整理的关于火车采集js调用文章资讯的方法淘宝采集相关的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错，欢迎将生活随笔推荐给好友。