当前位置：首页 > 编程资源 > 编程问答 >内容正文

编程问答

抓取网页工具querylist的使用简介

发布时间：2023/12/29 编程问答 40 豆豆

生活随笔收集整理的这篇文章主要介绍了抓取网页工具querylist的使用简介小编觉得挺不错的,现在分享给大家,帮大家做个参考.

querylist的使用

首先，querylist是时下php最先进的dom采集包之一，而且是国人写的，中文文档很好，如果想用好，应该直接看一遍官方文档

我这里简单记录下我对querylisty使用的理解。目标是用一篇文章解释如何使用。方便我超过2个月后回忆....

操作流程

主要分为三步

载入资源

筛选目标

读取结果

举例：

<?php require 'QueryList/vendor/autoload.php'; use QL\QueryList; $html = <<<STR <div id="one"><div class="two"><a href="http://querylist.cc">QueryList官网</a><img src="http://querylist.com/1.jpg" alt="这是图片"><img src="http://querylist.com/2.jpg" alt="这是图片2"></div><span>其它的<b>一些</b>文本</span> </div> STR; $rules = array('text' => array('#one','text'),'link' => array('.two>a','href'),'img' => array('.two>img:eq(1)','src'),'other' => array('span','html') );$data = QueryList::html($html) // 1.载入资源->rules($rules) // 2.筛选目标之输入筛选规则->query() // 2.筛选目标之执行筛选->getData(); // 3.读取结果 print_r($data->all()); // 3.读取结果之转换格式

我们需要了解的就是每一步具体有那些更细的方法？主要第二步筛选，怎么用？

载入资源

$html = file_get_contents('https://querylist.cc/');

方法说明

html()	ql = QueryList::html($html);
setHtml($html)	作用同上 ql->setHtml($html);
getHtml()	获取设置的待采集的html源码 ql->getHtml();
get()	get插件，用来轻松获取网页。该插件基于GuzzleHttp,请求参数与它一致。

筛选目标

//html源码 $html='';//采集规则 $rules = [];//设置规则和执行筛选 $ql = QueryList::html($html)->rules($rules)->query();//读取结果 $data = $ql->getData(); print_r($data->all()); 方法说明

rules($arr)	设置筛选规则，是一个数组，看下面详细介绍和举例
range()	这个是rules的补充，看文档代码就明白了
removeHead()	移除页面头部head区域,乱码终极解决方案，采集出现不可解决的乱码问题的时候，可以尝试调用这个方法来解决乱码问题。
query()	执行采集规则rules，执行完这个方法后才可以用getData()方法获取到采集数据。

rules单独说明

//采集规则 $rules = array('规则名' => array('jQuery选择器','要采集的属性'[,"标签过滤列表"][,"回调函数"]),'规则名2' => array('jQuery选择器','要采集的属性'[,"标签过滤列表"][,"回调函数"]),.......... ); rules字段说明

规则名	不要重复随便写
jQuery选择器	jq会不
要采集的属性	- text:返回当前选中标签下面的纯文本 - html:返回当前选中标签下面的html片段 - [HTML标签属性]:如src、href、name、data-src等任意HTML标签属性名
标签过滤列表	设置此选项可用来过滤不想要的内容，多个值之间用空格隔开，有如下2条规则: - 当标签名前面添加减号(-)时（此时标签可以为任意的jQuery选择器），表示移除该标签以及标签内容。 - 当标签名前面没有减号(-)时，当 [要采集的属性] 值为text时表示需要保留的HTML标签以及内容，为html时表示要过滤掉的HTML标签但保留内容。
回调函数

举例：

$rules = ['link' => ['a','href'],'content' => ['.article','html','-.ad1 -.ad2'] ];

读取结果

方法说明

getData()

返回值为Laravel中Collection集合对象，通过它的all()方法可转为数组。

转载于：https://juejin.cn/post/6844903621558009870

总结

以上是生活随笔为你收集整理的抓取网页工具querylist的使用简介的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错，欢迎将生活随笔推荐给好友。

上一篇：解析ViewPager（二）——View
下一篇：梦幻西游玩家最多的服务器,梦幻西游：第5