我们在写蓝天采集器规则的时候有时候回遇到网页中有不固定元素列表,我们该如何来写xpath规则呢,往下看。
不固定元素列表,是一种模糊定位方式,以解决部分网页列表元素不是固定数目,例如部分网页第一页存在同类元素7个、第二页存在同类元素15个
示例:
<a class='test' value='1'>
<a class='test' value='2'>
<a class='test' value='3'>
//a[@class='test'] 就可以直接把这三个a标签都包含进去
如下图所示(群友提供):
//p[@class="selectionshareable"] 是不是很简单呢
认识XPath的结构
先自己自动生成几个XPath,看一下XPath结构有什么规律。几个示例XPath:
.//*[@id='subject_list']/ul/li[1]
//*[@id='c02']/ul/li/a
html/body//li[@class='next']/a[1]
是的,XPath通过HTML标签和属性查找数据:
标签:html body ul li div p a ......
连接标签的符号:/ //
属性和属性值:[@id='subject_list'] [@class='next']
弄清楚HTML标签、属性及其组合规律,是学会写一条正确XPath的关键。
相关知识点: XPath的结构- 1蓝天采集器后台设置了邮件发送地址点测试报错
- 2蓝天采集器多级网址获取的内容全部相同
- 3163K网站系统公众号模板消息配置教程
- 4蓝天采集器在数据安装的界面输入完成信息之后 无法安装
- 5蓝天采集器CentOS 7 下搭建Tor代理服务器
- 6SEO站长每天需要做的9件事
- 7蓝天采集器发布方式不能选择post方式发布嘛?
- 8蓝天采集器关于标题获取,部分标题带“-”获取不完整的解决办法
- 9百度实名认证接口(人脸身份核验API) 申请开通教程
- 10营销门户网站建设方案
- 11163K系统S2版升级S3前注意事项和准备工作
- 12蓝天采集器如何卸载删除操作教程
- 13Discuz门户蓝天采集器入库字段(发布插件)都有哪些
- 14蓝天采集器使用中发现几个问题
- 15蓝天采集器发布设置里绑定本地cms程序提示错误
- 16蓝天采集器&的问题
- 17PbootCMS获取结果页面的搜索keyword值和tag值
- 18PbootCMS前台和后台搜索中带字符搜不到结果,例如·:
- 19蓝天采集器年后上线新版本,敬请期待!
- 20蓝天采集器js分页怎么解决
-
dedecms后台用吗密码忘记了-找···
dedecms可以说很多站长都一直在使用,Php编写并且是开源的,安装操作都比较方便,非常适合新老站长建站。在一些时候,我们长时间不使用我们的网站了以后多多少少会出现一些特殊情况。今天呢蜀戎网络就遇到了一个客户说网站后台的密码和用户名都忘记···
-
蓝天采集器dedecms标签怎么写?
请问各位大佬,织梦的标签接口怎么写才能入库?
-
蓝天采集器远程图片采集下来能否保存至···
不支持oss 你可以将oss挂载到服务器
-
蓝天采集器使用常见问题及解决办法
采集中断、自动采集无效、图片下载不了详见:https://www.srso.cn/fy/657.htmlcli命令模式php可执行文件:默认自动识别,识别不了,在linux系统中关闭目录跨站保护,手动输入:可输入环境变量名“php”(需要系···
-
蓝天采集器PHP7的版本什么时候出
目前我们的服务器环境是PHP7的,想用蓝天采集器,用不了 临时解决:把文件上传到SkycaijiApp/Admin/Controller 覆盖可以访问后台