json是一种轻量级的数据交换格式,由于一些优秀的特性比如比 XML 更小、更快,更易解析和阅读,并有效地提升网络传输效率,而得到广泛使用。
Json采集的优点:
1、无需加载图片视频等信息,采集速度更快
2、部分网站防采集限制减少,采集更加顺畅
如何采集json数据,请看json教程:
使用JsonPath表达式从Json字符串中提取数据,JsonPath和XPath有点相似,但写法却是不一样的,这里我们对比一下XPath来学习JsonPath的用法。 先上一段Json字符:
{ "store": { "book": { "category": "reference", "author": "Nigel Rees", "title": "Sayings of the Century", "price": 8.95 }, { "category": "fiction", "author": "Evelyn Waugh", "title": "Sword of Honour", "price": 12.99 }, { "category": "fiction", "author": "Herman Melville", "title": "Moby Dick", "isbn": "0-553-21311-3", "price": 8.99 }, { "category": "fiction", "author": "J. R. R. Tolkien", "title": "The Lord of the Rings", "isbn": "0-395-19395-8", "price": 22.99 } , "bicycle": { "color": "red", "price": 19.95 } } }
比如我们要提取第一本书(book)的标题(title),如果我们把它当做是Xml的话,可以这样写
XPath:/store/book1/title
而使用JsonPath则是这样写
JsonPath:$.store.book0.title
或者也可以这样写 $'store''book'0'title'
JsonPath中的$相当于Xpath中的首字符"/",代表“根成员对象”,因为JSON结构通常是匿名的,不一定有一个“根成员对象”,所以这个$实际上是虚拟出来的,这里我们不用管它,知道他代表根对象就行了。而XPath中间部分的子操作符“/“,在JsonPath中则是用"."来表示,或者用第二种写法,用中括号""来括住节点名称(节点名称要加上单引号)。
下面列个表格对比一下
XPath | JsonPath | 说明 |
/ | $ | 根对象/元素 |
. | @ | 当前对象/元素 |
/ | . or | 子操作符 |
.. | n/a | 父操作符 |
// | .. | 递归查找所有级别的子级元素 |
* | * | 通配符 |
@ | 无 | 查找指定属性,json中无属性的定义 |
subscript operator. XPath uses it to iterate over element collections and for predicates. In Javascript and JSON it is the native array operator. | ||
| | , | Union operator in XPath results in a combination of node sets. JSONPath allows alternate names or array indices as a set. |
无 | start:end:step | array slice operator borrowed from ES4. |
?() | 用于过滤 | |
无 | () | 脚本表达式,使用底层的脚本引擎。 |
() | 无 | Xpath中的分组 |
- 1PbootCMS如何修改上传格式和支持webp图片
- 2教育学校/培训机构网站建设方案
- 3蓝天采集器安装不了,啥情况
- 4蓝天采集器BUG反馈
- 5蓝天采集器蓝天采集器v1.3自动采集怎么搞
- 6PbootCMS中文域名获取授权码注意点
- 7163K网站系统微信支付申请设置说明(X版)
- 8七牛云加速域名开启https教程
- 9蓝天采集器请问下discuz采集别人网站的iframe视频链接发布没内文如何...
- 10蓝天采集器蓝天采集器2.2更新文档
- 11蓝天采集器站长采集规则不能直接写正则表达式吗
- 12蓝天采集器下载图片绝对路径修改为相对路径操作方法
- 13163K网站系统二维码跳转进入小程序--待完善
- 14Discuz门户蓝天采集器入库字段(发布插件)都有哪些
- 15SEO站长每天需要做的9件事
- 16蓝天采集器请问一下,多个任务是否可以单独控制采集数量
- 17163K网站系统X10_V1升级教程_自动升级系统使用说明
- 18极致cms火车头采集内容带评论入库操作教程
- 19化妆品/服装行业网站建设方案
- 20新手站长快速操作PbootCMS安装百度统计代码教程
-
163K网站系统同一服务器多个网站系···
同一服务器有多套网站系统配置自动升级:(先修改以下部分,再做自动升级配置)1 到对应数据库的mh163k_config表中autoupdateexeport字段改为新的端口号,并注意要开放这个端口: select autoupdateex···
-
蓝天采集器内容允许匹配多个元素循环入···
我们平时在采集一些论坛或者贴吧,问答平台等都会有多段内容,在写采集规则的时候我们就要换一种操作方法,利用我们的循环入库。我们就以http://bbs.skycaiji.com/forum.php?mod=viewthread&tid···
-
蓝天采集器管理员账号密码限制有些短
本帖最后由 达雅 于 2018-4-24 15:39 编辑 请输入6-12位字母和数字组合的密码! 这个密码设置有点短了,能否下个版本只设置个最低6位,不要设置上线,要不安全性不是太好保障 另外采集云平台里采集规则 中规则来源希望能够···
-
PbootCMS内容详情页自定义模板···
注意:1、本站分享的是作者提供的免费版(基于PbootCms V3.0.3整合好的打包下载)。链接: https://pan.baidu.com/s/1oDjHJ8XzC9WdJT0WTDS8rA提取码: fi8j2、付费版本请访问作者原文···
-
百度实名认证接口(人脸身份核验API···
在管理员后台 相亲 基本配置 基本配置 实名认证方式 中 可以设置 实名认证审核方式 其中 身份姓名验证和人像采集验证需要用到百度身份验证(人脸身份核验API) 需要到百···