json是一种轻量级的数据交换格式,由于一些优秀的特性比如比 XML 更小、更快,更易解析和阅读,并有效地提升网络传输效率,而得到广泛使用。
Json采集的优点:
1、无需加载图片视频等信息,采集速度更快
2、部分网站防采集限制减少,采集更加顺畅
如何采集json数据,请看json教程:
使用JsonPath表达式从Json字符串中提取数据,JsonPath和XPath有点相似,但写法却是不一样的,这里我们对比一下XPath来学习JsonPath的用法。 先上一段Json字符:
{ "store": { "book": { "category": "reference", "author": "Nigel Rees", "title": "Sayings of the Century", "price": 8.95 }, { "category": "fiction", "author": "Evelyn Waugh", "title": "Sword of Honour", "price": 12.99 }, { "category": "fiction", "author": "Herman Melville", "title": "Moby Dick", "isbn": "0-553-21311-3", "price": 8.99 }, { "category": "fiction", "author": "J. R. R. Tolkien", "title": "The Lord of the Rings", "isbn": "0-395-19395-8", "price": 22.99 } , "bicycle": { "color": "red", "price": 19.95 } } }
比如我们要提取第一本书(book)的标题(title),如果我们把它当做是Xml的话,可以这样写
XPath:/store/book1/title
而使用JsonPath则是这样写
JsonPath:$.store.book0.title
或者也可以这样写 $'store''book'0'title'
JsonPath中的$相当于Xpath中的首字符"/",代表“根成员对象”,因为JSON结构通常是匿名的,不一定有一个“根成员对象”,所以这个$实际上是虚拟出来的,这里我们不用管它,知道他代表根对象就行了。而XPath中间部分的子操作符“/“,在JsonPath中则是用"."来表示,或者用第二种写法,用中括号""来括住节点名称(节点名称要加上单引号)。
下面列个表格对比一下
XPath | JsonPath | 说明 |
/ | $ | 根对象/元素 |
. | @ | 当前对象/元素 |
/ | . or | 子操作符 |
.. | n/a | 父操作符 |
// | .. | 递归查找所有级别的子级元素 |
* | * | 通配符 |
@ | 无 | 查找指定属性,json中无属性的定义 |
subscript operator. XPath uses it to iterate over element collections and for predicates. In Javascript and JSON it is the native array operator. | ||
| | , | Union operator in XPath results in a combination of node sets. JSONPath allows alternate names or array indices as a set. |
无 | start:end:step | array slice operator borrowed from ES4. |
?() | 用于过滤 | |
无 | () | 脚本表达式,使用底层的脚本引擎。 |
() | 无 | Xpath中的分组 |
- 1pbootcms系统网站必须要做的seo要点
- 2蓝天采集器起始网址无法通过POST方式批量获取列表页
- 3163K网站系统图片系统+七牛云存储配置教程
- 4蓝天采集器发布方式不能选择post方式发布嘛?
- 5蓝天采集器系统单次采集过多数据会卡死
- 6蓝天采集器采集列表中能否增加单选按框和批量采集按钮
- 7蓝天采集器怎么才能循环采集某个页面的相同值
- 8访问宝塔控制面板出现无法访问此网站拒绝了我们的连接请求!处理方法
- 9蓝天采集器反应三个问题
- 10蓝天采集器列表页即内容页,如何抓取table表格,且是有分页的?
- 11宝塔控制面板如何开启php_fileinfo扩展参数
- 12给PbootCMS增加个换行格式化标签br=1
- 13蓝天采集器这种情况怎么解决呀
- 14蓝天采集器采集保存API问题
- 15pbootcms类型站点怎么查看图片、网页元素的路径和大小和颜色
- 16蓝天采集器内容页数据处理问题
- 17蓝天采集器采集报错500 Internal Server Error
- 18蓝天采集器2.0版本后不能自动采集了
- 19蓝天采集器保存图片超时
- 20狂雨小说CMS后台采集规则教程附带操作演示案例
-
狂野小说cms白色优美-手机模版(w···
最近写了很多狂雨小说的采集规则,发现这个程序吧只有pc端没有手机端的模板,这一点非常的不友好,手机端其实是有的,但是需要花费200元单独进行购买。本来刚开始做也没有多少的预算,对于一般的站长来说也是很困难,为此,蜀戎网络花了一些时间整理了2···
-
【阿里云备案】关于网站主页下方标明备···
接最新管局通知:根据《非经营性互联网信息服务备案管理办法》(原信息产业部令第33号令)规定,非经营性互联网信息服务提供者应当在其网站开通时在主页底部的中央位置标明其备案编号,并在备案编号下方按要求链接信息产业部备案管理系统网址,供公众查询核···
-
蓝天采集器自动采集插件在米拓5.3.···
自动采集插件在米拓5.3.19下无法采集 有什么错误提示吗?
-
蓝天采集器采集保存API问题
采集器设置API发布方式保存不了怎么办啊 api数据不做保存的,是实时抓取显示的 那怎么访问 admin 发表于 2018-4-23 19:35 api数据不做保存的,是实时抓取显示的 那要怎么访问啊 直接访问api接口网址啊,然···
-
蓝天采集器保存到本地文档excel后···
保存到本地文档,便采集边保存,总是采集到一个数量就保存一个后缀是随机几位字母,无法打开,然后重新生成新的文档,重新入库,不知道是怎么回事 是不是内存不够,设置下php memory_limit看看 admin 发表于 2019-3-1···