python解析json文件并提取「python逐行读取json」
前言
前几天有粉丝在群里问了一个json文件处理的问题。
看上去他只需要follower和ddate这两个字段下的对应的值。
我们知道json是一种常见的数据传输形式,所以对于爬取数据的数据解析,json的相关操作是比较重要的,能够加快我们的数据提取效率。
思路关于这个问题,倒不是很难,群里提出了三个方法,第一个是才哥说的pd处理或者正则表达式,第二个是小编自己提出的json处理,第三个是【成都-IT技术支持-小王】提出的jsonpath,总之方法很多,这里给出4个处理方法,希望下次粉丝们再遇到类似问题的时候,有章可循。
实现过程1、正则表达式这个方法可以看看,通过匹配的方法进行提取,代码如下所示:
import reimport jsonfile = open("漫画.txt", "r", encoding="utf-8")content = file.readlineddate_result1 = re.findall(""ddate":"(d -d -d )"", content)ddate_result2 = re.findall(""ddate":"(.*?)"", content)follower_result1 = re.findall(""follower":(d ),"", content)print(ddate_result1)print(ddate_result2)print(follower_result1)
运行之后,可以得到结果:
关于ddate,follower获取的方法肯定还有很多其他写法,这里只是抛砖引玉,欢迎大家多多尝试。
2、jsonpath方法一关于jsonpath的用法,之前在这篇文章中有提及,感兴趣的小伙伴也可以去看看:数据提取之JSON与JsonPATH。
下面是【成都-IT技术支持-小王】大佬给的代码:
from jsonpath import jsonpathimport json"""follower和ddate"""with open("漫画.txt", encoding="utf-8") as file:file_json = json.loads(file.readline)follower = jsonpath(file_json, "$..follower")ddate = jsonpath(file_json, "$..ddate")print(follower)print(ddate)
代码运行之后,就会得到想要的数据,如下图所示:
这个..就和xpath里面的//一样,子孙节点,$是根节点。
3、jsonpath方法二这个是另外一个用法了,小号【皮皮】提供的,直接上代码。
import jsonimport jsonpath# obj = json.load(open("罗翔.json", "r", encoding="utf-8")) # 注意,这里是文件的形式,不能直接放一个文件名的字符串file = open("漫画.txt", "r", encoding="utf-8") # 注意,这里是文件的形式,不能直接放一个文件名的字符串obj = json.loads(file.readline)follower = jsonpath.jsonpath(obj, "$..follower") # 文件对象 jsonpath语法ddate = jsonpath.jsonpath(obj, "$..ddate") # 文件对象 jsonpath语法print(follower)print(ddate)
代码运行之后,也可以得到预期的结果。
当然了,如果你的文件本来就是json文件,也可以直接读取,代码类似:
import jsonimport jsonpathobj = json.load(open("罗翔.json", "r", encoding="utf-8")) # 注意,这里是文件的形式,不能直接放一个文件名的字符串# file = open("罗翔.json", "r", encoding="utf-8") # 注意,这里是文件的形式,不能直接放一个文件名的字符串# obj = json.loads(file.readline)follower = jsonpath.jsonpath(obj, "$..follower") # 文件对象 jsonpath语法ddate = jsonpath.jsonpath(obj, "$..ddate") # 文件对象 jsonpath语法print(follower)print(ddate)
运行之后,也可以得到预期的结果:
这个是群里【深圳-Hua Bro】华博提供的,代码如下:
import jsonimport jsonpathwith open("罗翔.txt", "r", encoding="UTF-8") as fr:file_json = eval(fr.read.replace("nu200b", "")) # 读取的str转为字典follower = jsonpath.jsonpath(file_json, "$..follower") # 文件对象 jsonpath语法ddate = jsonpath.jsonpath(file_json, "$..ddate") # 文件对象 jsonpath语法print(follower)print(ddate)
方法大同小异,运行之后,也可以拿到预取的目标数据,如下图所示。
相关文章
- 广西东盟跨境电商发展现状「中国与东盟农产品贸易现状」
- 严禁跨境赌博「跨境赌博首次入刑」
- vtuber人气「日本有uber吗」
- 美联储再出手未改美股颓势,道指大跌超900点「美联储昨晚降息了吗」
- 适合宝宝学英语「儿童初学英语app哪个最好」
- 基于python的语音识别「这波很稳是什么梗」
- 高铁列车求婚「婚车接亲」
- 自贸区钦州港片区机构「钦州港自贸区招标项目」
- 发布各类违法广告成都这些公司被点名举报「发广告违法吗」
- 奔驰glc轿跑保值率「奔驰glesuv」
- 被中国禁的迈克杰克逊歌曲「迈克尔杰克逊关于战争的歌曲」
- 喜讯绵阳综合保税区正式获批了吗「多地综合保税区获批」
- 龙工场三步迈向跨境产业新城发展「南部商务区三期」
- 第一次去日本攻略「自游日本」
- 新零售私域运营用户分层方案「多元化金融服务需求」
- 个体经营所得税汇算清缴如何申报「个体工商户怎么汇算清缴」
- 报税最后一刻注意事项是什么「报税期最后一天报会有影响吗」
- 绵阳宝能城项目「绵阳融创钜祥房地产开发有限公司」