修复 LLM 输出的 json
https://github.com/mangiucugna/json_repair
pip install json_repair
pythonfrom json_repair import repair_json, loads
bad_json_string = '{"a": 1'
good_json_string = repair_json(bad_json_string)
print(good_json_string) # '{"a": 1}'
| 功能 | JSONPath符号 | XPath符号 | 描述 |
|---|---|---|---|
| 根节点 | $ | / | 访问JSON或XML的根节点 |
| 子节点 | . | / | 访问当前节点的子节点 |
| 所有子节点 | * | * | 访问当前节点的所有子节点 |
| 数组索引 | [n] | [n] | 访问数组的第n个元素 |
| 所有数组元素 | [*] | * | 访问数组中的所有元素 |
| 合并操作符 | [,] | 访问若干个元素 | |
| 切片运算符 | [:] | 访问若干个元素,左闭右开 | |
| 递归下级 | .. | // | 访问当前节点及其所有子孙节点 |
| 过滤条件 | [?()] | [condition] | 根据条件筛选节点 |
返回的结果均为数组
https://github.com/scrapy/w3lib
pip install w3lib
w3lib.urlcanonicalize_url(url, keep_fragments=False) 规范化 URL