文档存储 位置
文件大小
文件创建
修改时间
上传人
上传部门
上传tag
上传tag
doc_id
json列表 :node_id
print("📌 【原始Document文档ID】:", new_docs[0].id_) # fa.txt对应的文档根ID
print("\n📌 【切分后Node节点ID列表】(落盘JSON文件名):")
for node in new_nodes:
print(f"→ 节点ID:{node.id_} | 关联文档ID:{node.metadata['document_id']}")
文档.id_. ==node.metadata['document_id']
node.id_
def load_all_nodes() -> list[BaseNode]:
return [BaseNode.from_dict(json.loads(p.read_text(encoding="utf8")))
for p in NODE_DIR.glob("*.json")]
关键词召回 BM25
这里ODE_DIR.glob("*.json")也可以使用数据库生成一个node的json文件类表
实现精确控制对吧
比如 数据库 查询出
综合部 有2000个node节点。
然后 给出列表
进行bm25
然后再查询
向量召回
使用刚刚数据库查询出来的document_id 来指定metadata['document_id']后检索
再向量召回