文档表

文档存储 位置

文件大小

文件创建

修改时间

上传人

上传部门

上传tag

上传tag

doc_id

json列表 :node_id

print("📌 【原始Document文档ID】:", new_docs[0].id_)  # fa.txt对应的文档根ID
print("\n📌 【切分后Node节点ID列表】(落盘JSON文件名):")
for node in new_nodes:
    print(f"→ 节点ID:{node.id_} | 关联文档ID:{node.metadata['document_id']}")

文档.id_.  ==node.metadata['document_id']
node.id_
def load_all_nodes() -> list[BaseNode]:
    return [BaseNode.from_dict(json.loads(p.read_text(encoding="utf8")))
            for p in NODE_DIR.glob("*.json")]

关键词召回 BM25
这里ODE_DIR.glob("*.json")也可以使用数据库生成一个node的json文件类表 
实现精确控制对吧
比如 数据库 查询出 
综合部 有2000个node节点。
然后 给出列表 
进行bm25 
然后再查询

向量召回
使用刚刚数据库查询出来的document_id 来指定metadata['document_id']后检索
再向量召回

发表回复