为什么知识库提问，并不能检索全部文档？

西门豹 发表于 2025-8-30 03:29:08

以Get笔记、IMA和纳米AI举例， 1️⃣同样是新建一个知识库， 2️⃣同样是给知识库导入20个文档(PDF)， 3️⃣然后基于知识库提问：搜索本知识库中所有文档，找出带某某关键词的段落，并说明出处。
纳米AI：表现最差，它只会搜索1个文档，其余不管;
Get笔记：跟纳米五十步笑百步，能搜索5个左右文档;
IMA：相对较好，但也不够令人满意，好的时候能搜索15-20个文档，差的时候也只搜索10个左右文档。好奇这个需求应该不难实现啊，是提问姿势不对么，诚心求教

长叹一生当青春 发表于 2025-8-30 03:29:28

你可以试试将你的资料分类整理到ima 里，里面可以针对你的文件夹里面的资料给你回答。虽说并不能检索所有文档，但是可以一定程度上变得更加精准与针对某个问题的全面性

麦小贱 发表于 2025-8-30 03:29:36

这就要用NotebookLM了，精准早知识库的数据片段，但是理解上效率差，但据说年底lm要上强力模型可以有效改善

疯孓发表于 2025-8-30 03:29:41

用notebook试试，谷歌的。他是目前最强的。你说的那几个还是小朋友水平相比来说。

58kg咯 发表于 2025-8-30 03:29:47

remio试试，用rag检索整个知识库的

羽恬发表于 2025-8-30 03:29:53

成本太高也太慢，都是取top k 相关的给模型。精确关键字搜索是不如传统笔记全量

双美发表于 2025-8-30 03:29:58

成本问题还有你20个文档大小问题不介意试试我开发的我看看能不能完成你的例子

潇洒如昔 发表于 2025-8-30 03:30:04

目前各个AI对于自己的记忆录是有限的，目前连一本长篇小说的内容都无法全部记住。现在主流方式就是，把你给的知识库切成片段，然后储存关键字，等你问的时候就通过关键字去找到这个片段然后再用。而这就会出现一个问题，切开的片段可能并不完整，需要两个片段组合在一起才是完整的

我本是高山 发表于 2025-8-30 03:30:09

要是有一千个文档，那得耗费多少token的，你不会真觉得大企业是做慈善的吧

大象是堵墙 发表于 2025-8-30 03:30:14

你看看获取内容的平台，内容能训练投喂，那不用我多说

页: [1] 2

Gonglubian's Archiver

为什么知识库提问，并不能检索全部文档？