有一个有趣的问题,我正在寻找合适的解决方案.我们有大约100,000份不同大小的PDF文档,平均大小为150页.它目前位于RAID6服务器上,也可以在异地备份.我们需要索引总共6.5TB的PDF.
我们目前正在将PDF转换为文本文件,并将它们存储在服务器上的类似文件夹结构中.然后需要将这些索引编入索引并进行搜索,包括返回原始文件夹的链接.文本文件使用与PDF相同的名称,并在其上添加了其他命名约定.如果我的估计是正确的,那么这将使其接近40亿个需要编入索引的单词.
什么是索引这些文件的合适解决方案?
最佳答案 我将看看
SOLR.我们目前正在考虑将其用作文档的全文搜索引擎.它被广泛使用并得到很好的支持.