sql-server – 包含150M页面的100,000个PDF文本索引

2023年8月2日 222次阅读

有一个有趣的问题,我正在寻找合适的解决方案.我们有大约100,000份不同大小的PDF文档,平均大小为150页.它目前位于RAID6服务器上,也可以在异地备份.我们需要索引总共6.5TB的PDF.

我们目前正在将PDF转换为文本文件,并将它们存储在服务器上的类似文件夹结构中.然后需要将这些索引编入索引并进行搜索,包括返回原始文件夹的链接.文本文件使用与PDF相同的名称,并在其上添加了其他命名约定.如果我的估计是正确的,那么这将使其接近40亿个需要编入索引的单词.