我只是想知道是否有人知道任何好的库解析.doc文件(和类似的格式,如.odt)来提取文本,但也保持格式化信息尽可能在网站上显示.
对PDF做类似的能力将是一个奖励,但我并没有那么多.
这是一个Rails项目,如果这有帮助的话.
提前致谢!
最佳答案 Apache的
POI是一种非常流行的访问Word和Excel文档的方法.有一个
Ruby POI binding可能值得调查,但看起来你必须自己构建它.而且它似乎不像Ruby那样,因为它几乎是Java代码的直接端口.它似乎只是针对Ruby 1.8.2进行了测试.