当她在Stater Bros买的Diet Rite饮料开始销售时,我正试图为我的妈妈创造通知.我的想法是,我可以创建一个Yahoo Pipe,它接收每周广告Feed和过滤字符串Diet Rite.雅虎管道本身就是一个RSS源,因此,我会将管道传送到谷歌阅读器,因此我的妈妈会知道Stater Bros是否正在进行销售.
看看Stater Bros如何获得他们weekly ad的可搜索PDF,我认为让Yahoo Pipes搜索它是一件简单的事情.但是,Yahoo Pipes不支持PDF.
然后我决定通过在线PDF到HTML转换器管理PDF并将其提供给Yahoo Pipes中的Fetch Page模块.事实上,转换器是quite successful,因为生成的HTML保留了文本,我可以搜索它并找到我需要的东西.然而,事实证明它以帧为单位吐出数据 – 因此我无法使用它.我找不到任何其他在线PDF到HTML转换器.
即使我能够将PDF的HTML转换为Yahoo Pipes,我也不确定这会有什么用处,因为Yahoo Pipes不提供搜索/过滤HTML的方法.它主要用于饲料.
所以我被困住了.关于如何实现我想要做的任何想法?
最佳答案 如果您还没有使用它,那么您可能需要查看Googles缓存系统..
http://webcache.googleusercontent.com/search?q=cache:http://www.staterbros.com/Images/PDFs/weekly.aspx
它在SEO圈子之外并不广为人知,但谷歌机器人实际上对HTML和HTML执行粗略的PDF.文字转换.如果您不能等待Google转换PDF文件,那么还有一些可以执行相同功能的免费PHP脚本.
因为管道没有’Preg_match’,所以你必须向后工作,
通过删除你不想要的东西.
替换模块的正则表达式看起来像这样…… ^(.?)Diet Rite(.?)$
从字符串的开头到“饮食仪式”,无所事事
然后将’Diet Rite’之后的所有内容替换为字符串的末尾,没有任何内容..
因此,如果页面上存在“Diet Rite”,它将显示在管道中,并且可以添加到RSS源中,否则管道将返回空白.