我试图在c#webforms项目中使用
HTMLAgilityPack抓取一个网页.
我见过的所有解决方案都使用WebBrowser控件.但是,根据我的判断,这仅适用于WinForms项目.
目前我通过以下代码调用所需的页面:
var getHtmlWeb = new HtmlWeb();
var document = getHtmlWeb.Load(inputUri);
HtmlAgilityPack.HtmlNodeCollection nodes = document.DocumentNode.SelectNodes("//div[@class=\"nav\"]");
我见过使用WebBrowser控件的一段代码示例:
if (this.webBrowser1.Document.GetElementsByTagName("html")[0] != null)
_htmlAgilityPackDocument.LoadHtml(this.webBrowser1.Document.GetElementsByTagName("html")[0].OuterHtml);
关于如何在加载AJAX后抓取页面的任何建议/指示将不胜感激.
最佳答案 似乎使用HTMLAgilityPack只能抓取通过html本身加载的内容.因此,通过AJAX加载的任何内容都不会被HTMLAgilityPack看到.
也许最简单的选择 – 可行 – 是使用基于浏览器的工具(如Firebug)来确定AJAX加载的数据源.然后直接操作源数据.这方面的另一个优点可能是刮削更大的数据集.