c# – 如何解析AngleSharp中匿名块的文本？

2023年8月31日 425次阅读

我正在使用AngleSharp解析网站内容,我遇到了匿名阻塞问题.

请参阅示例代码：

var parser = new HtmlParser();
var document = parser.Parse(@"<body>
<div class='product'>
    <a href='#'><img src='img1.jpg' alt=''></a>
    Hello, world
    <div class='comments-likes'>1</div>
</div>
<div class='product'>
    <a href='#'><img src='img2.jpg' alt=''></a>
    Yet another helloworld
    <div class='comments-likes'>25</div>
</div>
<body>");

var products = document.QuerySelectorAll("div.product");
foreach (var product in products)
{
    var productTitle = product.Text();
    productTitle.Dump();
}

因此,productTitle包含来自div.comments的数字,输出为：

Hello, world 1
Yet another helloworld 25

我尝试过像product.FirstElementChild.NextElementSibling.Text();但链接元素的下一个兄弟是div.comments-likes,而不是匿名块.表明：

1
25

因此,跳过匿名块. 🙁

我发现最好的解决方法是删除所有阻止块,我的例子是：

product.QuerySelector(".comments-likes").Remove();
var productTitle = product.Text().Trim();

是从匿名块解析文本的更好方法吗？

最佳答案文本被建模为TextNode,它是元素,注释节点,处理指令等旁边的一种节点.这就是你尝试的NextElementSibling没有在结果中包含文本的原因,因为它只打算返回元素,顾名思义.

您可以通过遍历div的ChildNodes然后按NodeType过滤来获得直接位于product div中的文本节点,例如：

var products = document.QuerySelectorAll("div.product");
foreach (var product in products)
{
    var productTitle = product.ChildNodes
                              .First(o => o.NodeType == AngleSharp.Dom.NodeType.Text 
                                            && o.TextContent.Trim() != "");
    Console.WriteLine(productTitle.TextContent.Trim());
}

dotnetfiddle demo

请注意,元素之间的换行也是文本节点,因此我们需要在上面的演示中过滤掉那些.