如何使用想要正确HTML的库从Web处理无效的HTML文档

我在解析网站时遇到此错误.

错误:’实体“ContentType”的声明必须以“>”结尾.

或输入类型必须关闭 最佳答案 你考虑过
JTidy吗?

JTidy is a Java port of HTML Tidy, a HTML syntax checker and pretty
printer. Like its non-Java cousin, JTidy can be used as a tool for
cleaning up malformed and faulty HTML. In addition, JTidy provides a
DOM parser for real-world HTML.

很明显,在某些时候它会与HTML有关,取决于它的形式有多么糟糕,但你可能会觉得这对你很有用.

点赞