机器学习 – LDA对文本分类的良好培训数据?

我正在将基于LDA的内容分类为通用主题,如音乐,技术,艺术,科学

这是我正在使用的过程,

9个主题 – >音乐,科技,艺术,科学等

9个文件 – > Music.txt,Technology.txt,Arts.txt,Science.txt等

我已经填写了每个文档(.txt文件),其中包含大约10,000行我认为是“纯粹”分类内容的内容

然后我对测试文档进行分类,以了解分类器的训练情况

我的问题是,

a.)这是一种对文本进行分类的有效方法(使用上述步骤)吗?

b.)我应该在哪里寻找“纯”的主题内容来填充这些文件?来源不是太大(文本数据> 1GB)

分类仅适用于上述“通用”主题

最佳答案 a)您描述的方法听起来不错,但一切都取决于您正在使用的标记LDA的实现.我所知道的最好的实现之一是
Stanford Topic Modeling Toolbox.它不再被积极开发,但是当我使用它时效果很好.

b)您可以在DBPedia上查找主题内容,其中包含主题/实体的结构化本体,以及有关这些主题/实体的维基百科文章的链接.

点赞