我正在将基于LDA的内容分类为通用主题,如音乐,技术,艺术,科学
这是我正在使用的过程,
9个主题 – >音乐,科技,艺术,科学等
9个文件 – > Music.txt,Technology.txt,Arts.txt,Science.txt等
我已经填写了每个文档(.txt文件),其中包含大约10,000行我认为是“纯粹”分类内容的内容
然后我对测试文档进行分类,以了解分类器的训练情况
我的问题是,
a.)这是一种对文本进行分类的有效方法(使用上述步骤)吗?
b.)我应该在哪里寻找“纯”的主题内容来填充这些文件?来源不是太大(文本数据> 1GB)
分类仅适用于上述“通用”主题
最佳答案 a)您描述的方法听起来不错,但一切都取决于您正在使用的标记LDA的实现.我所知道的最好的实现之一是
Stanford Topic Modeling Toolbox.它不再被积极开发,但是当我使用它时效果很好.
b)您可以在DBPedia上查找主题内容,其中包含主题/实体的结构化本体,以及有关这些主题/实体的维基百科文章的链接.