Apache Mahout中的矢量化

我是Mahout的新手.我需要将文本文件转换为向量以便在以后的阶段进行分类.

有谁可以解释以下这些问题?

>如何将文本文件转换为mahout中的向量?
文件格式类似于“用户名|关于项目评级的评论”
>数据将是几TB.那么我可以使用我想要创建的向量来实现哪种算法可用于分类?

谢谢,
阿伦

最佳答案 您可以查看这两个也有一些/解释如何使用Sequence File API的示例.
Here
here

你绝对应该阅读intro文本分析

点赞