ruby – Liblinear如何使用它

我在机器学习和文本挖掘方面相当新颖.我注意到了一个名为Liblinear
https://github.com/tomz/liblinear-ruby-swig的ruby库的存在.

到目前为止我想做的是训练软件以确定文本是否提及与自行车有关的任何内容.

有人可以突出我应该遵循的步骤(即:预处理文本和如何),共享资源,并理想地分享一个简单的例子,让我去.

任何帮助都会做,谢谢!

最佳答案 经典的方法是:

>收集输入文本的代表性样本,每个样本标记为相关/不相关.
>将样本分为训练和测试集.
>提取训练集所有文件中的所有条款;把它叫做词汇,V.
>对于训练集中的每个文档,将其转换为布尔向量,其中第i个元素为真/ 1如果词汇表中的第i个术语出现在文档中.
>将矢量化训练集输入学习算法.

现在,要对文档进行分类,请按照步骤4对其进行矢量化,然后将其提供给分类器以获取相关/不相关的标签.将其与实际标签进行比较,看它是否正确.使用这种简单的方法,您应该能够获得至少80%的准确度.

要改进此方法,请使用术语计数替换布尔值,通过文档长度进行标准化,或者甚至更好地使用tf-idf分数.

点赞