机器学习分类
1.根据输出空间分类
A: 分类:二分类、多分类
B: 回归分析,输出为某个实数空间,例如股票价格,气温预测等问,统计学里面比较常用
C: 结构学习,输出是一个结构,如句子中每个单词的词性,在语音分析中比较常见
2.根据输入样本数据的标签(label)分类
A: 监督学习,样本中全部含有
B: 半监督学习,部分样本有label,部分没有label,很难获取所有样本的label,或样本label获取代价比较大,人脸识别,医药检测用的多
C: 非监督学习,样本没有label
D: 增强学习(reinforcement learning),通过隐含信息学习,通常“惩罚”不好的结果,“奖励”好的结果来优化学习结果。在广告系统,扑克、棋牌游戏使用较多
3.根据协议(学习方式)来分类
A: 批量学习(batch learning),利用所有的已知训练数据来学习
B: 在线学习(online learning),通过序列化的接受数据来学习,逐步增加性能。垃圾邮件,增强学习等应用
C: 主动学习(active learning),开始只有个少量的label,通过有策略的“问问题”来提高性能,例如遇到一个问题,不知道输出是否正确,则主动询问,用户输入正确信息,从而提高性能
4.通过输入空间来分类
A: 具体特征(concrete features),特征中包含了丰富的自然含义。如硬币分类,硬币的大小(size)和质量(mass)特征对于分类有直接的帮助;信用分级客户的基本信息等
B: 原始特征(raw features),简单的自然含义,需要人或机器(deep learning)将这些特征转化为具体特征。。例如例如数字识别中,原始的图片像素矩阵;声音识别中的声波信号;机器翻译中的每个单词。
C: 抽象特征(abstract features),通常没有任何的真实意义,需要人为的进行特征转化、抽取、组织。例如预测用户对电影的评分,原始数据用户的id和电影的id和评分rating。这里的userid,itemid对任务学习没有任何直接的帮助,需要对数据进一步处理、提炼。
根据上面的内容能帮助从实际问题,提炼出一个机器学习的方法:
binary classification from a batch of supervised data with concrete features