引言 上一小节中,我们介绍了过拟合的概念,在机器学习中最大的危险就是过拟合,为了解决过拟合问题,通常有两种办法,第一是减少样本的特征(即维度),第二就是我们这里要说的“正则化”(又称为“惩罚”,penalty)。 从多项…
标签:机器学习
解决weka数据挖掘打开csv文件报read 9,expected 1.read token[eol] ,line 3错误原因
这问题我查了很多资料,意思是csv中读到9个属性(特征/维度)值,但是只读到一个,第三行有问题。 然后还有各种讲解数据中格式空格符的问题之类的;其实按照设置@attribute的属性方法来讲根本没什么错误。根据方法改了许…
推荐系统review
最基本的RS问题就是基于rating的,其他的信息加入使问题变得复杂。 content-based method content-based method 的想法很简单,就是——用户将买的物品应该与他过去买过的东西相似 …
[读书笔记] MIT Optimization for Machine Learning/Chapter 4
增量方法,每次处理一小撮数据,增量更新参数,每一步更新的计算量都很小。统计梯度下降法。 有一个基本假设:数据有时序的到来,满足一定的分布(强假设:前面的数据和后面的数据是独立同分布)。所以对于前面的数据没有来得及catc…
[读书笔记] MIT Optimization for Machine Learning/Chapter 3
内点法,在大数据里不适用。小数据下收敛速度较快。 了解内点法原理可以参看https://blogs.princeton.edu/imabandit/2013/02/14/orf523-interior-point-met…
[读书笔记] MIT Optimization for Machine Learning/Chapter 2.1
这一章干货比较多,看起来比较累,收获也比较大。 坚持看,坚持写。 写公式真累,希望segmentfault能尽快支持输入latex公式 一直拿不下最优化这块东西,理论和实践都有欠缺,争取这回能拿下。 $2.1 Intro…
[读书笔记] MIT Optimization for Machine Learning/Chapter 2.2-2.3
$2.2 一般方法 次梯度方法 转化成普通的LP,SDP问题 这类general方法对1范数问题本身的结构没有挖掘,所以收敛速度较慢。 LP、SDP等方法过于追求优化精度,在机器学习领域其实不重要。重要的求一个合理的解,…
[读书笔记] MIT Optimization for Machine Learning/Chapter 1
本书cdsn下载地址:http://download.csdn.net/detail/cuijianzhu/4544796 这本书总结了机器学习中常用的最优化方法。 针对机器学习中出现的问题 不深究理论部分,比如收敛理论…
[ML]熵、KL散度、信息增益、互信息-学习笔记
熵 Entrophy: sum([p*log(1/p) for each p]) p: 1次实验的, x的发生的次数的期望是 p 1/p : x发生1次, 期望要做的试验次数是 1/p Example 硬币: T: 1/…
SegmentFault专访Face++ —— 世界领先的人脸识别云服务平台
Face++是一个人脸识别云服务平台,通过它提供的开放服务,开发者可以快速地在自己的产品中集成面部识别功能。Face++团队专注于研发世界最好的人脸检测、识别、分析和重建技术,通过融合机器视觉、机器学习、大数据挖掘及3D…
机器学习自学指南
事实上有许多的途径可以了解机器学习,也有许多的资源例如书籍、公开课等可为所用,一些相关的比赛和工具也是你了解这个领域的好帮手。本文我将围绕这个话题,给出一些总结性的认识,并为你由程序员到机器学习高手的蜕变旅程中提供一些学…
Day14:使用斯坦福 NER 软件包实现你自己的命名实体识别器(Named Entity Recognition,NER)
编者注:我们发现了有趣的一系列文章《30天学习30种新技术》,正在翻译中,一天一篇更新,年终礼包。下面是第 14 天的内容。 我并不是一个机器学习(Machine Learning)、自然语言处理(Natural Tex…