这学期分别学习了《数据挖掘》《机器学习》和《模式识别》三门课程,为了搞明白这三者的关系,就google了下,一下为一些从网上获得的资料。 ——————…
标签:机器学习
机器学习 | 特征工程- 超参数调优方法整理
特征工程是机器学习当中很重要的部分,可以帮助我们设计、创建新特征,以便模型从中提取重要相关性。本文将记录并持续更新相关特征工程的工具包介绍,包括自动模型选择和超参数调优等各方面。 · Featuretools Featu…
机器学习:七种主要的回归分析
现在这篇文章只是一个提纲部分,后续会逐渐完善,但最后会是一篇综述的形式,因为示例部分内容过多,篇幅会过长,所以会以链接的形式呈现,具体内容在另外的博文中介绍。核心是sklearn库…
机器学习样本标记 示意代码
目标:根据各个字段数据的分布(例如srcIP和dstIP的top 10)以及其他特征来进行样本标注,最终将几类样本分别标注在black/white/ddos/mddos/cdn/unknown几类。 效果示意: R…
最小二乘法小结
最小二乘法是用来做函数拟合或者求函数极值的方法。在机器学习,尤其是回归模型中,经常可以看到最小二乘法的身影,这里就对我对最小二乘法的认知做一个小结。 1.最小二乘法的原理与要解决的问题 最小二乘法是由勒让德在19世纪发现…
机器学习
机器学习错题集 1. Some of the problems below are best addressed using a supervised learning algorithm, a…
[转]为什么不读顶级会议论文?
看了版上很多贴子,发现很多版友都在问“热门研究方向”、“最新方法”等。有同学建议国内某教授的教材、或者CNKI、或者某些SCI期刊。每当看到这种问题,我都有点纳闷,为什么不去读顶级会议上的论文? 我无意否认以上文献的价值…
机器学习笔记——测试集和验证集的区别
在NG的ML课程中和西瓜书中都有提到:最佳的数据分类情况是把数据集分为三部分,分别为:训练集(train set),验证集(validation set)和测试集(t…
机器学习的 label 和 feature 的概念
摘录 reddit 链接上一段话The label is the name of some category. If you’re building a machine learning system to …
特征处理之多项式扩展
概述: “数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”。线性模型是在统计机器学习中常用的模型,我们假设解释变量和响应变量的关系是线性的。真实情况未必如此。如果想仿造一段曲线,那么首先应该保证曲线的起…
深度学习anchor的理解
摘抄与某乎 anchor 让网络学习到的是一种推断的能力。网络不会认为它拿到的这一小块 feature map 具有七十二变的能力,能同时从 9 种不同的 anchor 区域得到。拥有 anchor 的 r…
贝叶斯在机器学习中的应用(一)
 …