0.实验环境 待切割CSV文件大小:1.5G(字段有中文有英文) 所介绍的两个软件的下载地址:CSVSplitter和CSVed打包下载地址 1.CSVSplitter 本次实验使用的就是这个神器,优势有两个: 可以转换…
分类:数据挖掘
特征值与特征向量的几何含义(转)
全文转自blog:http://blog.csdn.net/lfkupc/article/details/4561564 长时间以来一直不了解矩阵的特征值和特征向量到底有何意义(估计很多兄弟有同样感受)。知道它的数学公式…
机器学习探索之路1:机器学习相关工具介绍与安装
0.前置信息 欢迎大家关注我们学术团队的blog网站:http://www.ibigdata.wang/ 以下内容基本为本人血泪史整理而得以anaconda库为基础的一系列python机器学习必备环境,目的是为了少让后人…
Spark DataFrame小试牛刀
三月中旬,Spark发布了最新的1.3.0版本,其中最重要的变化,便是DataFrame这个API的推出。DataFrame让Spark具备了处理大规模结构化数据的能力,在比原有的RDD转化方式易用的前提下,计算性能更还…
为什么Spark将成为数据科学家的统一平台
翻译自:Why Apache Spark is a Crossover Hit for Data Scientists,有删减。 Spark是一个超有潜力的通用数据计算平台,无论是对统计科学家还是数据工程师。 数据科学是…
逻辑回归碎碎念
sigmoid函数 逻辑回归(Logistic-Regression)是数据挖掘领域的一种基本的回归和分类算法。很长的一段时间里我对逻辑回归的理解仅限于「有逻辑的回归」。直到有次面试一个实习生,跟他聊起正在做的热门电台排…
Java实现通过日语元音ae的发音曲线分类9个发音者
业务理解(Business Understanding) 该业务是分类问题。需要对9个人的日语元音ae的发音分析,然后根据分析确定9名发音者。ae.train文件是训练数据集,ae.test文件是用来测试训练效果的,si…
什么是好的推荐系统
我一直自诩是「菜刀流」的工程师,作为一个数据挖掘的门外汉,竟也操刀过三个推荐系统的项目了。这三个推荐系统,用户群不同,业务场景不同,连地域和文化也有些差别。所以近来总在琢磨,推荐系统的缘起千人千面,纷繁万变的细节当中,能…
LibShortText简要入门
LibShortText是一个开源的Python短文本(包括标题、短信、问题、句子等)分类工具包。它在LibLinear的基础上针对短文本进一步优化,主要特性有: – 支持多分类 – 直接输入文本…
解决weka数据挖掘打开csv文件报read 9,expected 1.read token[eol] ,line 3错误原因
这问题我查了很多资料,意思是csv中读到9个属性(特征/维度)值,但是只读到一个,第三行有问题。 然后还有各种讲解数据中格式空格符的问题之类的;其实按照设置@attribute的属性方法来讲根本没什么错误。根据方法改了许…
[读书笔记] MIT Optimization for Machine Learning/Chapter 2.4-2.6
终于可以直接输入公式了,希望sf越来越好。目前对公式的渲染速度有点慢,而且公式渲染也有问题 (Block) Coordinate Descent Alorithm 所谓的(B)CD,是指每一步迭代的时候,不是对所有的参数…
[读书笔记] MIT Optimization for Machine Learning/Chapter 2.2-2.3
$2.2 一般方法 次梯度方法 转化成普通的LP,SDP问题 这类general方法对1范数问题本身的结构没有挖掘,所以收敛速度较慢。 LP、SDP等方法过于追求优化精度,在机器学习领域其实不重要。重要的求一个合理的解,…