分类：数据挖掘

大数据项目1之大CSV文件切割

0.实验环境待切割CSV文件大小：1.5G（字段有中文有英文）所介绍的两个软件的下载地址：CSVSplitter和CSVed打包下载地址 1.CSVSplitter 本次实验使用的就是这个神器，优势有两个：可以转换…

全文转自blog：http://blog.csdn.net/lfkupc/article/details/4561564 长时间以来一直不了解矩阵的特征值和特征向量到底有何意义（估计很多兄弟有同样感受）。知道它的数学公式…

0.前置信息欢迎大家关注我们学术团队的blog网站：http://www.ibigdata.wang/ 以下内容基本为本人血泪史整理而得以anaconda库为基础的一系列python机器学习必备环境，目的是为了少让后人…

三月中旬，Spark发布了最新的1.3.0版本，其中最重要的变化，便是DataFrame这个API的推出。DataFrame让Spark具备了处理大规模结构化数据的能力，在比原有的RDD转化方式易用的前提下，计算性能更还…

翻译自：Why Apache Spark is a Crossover Hit for Data Scientists，有删减。 Spark是一个超有潜力的通用数据计算平台，无论是对统计科学家还是数据工程师。数据科学是…

sigmoid函数逻辑回归（Logistic-Regression）是数据挖掘领域的一种基本的回归和分类算法。很长的一段时间里我对逻辑回归的理解仅限于「有逻辑的回归」。直到有次面试一个实习生，跟他聊起正在做的热门电台排…

业务理解（Business Understanding）该业务是分类问题。需要对9个人的日语元音ae的发音分析，然后根据分析确定9名发音者。ae.train文件是训练数据集，ae.test文件是用来测试训练效果的，si…

我一直自诩是「菜刀流」的工程师，作为一个数据挖掘的门外汉，竟也操刀过三个推荐系统的项目了。这三个推荐系统，用户群不同，业务场景不同，连地域和文化也有些差别。所以近来总在琢磨，推荐系统的缘起千人千面，纷繁万变的细节当中，能…

LibShortText是一个开源的Python短文本（包括标题、短信、问题、句子等）分类工具包。它在LibLinear的基础上针对短文本进一步优化，主要特性有： – 支持多分类 – 直接输入文本…

这问题我查了很多资料，意思是csv中读到9个属性（特征/维度）值，但是只读到一个，第三行有问题。然后还有各种讲解数据中格式空格符的问题之类的；其实按照设置@attribute的属性方法来讲根本没什么错误。根据方法改了许…

终于可以直接输入公式了，希望sf越来越好。目前对公式的渲染速度有点慢，而且公式渲染也有问题 (Block) Coordinate Descent Alorithm 所谓的(B)CD，是指每一步迭代的时候，不是对所有的参数…

$2.2 一般方法次梯度方法转化成普通的LP，SDP问题这类general方法对1范数问题本身的结构没有挖掘，所以收敛速度较慢。 LP、SDP等方法过于追求优化精度，在机器学习领域其实不重要。重要的求一个合理的解，…