我一直自诩是「菜刀流」的工程师,作为一个数据挖掘的门外汉,竟也操刀过三个推荐系统的项目了。这三个推荐系统,用户群不同,业务场景不同,连地域和文化也有些差别。所以近来总在琢磨,推荐系统的缘起千人千面,纷繁万变的细节当中,能…
分类:数据挖掘
好程序员大数据教程分享Scala系列之文件以及正则表达式
好程序员大数据教程分享Scala系列之文件以及正则表达式 1 读取行 导入scala.io.Source后,即可引用Source中的方法读取文件信息。 import scala.io.Source …
KGB知识图谱的功能和特色介绍
计算机的发展实现了万物互联,这种互联形式也使得数据积累达到了一定高度,这些数据均能作为数据分析的重要依据。知识图谱技术对这些数据的分析不仅局限于其数据本身,而且还包括对数据之间关系的探索,也就是说,涉及到数据关系的分析需…
如何优化基于Jupyter的分析/挖掘测试项目
对于一个有软件工程项目基础的程序员而言,我们这群来源「可疑」的Data Scientist最被人诟病的就是期代码质量堪忧到让人崩溃的程度。本篇文章将介绍自己在以python/Jupyter Notebook为基础的分析/…
Python遗传算法框架DEAP-Operators and Algorithms
Before starting with complex algorithms, we will see some basics of DEAP. First, we will start by creating sim…
网站搜索引擎优化值得关注的4个策略
在做网站搜索引擎优化的过程中,对于企业站而言,由于SEO人员都是处于执行层面,甚至即使你有权制定SEO优化方案,偶尔也是草草就上手操作。 当你运营到一定阶段的时候,你却发现:有很多网站搜索引擎优化的策略,可能前后是冲突的…
大数据项目1之大CSV文件切割
0.实验环境 待切割CSV文件大小:1.5G(字段有中文有英文) 所介绍的两个软件的下载地址:CSVSplitter和CSVed打包下载地址 1.CSVSplitter 本次实验使用的就是这个神器,优势有两个: 可以转换…
从安卓手机ROOT提取微信聊天记录到利用Python进行词云分析全过程
从安卓手机ROOT提取微信聊天记录到利用Python进行词云分析全过程 刚刚来到了2018年,正值女票生日将近。想想这一年来我俩的聊天记录也不少(导出后一看十个月的微信文字聊天记录将近8万条 ^-^),于是就有了将我们的…
ML-梯度下降代码-线性回归为例
梯度下降代码线性回归为例 bgd 批量梯度下降 sbd 随机梯度下降 mbfd 小批量随机梯度下降 import numpy as np import random def gen_line_data(sample_nu…
文本聚类
背景介绍 由于项目需要,需要对旅游游记文本进行聚类,为打标签做指导,所以调研了主流的短文本聚类方法,文本聚类主要还是分成两个方面。 1. 提取文本特征 在《数学之美》前几章中,详细讲了为何要将文本这个自然语言领域的事物,…
Coursera上Andrew Ng的机器学习课程评价
前言 该课程非常适合初学者,比原先Ng在斯坦福大学的公开课要简单许多,少去了许多数学,并且在课程内容安排上更加紧凑,涉及的内容广泛,旨在搭建初学者与机器学习的桥梁。值得一提的是,该课程较为接近工程的角度,故我建议有兴趣的…
Scala
大数据Scala系列之特质, 特质的定义除了使用关键字trait之外,与类定义无异。 特质用来在类之间进行接口或者属性的共享。类和对象都可以继承特质,特质不能被实例化,因此也没有参数。 一旦特质被定义了,就…