分类算法:C4.5 ,svm,knn,朴素贝页斯,cart
聚类算法:k-means,em
关联挖掘算法:apriori
其他:Adaboost用于综合多种分类算法
1,C4.5 一种决策树算法,用于分类
参见http://blog.csdn.net/aladdina/article/details/4141048
貌似之前找到一篇更详细的分析
2,k-means,聚类算法
http://blog.csdn.net/aladdina/article/details/4141089
3,svm 支持向量机 用于统计分类及回归分析,用于分类
http://blog.csdn.net/aladdina/article/details/4141094
4,Apriori算法 挖掘布尔关联规则频繁项集的算法
http://blog.csdn.net/aladdina/article/details/4141101
5,EM 最大期望算法 用于数据集聚
http://blog.csdn.net/aladdina/article/details/4141114
6,PageRank 计算网页排名,论文影响力等
http://blog.csdn.net/aladdina/article/details/4141120
7, Adaboost 迭代算法,将若干弱分类器综合为一个强分类器
http://blog.csdn.net/aladdina/article/details/4141124
8,kNN 用于分类或者回归
http://blog.csdn.net/aladdina/article/details/4141127
9,朴素贝页斯 用于分类
http://blog.csdn.net/aladdina/article/details/4141140
10,CART,用于分类
第一届大数据竞赛的相关题目概况:
题目一:关键词行业分析 ,为关键词标注所属类别(一共33种)百度题目
辅助信息为:关键词在百度搜索后的前10个标题 关键词和广告主的关系数据
上述三个数据文件的更多信息包括:
keyword_class.txt:关键词数据集。约1千万记录,其中100万包含标注信息。
keyword_titles.txt:关键词辅助信息数据集。关键词(query)和关键词检索的自然结果(title)信息。
keyword_users.txt:关键词与广告主关联关系数据集。关键词和广告主的购买关系,一个关键词可能被多个广告主购买,一个广告主可能购买了多个关键词。
题目二:移动网络寻呼黑洞分析(需要行业只是和数据库相关操作,暂不考虑)中国移动研究院出题
题目三:移动用户交往圈构建和特定类型用户识别(貌似依旧需要数据库支持) 中国移动研究院题目
15万已经标记,150万需要标记,识别是否为学生用户
可以扩展,利用图挖掘算法,可以进一步检测用户通话交往圈、短信交往圈
题目四:购买行为的归因分析 秒针系统出题
和广告相关,其中有些数据含义不甚了解
题目五,基于出租车GPS轨迹的位置服务(和推荐关系最大,数据量很大50G) 中科院出题
输入用户位置和当前事件,输出打到车的概率和等待时间,11年的数据来预测13年的路况,本身数据集是否有问题?而且出租车的状态各是指的什么?
分析,从行业背景角度:题目1和题目3的数据含义概念最清晰。题目2最生疏,题目4次之