从2014年8月开始在博客园写博客,至今已经积累了82篇,集中在机器学习、NLP、数据结构与算法、大数据、编程语言等方面。在此做个总结,以后还会陆续更新……
1. 机器学习
【十大经典数据挖掘算法】系列:
2. NLP
中文分词
【中文分词】理论篇:
- 【中文分词】简单高效的MMSeg.
- 【中文分词】隐马尔可夫模型HMM.
- 【中文分词】二阶隐马尔可夫模型2-HMM.
- 【中文分词】最大熵马尔可夫模型MEMM.
- 【中文分词】条件随机场CRF.
- 【中文分词】结构化感知器SP.
【中文分词】实践篇:
- 开源中文分词工具探析(一):ICTCLAS (NLPIR)
- 开源中文分词工具探析(二):Jieba
- 开源中文分词工具探析(三):Ansj
- 开源中文分词工具探析(四):THULAC
- 开源中文分词工具探析(五):FNLP
- 开源中文分词工具探析(六):Stanford CoreNLP
3. 数据结构与算法
数据结构篇:
算法篇:
- 【模式匹配】KMP算法的来龙去脉.
- 【模式匹配】更快的Boyer-Moore算法.
- 【模式匹配】Aho-Corasick自动机.
- 【图论】深入理解Dijsktra算法.
- 【图论】求无向连通图的割点.
- 【图论】有向无环图的拓扑排序.
- 【动态规划】最长公共子序列与最长公共子串.
- 连续子数组最大和.
- 最长回文子串.
- Top K问题的两种解决思路.
信息论与编码篇:
【LeetCode题解】系列:
4. 大数据
SQL on Hadoop (Hive、Pig)系列:
OLAP (Kylin)系列:
- Kylin的cube模型.
- Apache Kylin 部署之不完全指南.
- 【Kylin实战】Hive复杂数据类型与视图.
- 【Kylin实战】邮件报表生成.
- 轻量级OLAP(一):Cube计算.
- 轻量级OLAP(二):Hive + Elasticsearch.
工作流调度系列:
5. 编程语言
Java
探究篇:
实战篇:
Python
实战篇: