分类：机器学习

学习笔记CB011:lucene搜索引擎库、IKAnalyzer中文切词工具、检索服务、查询索引、导流、word2vec

影视剧字幕聊天语料库特点，把影视剧说话内容一句一句以回车换行罗列三千多万条中国话，相邻第二句很可能是第一句最好回答。一个问句有很多种回答，可以根据相关程度以及历史聊天记录所有回答排序，找到最优，是一个搜索排序过程。 lu…

转眼间已经工作了一段时间了，回想起2014年初学机器学习时的付出、艰苦和努力，感觉都是值得的。从现在往前看，我是沿着“计算机->统计学->数据分析->数据挖掘->机器学习->文本挖掘”的路径…

1、原图片为png格式，RGBA（透明度）4通道，我们需要3通道的图片，进行批量转换，原图片位数为32位，转换完成的3通道为24位，下面为代码实现。 from PIL import Image import os imp…

1、集合的概念我把往往会把一些具有某些相同属性事物归为一个整体，而一个整体就是一个集合(也称为全集）例如：身高180以上的同学的集合 x^2 – 1 = 0的实数解的集合 26个英文字母的集合通常使用大…

1. 绪论四大流派符号主义(知识图谱) 原理主要为物理符号系统(即符号操作系统)假设和有限合理性原理用数理逻辑描述智能行为, 在计算机上实现了逻辑演绎系统。举例，其有代表性的成果为启发式程序LT逻辑理论家，证明了…

多元线性回归一元线性回归只有一个特征$x$，而多元线性回归可以有多个特征$x_1, x_2, \ldots, x_n$ 假设 (Hypothesis)：$h_\theta(x)=\theta^Tx=\theta_0x_…

1.随机森林模型 1 clf = RandomForestClassifier(n_estimators=200, criterion='entropy', max_depth=4) 2 rf_clf = clf.fit…

翻译自effective backprop, Yann LeCun stochastic vs batch learning stochastic learning的优势通常比batch更快。因为在训练数据中，可能有很…

　　RF、GBDT和XGBoost都属于集成学习（Ensemble Learning），集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。　　根据个体学习器的生成方式，目前的集…

ID3 D3算法十分简单，核心是根据“最大信息熵增益”原则选择划分当前数据集的最好特征，信息熵是信息论里面的概念，是信息的度量方式，不确定度越大或者说越混乱，熵就越大。在建立决策树的过程中，根据特征属性划分数据，使得原本…

TensorFlow Debugger(tfdbg)，TensorFlow专用调试器。用断点、计算机图形化展现实时数据流，可视化运行TensorFlow图形内部结构、状态。有助训练推理调试模型错误。https://www…

注：本文为《刘培奇：新一代专家系统开发技术及应用》读书笔记，相关版权属于原创作者。　　知识表示方法是研究系统中知识的组织形式，强调表示和控制之间的关系，表示与推理及其他研究领域的知识。知识表示与问题的性质和推理控制策略…