影视剧字幕聊天语料库特点,把影视剧说话内容一句一句以回车换行罗列三千多万条中国话,相邻第二句很可能是第一句最好回答。一个问句有很多种回答,可以根据相关程度以及历史聊天记录所有回答排序,找到最优,是一个搜索排序过程。 lu…
分类:机器学习
浅谈我对机器学习和文本挖掘的新的理解
转眼间已经工作了一段时间了,回想起2014年初学机器学习时的付出、艰苦和努力,感觉都是值得的。从现在往前看,我是沿着“计算机->统计学->数据分析->数据挖掘->机器学习->文本挖掘”的路径…
图片格式转换:4通道转换为3通道;批量改图片为.jpg格式
1、原图片为png格式,RGBA(透明度)4通道,我们需要3通道的图片,进行批量转换,原图片位数为32位,转换完成的3通道为24位,下面为代码实现。 from PIL import Image import os imp…
离散数学-集合:1.集合的基本概念
1、集合的概念 我把往往会把一些具有某些相同属性事物归为一个整体,而一个整体就是一个集合(也称为全集)例如: 身高180以上的同学的集合 x^2 – 1 = 0的实数解的集合 26个英文字母的集合 通常使用大…
人工智能期末笔记
1. 绪论 四大流派 符号主义(知识图谱) 原理主要为物理符号系统(即符号操作系统)假设和有限合理性原理 用数理逻辑描述智能行为, 在计算机上实现了逻辑演绎系统。 举例,其有代表性的成果为启发式程序LT逻辑理论家,证明了…
机器学习公开课笔记(2):多元线性回归
多元线性回归 一元线性回归只有一个特征$x$,而多元线性回归可以有多个特征$x_1, x_2, \ldots, x_n$ 假设 (Hypothesis):$h_\theta(x)=\theta^Tx=\theta_0x_…
机器学习——随机森林,RandomForestClassifier参数含义详解
1.随机森林模型 1 clf = RandomForestClassifier(n_estimators=200, criterion='entropy', max_depth=4) 2 rf_clf = clf.fit…
[笔记]effective backprop
翻译自effective backprop, Yann LeCun stochastic vs batch learning stochastic learning的优势 通常比batch更快。因为在训练数据中,可能有很…
机器学习(八)—GBDT 与 XGBOOST
RF、GBDT和XGBoost都属于集成学习(Ensemble Learning),集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。 根据个体学习器的生成方式,目前的集…
机器学习自学之路-决策树 算法选择:三种算法优缺点比较(ID3、C4.5、CART)
ID3 D3算法十分简单,核心是根据“最大信息熵增益”原则选择划分当前数据集的最好特征,信息熵是信息论里面的概念,是信息的度量方式,不确定度越大或者说越混乱,熵就越大。在建立决策树的过程中,根据特征属性划分数据,使得原本…
学习笔记TF063:TensorFlow Debugger
TensorFlow Debugger(tfdbg),TensorFlow专用调试器。用断点、计算机图形化展现实时数据流,可视化运行TensorFlow图形内部结构、状态。有助训练推理调试模型错误。https://www…
常用知识表示方法
注:本文为《刘培奇:新一代专家系统开发技术及应用》读书笔记,相关版权属于原创作者。 知识表示方法是研究系统中知识的组织形式,强调表示和控制之间的关系,表示与推理及其他研究领域的知识。知识表示与问题的性质和推理控制策略…