熟悉神经网络语言模型的主体结构并不足以建立性能较好的模型。建立成功的神经网络语言需要注重许多细节处理,如词典的构建、模型初始化、超参的选择等等,均涉及很多对模型性能有较大影响的细节。 &nbs…
分类:自然语言处理
聊天机器人发展及应用技术解析
本文介绍聊天机器人原理及实现傻瓜式聊天机器人。 1 聊天机器人简介 维基百科 聊天机器人(也称为聊天机器,聊天机器人,Bot,IM bot,交互代理或人工对话实体)是通过语音或文本进行对话的计算机程序或人工智能。 百度百…
【手撕 - 自然语言处理】手撕 FastText 源码(02)基于字母的 Ngram 实现
作者:LogM 本文原载于 https://segmentfault.com/u/logm/articles ,不允许转载~ 1. 源码来源 FastText 源码:https://github.com/facebook…
论文笔记 Personalizing Dialogue Agents: I have a dog, do you have pets too?
ABSTRACT 现有的chit-chat模型的缺点:缺乏特异性,没有一贯的性格,不吸引人。 这个工作通过在profile information上进行训练使得chit-chat more engaging。 收集数据训…
TensorFlow实现序列标注:用bi-LSTM+CRF和字符嵌入实现NER和POS
简介: 我记得我第一次听说深度学习在自然语言处理(NLP)领域的魔力。 我刚刚与一家年轻的法国创业公司Riminder开始了一个项目,这是我第一次听说字嵌入。 生活中有一些时刻,与新理论的接触似乎使其他一切无关紧要。 听…
利用python统计《十九大报告》中的关键词和词频
利用python统计《十九大报告》中的关键词、报告摘要和词频。引用snowNLP。得到的结果: 1、关键词: 前五个关键词为 [‘发展’, ‘人民’, ‘中国&…
算法/NLP/深度学习/机器学习面试笔记
算法/NLP/深度学习/机器学习面试笔记 GitHub 地址:https://github.com/imhuay/CS_Interview_Notes-Chinese 深度学习/机器学习面试问题整理,想法来源于这个仓库.…
基于keras的文本分类
1. 文本预处理 Step1 Tokenizer keras.preprocessing.text.Tokenizer(num_words=None, filters='!"#$%&()*+,-./:;<=…
BERT 论文 - 第一作者的 Reddit 解读说明翻译
最近被 Google 的 BERT (Bidirectional Encoder Representations from Transfoemers)模型给刷屏了。第一作者还在 Reddit 上进行了解答说明,具体可以戳…
ASR语音识别学习总结
1、理解:将语音转化成文字的过程,相当于人的耳朵 2、语音识别的过程:输入->编码->解码->输出 3、语音识别大体大体可以分成两种方式,即“传统”方式和“端到端”方式。两种方式的区别主要在于声学模型的…
关键词提取
关键词提取算法 有监督 无监督 有监督 通过分类的方式进行,通过构建一个较为丰富和完善的词表,然后判断每个文档与词表中每个词的匹配程度,以类似标签的方式,达到关键词的提取效果。 优缺点 能够获取到较高的精度 需要大批量的…
NLP进阶 CRF深入理解
介绍 说起概率无向图模型,一般会想到CRF(条件随机场)和ME(最大熵模型),此两种从不同的角度都可以拿来用于NLP方面的任务,序列标注任务比如词性识别,通常用到CRF,通常无向图判别模式可分…