SegmentFault 上很多作者都喜欢写一系列博客,但是并没有很好的归类,就做了一个标题相似度匹配出一系列的文章,相关原理都是 Google 的,这里稍微纪录一下自己从中学到的东西。 LD算法 之前也没做过自然语言处…
分类:自然语言处理
机器翻译模型Transformer代码详细解析
谷歌一个月前发了一篇论文Attention is all you need,文中提出了一种新的架构叫做Transformer,用以来实现机器翻译。它抛弃了传统用CNN或者RNN的定式,取得了很好的效果,激起了工业界和学术…
自然语言处理 --- L01
基本概念 自然语言理解, NLU, Understanding 形式化(标准化)的数学符号、模型, 模拟人的语言能力 计算语言学, Computational Linguistics 数学模型 自然语言处理, NLP 更…
学习笔记CB011:lucene搜索引擎库、IKAnalyzer中文切词工具、检索服务、查询索引、导流、word2vec
影视剧字幕聊天语料库特点,把影视剧说话内容一句一句以回车换行罗列三千多万条中国话,相邻第二句很可能是第一句最好回答。一个问句有很多种回答,可以根据相关程度以及历史聊天记录所有回答排序,找到最优,是一个搜索排序过程。 lu…
学习笔记CB009:人工神经网络模型、手写数字识别、多层卷积网络、词向量、word2vec
人工神经网络,借鉴生物神经网络工作原理数学模型。 由n个输入特征得出与输入特征几乎相同的n个结果,训练隐藏层得到意想不到信息。信息检索领域,模型训练合理排序模型,输入特征,文档质量、文档点击历史、文档前链数目、文档锚文本…
jieba分词学习笔记(三)
DAG(有向无环图) 有向无环图,directed acyclic graphs,简称DAG,是一种图的数据结构,其实很naive,就是没有环的有向图_(:з」∠)_ DAG在分词中的应用很广,无论是最大概率路径,还是后…
学习笔记CB007:分词、命名实体识别、词性标注、句法分析树
中文分词把文本切分成词语,还可以反过来,把该拼一起的词再拼到一起,找到命名实体。 概率图模型条件随机场适用观测值条件下决定随机变量有有限个取值情况。给定观察序列X,某个特定标记序列Y概率,指数函数 exp(∑λt+∑μs…
基于 Python 的简单自然语言处理实践
基于 Python 的简单自然语言处理实践 从属于笔者的 程序猿的数据科学与机器学习实战手册。 基于 Python 的简单自然语言处理 本文是对于基于 Python 进行简单自然语言处理任务的介绍,本文的所有代码放置在这…
Kafka集群环境配置
Kafka集群环境配置 1 环境准备 1.1 集群规划 Node02 Node03 Node04 zk zk zk kafka kafka kafka 1.2 jar包下载 安装包:kafka_2.11-0.8.2.1.…
条件随机场笔记(未完)
术语 POS(part of speech): 词性对于英文,一般有9大类:noun(名词), verb(动词), article(冠词), adjective(形容词), preposition(介词), pronou…
【手撕 - 自然语言处理】手撕 TextRank(01)大佬是怎么实现 Python 版的
作者:LogM 本文原载于 https://segmentfault.com/u/logm/articles ,不允许转载~ 1. 源码来源 TextRank4ZH 源码:https://github.com/letia…
学习笔记CB014:TensorFlow seq2seq模型步步进阶
神经网络。《Make Your Own Neural Network》,用非常通俗易懂描述讲解人工神经网络原理用代码实现,试验效果非常好。 循环神经网络和LSTM。Christopher Olah http://cola…