上一篇文章《爬取11088个知乎专栏,打破发现壁垒》里提到,知乎官方没有搜素专栏的功能,于是我通过爬取几十万用户个人主页所关注的专栏从而获取到11088个知乎专栏。 本回筛选出其中涉及:编程、python、爬虫、数据分析…
分类:NLP
详解谷歌最强NLP模型BERT(理论+实战)
作者:李理,环信人工智能研发中心vp,十多年自然语言处理和人工智能研发经验。主持研发过多款智能硬件的问答和对话系统,负责环信中文语义分析开放平台和环信智能机器人的设计与研发。 本文是作者正在编写的《深度学习理论与实战》的…
NLP 英文词性标注
一、环境配置 1.下载官网的NLP相关包 将下载下来的stanford-corenlp-full-2018-02-27解压并将下载英文的jar文件 stanford-english-corenlp-2018-02-27-…
自然语言处理系列篇——关键词智能提取
一.关键词自动标注简介 1.关键词自动标注 关键词是指能反映文本主题或者意思的词语,如论文中的Keyword字段。大多数人写文章的时候,不会像写论文的那样明确的指出文章的关键词是什么,关键词自动标注任务正是在这种背景下产…
NLP-Python相关Error #polyglot#pyicu#pycld2#pyenchant
NLP-Python3 相关 Error 总结,(因为标题有字数限制,但为了检索方便就有了如上标题。) 背景:最近在学习基于Python3.6(Anaconda)的NLP,在词干提取过程中需要用到的Python包有 py…
朋友,千万不能错过!13个自然语言处理的深度学习框架
本文主要介绍一些基于Python,用于自然语言处理( NLP )的常用的神经网络框架和库。原文链接:https://medium.com/@datamonsters/13-deep-learning-frameworks…
NLP应用之智能会话机器人(BOT)技术综述
导读 这几年BOT的应用越来越普遍,前阵子打移动和平安的客服电话,已经能支持语音对话。李飞飞教授在Google Cloud Next 18上发布了Contract Center AI,根据现场的视频演示,在接到 eBay…
[论文笔记]ELMo
Deep contextualized word representations 1. Introduction 什么是一个好的词向量 能够反映出语义和语法的复杂特征. 能够准确的对不同上下文进行反应. deep con…
NLP中的文本表示方法
先回顾下数据挖掘和计算机视觉任务。数据挖掘中给定n个样本,每个样本有m个特征,这样组成了n×m的样本矩阵,然后丢给计算机中建好的模型进行回归或分类任务。计算机视觉中我们把图片的像素看作特征,每张图片看作hight×wid…
深度学习中的互信息:无监督提取特征
作者丨苏剑林 单位丨广州火焰信息科技有限公司 研究方向丨NLP,神经网络 个人主页丨kexue.fm 对于 NLP 来说,互信息是一个非常重要的指标,它衡量了两个东西的本质相关性。笔者曾多次讨论过互信息,本人也对各种利用…
GitHub出现一个大型中文NLP资源,宣称要放出亿级语料库
乾明 发自 凹非寺 量子位 报道 | 公众号 QbitAI 中文信息很多,但要找到合适的中文语料很难。 有人看不下去了,在GitHub上开了一个项目,专门贡献中文语料资源。 他说,要为解决中文语料难找贡献一份力量。 什么…
不只有BERT!盘点2018年NLP令人激动的10大想法
作者 Sebastian Ruder 乾明 编译整理 量子位 出品 | 公众号 QbitAI 2018年,NLP领域的大年。 最瞩目的莫过于BERT,横扫多种不同的NLP测试,被誉为NLP新时代的开端。 但2018年,不…