在自然语言处理中我们把文本数据变成向量数据,在向量数据中我们可以得到很多来自于文本数据当中的语言特性,这种方式叫做文本表示或文本特征构造。 文本特征的通用信息源 文本分类问题当中的对象 词:在英文文本处理当中面对的是单个…
分类:自然语言处理
自然语言处理(NLP)之从文本中提取时间
在我们的日常生活和工作中,从文本中提取时间是一项非常基础却重要的工作,因此,接下来将介绍如何从文本中有效地提取时间。 举个简单的例子,我们需要从下面的文本中提取时间: 6月28日,杭州市统计局权威公布《2019年5月…
python3.6 抓取网页文本并实现词频统计-自然语言处理小项目
前言 最近在学习python,看了廖雪峰的入门教程后,想做个小项目来练下手。于是在网上找了一段python 代码。该段代码能实现抓取网页文本,并进行词频分析的功能。 …
机器学习分类指标:精确率、准确率、召回率详解
混淆矩阵 在介绍具体的定义之前先了解一些混淆矩阵(confusion matrix): 一种 NxN 表格,用于总结分类模型的预测效果;即标签和模型预测的分类之间的关联。在混淆矩阵中,一个轴表示模型预测的标签,另一个轴表…
自然语言推理-文本蕴含识别简介
一 什么是文本蕴含识别 文本间的推理关系,又称为文本蕴含关系 (TextualEntailment),作为一种基本的文本间语义联系,广泛存在于自然语言文本中。简单的来说文本蕴含关系描述的是两个文本之间的推理关系,其中一个…
TensorFlow基础知识
1 综述 TensorFlow的编程系统中: 使用张量(tensor)来表示数据 使用图(graph)来表示计算任务。 图中的节点被称之为 op (operation 的缩写). 一个 op 获得 0 个或多个 Tens…
Kafka集群环境配置
Kafka集群环境配置 1 环境准备 1.1 集群规划 Node02 Node03 Node04 zk zk zk kafka kafka kafka 1.2 jar包下载 安装包:kafka_2.11-0.8.2.1.…
“达观杯”进行时 | 万字长文详解“智能文本抽取”算法进阶与应用
首先简单地介绍一下我们公司。达观数据是一家专注于做文本智能处理的科技公司,目前完成了B轮,融资超过2亿元,投资机构包括宽带、软银、真格等等。我们主要做的是利用自然语言处理、光学字符识别(OCR)、知识图谱等技术,为大型企…
达观数据CTO纪达麒:小标注数据量下自然语言处理实战经验
自然语言处理在文本信息抽取、自动审校、智能问答、情感分析等场景下都有非常多的实际应用需求,在人工智能领域里有极为广泛的应用场景。然而在实际工程应用中,最经常面临的挑战是我们往往很难有大量高质量的标注语料。 “巧妇难为无米…
【读书笔记】数学之美(上)
作者:LogM 本文原载于 https://segmentfault.com/u/logm/articles,不允许转载~ 文章中的数学公式若无法正确显示,请参见:正确显示数学公式的小技巧 本文为《数学之美》的读书笔记。…
技术沙龙 | 0.2秒计算680亿条路径,揭秘京东CV/NLP在智慧零售领域的探索与实践
人工智能发展至今,已经成为新一轮科技革命的核心动力。过去的 AI 技术驱动重在算法模型的比拼,如今则更依赖场景化的技术实践与应用落地。 京东作为全球最大零售商之一,涵盖线上、线下实体、虚拟等多元化交易场景。目前京东每日产…
【手撕 - 自然语言处理】手撕 TextRank(03)我自己实现的 C++ 版
作者:LogM 本文原载于 https://segmentfault.com/u/logm/articles ,不允许转载~ 1. 概述 TextRank 论文地址: https://www.aclweb.org/ant…