三大金融文本语料(工商,新闻,资讯) - NLP语料

FinancialDatasets

SmoothNLP 金融文本数据集(公开) | Public Financial Datasets for NLP Researches

数据一览

由于github存储有限, 如需全量数据集, 请联系: contact@smoothnlp.com

数据名称数据字段样本量总量下载链接
企业工商信息名称,公司名称,公司介绍,工商,地址,工商注册id,成立时间,法人代表,注册资金,统一信用代码,网址1万50万 – (上市及中小型企业)下载
金融讯息新闻title-新闻标题,content-新闻内容,pub_ts-发稿日期2万210万下载
专栏资讯title-新闻标题,content-新闻内容,pub_ts-发稿日期1万58万下载

推荐研究方向

  • Embedding (Word2Vec, Bert, 等)
  • 实体识别
  • 无监督聚类: 基于企业描述信息, 进行竞品聚类
  • 企业行业分类

数据展示

企业工商信息

《三大金融文本语料(工商,新闻,资讯) - NLP语料》

金融资讯新闻

《三大金融文本语料(工商,新闻,资讯) - NLP语料》

专栏资讯

《三大金融文本语料(工商,新闻,资讯) - NLP语料》

    原文作者:weixin_40473141
    原文地址: https://blog.csdn.net/weixin_40473141/article/details/90673105
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞