谷歌开源语言预处理模型库TensorFlow.Text

2024年1月23日 164次阅读来源: 清华阿罗

谷歌这两天推出了 TensorFlow.Text^[1]，一个使用 TensorFlow 预处理语言模型的库。另外Google Brain团队开发的开源机器学习框架已经被下载超过4100万次。

Tensorflow.Text可以使用 PIP 安装，并且具有利用标记来分解和分析文本(如单词、数字和标点符号)的能力。TensorFlow.Text可以识别空格、 unicode 字符和预先确定的单词片段序列，比如后缀或前缀，Google 称之为 wordpieces。 Wordpieces 通常用于像 BERT 这样的方法，这是 Google 去年秋天开源的一种语言模型的预训练技术。此外该库还提供了标签的规范化操作、 n-grams 和序列约束。

TensorFlow.Text的标记器使用 RaggedTensors，一种用于识别文本的新型张量。今年早些时候，Google 工程师 Mark Omernick 在 TensorFlow 开发峰会上首次详细介绍了TensorFlow对RaggedTensors 和的 Unicode 支持。

这个消息是在 TensorFlow 2.0测试版发布几天后发布的。谷歌开源框架的最新版本在三月份的 TensorFlow 开发峰会上发布。 Tensorflow 2.0使用了更少的 api，更深层次的 Keras 集成，以及对 Eager Execution ^[2]运行时的改进。TensorFlow.Text是谷歌在过去几个月推出的最新的库，用来帮助人们完成机器学习的特定任务。而Tensorflow Graphics ^[3]于上月发布，旨在为图形和3 d 模型带来更深入的学习。

谷歌今年早些时候表示，可能最受欢迎的应用是嵌入式设备上的 TensorFlow Lite，目前已有超过20亿台设备使用该应用。谷歌使用 TensorFlow Lite 来加强诸如 GBoard 上的语音检测和谷歌照片中的边缘检测。今年3月，谷歌推出了 TensorFlow 隐私保护和 TensorFlow Federated，后者是一种在设备上的机器学习方法，可以确保更好地保护用户隐私。

参考

    原文作者：清华阿罗
    原文地址: https://zhuanlan.zhihu.com/p/68781242
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。