谷歌这两天推出了 TensorFlow.Text[1],一个使用 TensorFlow 预处理语言模型的库。另外Google Brain团队开发的开源机器学习框架已经被下载超过4100万次。
Tensorflow.Text可以使用 PIP 安装,并且具有利用标记来分解和分析文本(如单词、数字和标点符号)的能力。TensorFlow.Text可以识别空格、 unicode 字符和预先确定的单词片段序列,比如后缀或前缀,Google 称之为 wordpieces。 Wordpieces 通常用于像 BERT 这样的方法,这是 Google 去年秋天开源的一种语言模型的预训练技术。此外该库还提供了标签的规范化操作、 n-grams 和序列约束。
TensorFlow.Text的标记器使用 RaggedTensors,一种用于识别文本的新型张量。 今年早些时候,Google 工程师 Mark Omernick 在 TensorFlow 开发峰会上首次详细介绍了TensorFlow对RaggedTensors 和的 Unicode 支持。
这个消息是在 TensorFlow 2.0测试版发布几天后发布的。 谷歌开源框架的最新版本在三月份的 TensorFlow 开发峰会上发布。 Tensorflow 2.0使用了更少的 api,更深层次的 Keras 集成,以及对 Eager Execution [2]运行时的改进。TensorFlow.Text是谷歌在过去几个月推出的最新的库,用来帮助人们完成机器学习的特定任务。而Tensorflow Graphics [3]于上月发布,旨在为图形和3 d 模型带来更深入的学习。
谷歌今年早些时候表示,可能最受欢迎的应用是嵌入式设备上的 TensorFlow Lite,目前已有超过20亿台设备使用该应用。 谷歌使用 TensorFlow Lite 来加强诸如 GBoard 上的语音检测和谷歌照片中的边缘检测。今年3月,谷歌推出了 TensorFlow 隐私保护和 TensorFlow Federated,后者是一种在设备上的机器学习方法,可以确保更好地保护用户隐私。