10分快三倍投谷歌发布全新TensorFlow库“tf.Transform” 简化机器学习数据预处理过程 | 雷锋网

  • 时间:
  • 浏览:0
  • 来源:彩神网快3网站-彩神app官方

在实际的机器学习10分快三倍投开10分快三倍投发中,开发者通常时要对数据集进行絮状的耗时费力的预防止过程,以适应各种不同标准的机器学习模型(类10分快三倍投式神经网络)。哪此预防止过程根据待解问题的不同和原始数据的组织形式而各不相同,包括不同格式之间的转换,分词、词干提取和形成词汇,以及包括归一化在内的各种数值操作等等。实际上,数据的预防止原因分析分析着成为了机器学习开发中无法回避的有4个 问题。

针对三种问题,谷歌于 22 日通过开发者博客正式发布了有4个 基于 TensorFlow 的全新功能组件 —— tf.Transform。它允许用户在大规模数据防止框架中定义预防止流水线(preprocessing pipelines),同去用户还里能 将哪此流水线导出,并将10分快三倍投其作为 TensorFlow 计算图(TensorFlow graph)的一每种。用户里能 通过组合 Python 函数来定义该流水线,或者在 Apache Beam 框架下通过 tf.Transform 执行。(注:Apache Beam 是有4个 用于大规模的、高效的、分布式的数据防止的开源框架)目前,基于 Apache Beam 框架的流水线里能 在 Google Cloud Dataflow 平台上运行,并计划在未来支持更多的平台(原因分析分析着包括 Apache Apex,Apache Flink 和 Apache Spark 等)。值得一提的是,通过 tf.Transform 导出的 TensorFlow 计算图还里能 在模型预测阶段将三种数据预防止步骤复用(类式,通过 Tensorflow Serving 提供模型时)。

当时人面,开发者最终在产品形态学 运行机器学习模型时通常时要遇到“训练服务偏差”(training-serving skew),即原因分析分析着服务中防止的数据与模型训练中使用的数据地处一定的差异,从而造成的预测质量下降。

面对三种问题,此次新发布的 tf.Transform 组件还能保证预防止过程的零偏差,即保证服务中的数据预防止和训练中的数据预防止执行全版相同的操作,很重是当模型训练和服务运行在不同的框架时,类式训练在 TensorFlow,服务在 Apache Beam 的情況。

除了便于数据的预防止之外,tf.Transform 还允许用户计算其数据集的统计概要(summary statistics)。对于每个机器学习项目的开发者而言,深刻理解其数据都非常重要,原因分析分析着任何对底层数据做出的错误假设都原因分析分析着会产生或者 微妙的错误。通过更简单和高效地计算数据的统计概要,tf.Transform 里能 帮助开发者更好地检查当当.我 关于原始数据和预防止数据的假设。

最后,谷歌在博客中表示,对于 tf.Transform 的发布当当.我 感到非常激动,当当.我 真诚地希望 tf.Transform 里能 帮助 TensorFlow 开发者们更方便地预防止数据,以及更好地理解哪此数据。

开源地址:https://github.com/tensorflow/transform

来源:googleblog,雷锋网编译

雷锋网(公众号:雷锋网)相关阅读:

百度将 HPC 技术引入强度学习;卡巴斯基操作系统;AMD Ryzen 预售等 | AI 开发者头条

以静制动的TensorFlow Fold

TensorFlow 1.0 正式发布 你时要知道的全版时要这里

雷锋网版权文章,未经授权禁止转载。

雷锋网版权文章,未经授权禁止转载。详情见转载须知。