专栏名称: 谷歌开发者
Google中国官方账号。汇集Android, Chrome, Angular等移动和网络开发技术、Google Play和AdMob等开发者成长、优化和变现平台。
目录
相关文章推荐
虎嗅APP  ·  腾讯生猛,米哈游“失神” ·  2 天前  
CEO品牌观察  ·  听小野主理人 讲述小野全球首店里的故事 ·  3 天前  
CEO品牌观察  ·  听小野主理人 讲述小野全球首店里的故事 ·  3 天前  
51好读  ›  专栏  ›  谷歌开发者

Google发布机器学习开源可视化工具Facets

谷歌开发者  · 公众号  · 科技媒体  · 2017-07-26 15:24

正文

文 / Google Big Picture 团队高级软件工程师 James Wexler


要通过机器学习 (ML) 模型取得最佳结果,您需要真正理解您的数据。然而,机器学习数据集可能包含数以亿计的数据点,每个数据点又都包含数百个(甚或数千个)特性,因此,直观地理解整个数据集几乎是不可能的。可视化工具有助于发现大型数据集的微妙之处并从中发现真知灼见。一张图片传达的信息胜过千言万语,而一个直观的可视化工具则更胜一筹。



在执行 PAIR 计划的过程中,我们发布了 Facets,一个用于帮助理解和分析机器学习数据集的开放源代码可视化工具。


可使用 Facets Overview 了解数据的每个具体特性,或使用 Facets Dive 探究个别观察的数据集。这些可视化选择允许您调试您的数据,这在机器学习中与调试您的模型一样重要。您可在 Jupyter notebooks 内部轻松使用它们,也可将其嵌入网页。除开放源代码外,我们还创建了一个 Facets 演示网站:

https://pair-code.github.io/facets


此网站允许任何人直接在浏览器中可视化他们自己的数据集,而不必安装或设置任何软件,甚至不需要数据离开您的计算机。



Facets Overview

Facets Overview 自动帮助用户快速理解其数据集特性的值分布。可在同一个可视化视图中比较多个数据集(如训练集和测试集)。妨碍机器学习的常见数据问题被推到前端,例如,异常的特性值、缺失值比例很高的特性、分布不均的特性,以及数据集之间偏态分布的特性。


Facets Overview 以可视化方式显示 UCI 人口普查数据集的六个数字特性。这些特性按照不均匀性排序,分布最不均匀的特性位于顶部。红色的数字表示可能的故障点,在这种情况下,将带有高比例值的数字特性设为 0。右侧的柱状图允许您比较训练数据(蓝色)和测试数据(橙色)之间的分布。


Facets Overview 以可视化方式显示 UCI 人口普查数据集九个分类特性中的两个特性。这些特性按分布间距排序,训练数据集(蓝色)和测试数据集(橙色)之间偏态最显著的特性位于顶部。请注意,在“Target”特性中,由于测试数据集中的值末尾带有句点(“<=50K”与“<=50K.”),训练数据集与测试数据集的标签值存在差异。这个差异可在特性图表中以及表格的“首列”条目中看到。这种标签不匹配性将导致针对该数据进行训练和测试的模型无法得到正确评估。



Facets Dive

Facets Dive 提供了一个易于自定义的直观界面,用于探索数据集中不同特性数据点之间的关系。借助 Facets Dive,您可以根据每个数据点的特性值来控制数据点的位置、颜色和视觉表征。如果数据点具有与其关联的图像,则可使用图像作为视觉表征。







请到「今天看啥」查看全文