Tableau中国官方微信。分享商业智能(BI)行业趋势、大数据可视化分析前沿技术、Tableau最新动态、成功案例及市场活动等资讯。Tableau Software(纽交所代码:DATA)致力于帮助大家认识和理解数据。 |
本白皮书面向 IT 专业人员和 IT 决策者,帮助他们更深刻理解大规模自助式数据准备的注意事项,以及 Tableau Prep Conductor 如何帮助管理受管控的数据准备环境。本白皮书假定读者对以下 Tableau 产品有一定了解:Tableau Prep Builder、Tableau Server、Tableau Online 和 Tableau Desktop。
1
简介:为什么要普及数据准备?
不断变化的环境中的自助式数据准备的难题
如今,自助式分析和数据驱动型决策是全球范围内领先的组织的常态。数据准备曾经是 IT 部门的职能。只有少数人可 以实施数据准备,将新数据源引入组织的集中式数据仓库。但环境已经发生了变化:组织收集的数据量和类型激增; 数据并非总是集中化,数据通常通过各渠道流动(在这种情况下,用例将决定其引入、存储、转换和分布);越来越 多的受众可以越来越轻松地利用分析平台制定明智的决策。
通常,IT 部门以外的团队和个人(或无法访问正式数据准备流程的人员)必须等待其他团队准备其数据,或者尝试解决 自己的数据问题。这通常意味着用户从系统提取数据,并以电子表格形式准备数据。这样生成的是重新架构的数据集,只能用于一种用途。这不仅会导致大量数据孤岛,而且各部门经常在毫不知情的情况下进行重复工作。这些独立的解决方案效率低下、无法扩展或管控。
随着自助式分析成为数据驱动型组织的新趋势,为确保有效使用数据,许多人将利用可用的工具和功能尽其所能做好 准备(例如剪切和粘贴或编写大量对服务器而言并非最佳的计算)。甚至连分析师也报告说,实际上,他们的主要工作不是分析,而是按照 ETL(提取、转换和加载)流程,使用自助式数据准备工具,甚至是 Excel 等电子表格工具来清理和重整数据。
像专家那样实施数据准备:了解各种各样的数据准备需求
人为错误、不同的系统和变化的业务需求等因素可能导致数据混乱,但数据准备通常不仅仅需要简单的清理步骤。用户可能需要调整数据的粒度,或通过转换实现一致性,然后将其与其他数据进行并集或联接。这意味着用于分析的数据通常与原始数据源有着很大差异。清理、整理和扩充数据可能涉及以下步骤以及其他步骤:
数据透视
— 将字段从列切换为行或从行切换为列。
联接 — 向数据源添加更多字段,从而扩展可分析的字段数量。
并集 — 将两个数据集附加在一起,保留相同的表结构,但添加更多的行。
筛选或移除 — 排除值或字段,用于分析。
分配数据角色 — 验证表示电子邮件、URL 或地理数据的字段。
编辑值 — 手动更改值,或使用快速清理操作更改文本大小写,移除字母、数字、标点符号、空格等。
分组和替换 — 清理可能因发音、常用字符或拼写而异的值。
拆分值 — 将一个字段中的信息单元拆分为多个字段
创建计算字段 — 通过使用其他值计算创建用于分析的字段。
聚合数据 — 从多个值返回一个值,例如总和、平均值、计数或最小值。
点击
《混乱数据正在拖累您:常见数据准备问题的 4 种解决方案》
,详细
了解混乱数据和如何解决常见数据准备难题。
为什么要普及数据准备
越来越多的人协作处理数据,打破组织中的数据孤岛,发现具有影响力的新见解。与此同时,我们发现许多数据就其收集状态而言,并不能立即用于分析或不适用于分析。在许多情况下(例如事务性数据或高速流式传输数据),实现高效捕获的最佳数据状态与实现有效分析的最佳数据状态之间存在巨大差距。无论是因为结构、格式,还是缺乏业务上下文,都需要进行清理,有时还需要进行整理,例如在分析前需要业务规则或索赔类型的医疗保健数据。
许多组织正在采用自助式数据准备解决方案来探索和原型制作新数据源和分析用例。自助式数据准备工具不仅使最了解数据的人员能够自行准备数据,同时也减轻了 IT 在这方面的工作负担。但自助式数据准备仍然是一项全新的技能组合,有待进一步开发和推广,以便用户能够有效地理解和使用准备功能,确立可重复的流程并将其自动化以提高效率,并最终建立对数据的信任和信心,实现更广泛地数据使用。
准备工作是否有价值?根据最近的数据准备研究,数据准备有许多远超公司预期的好处,即: 获得对组织中相关数据的单一、完整视图;减少分析孤岛;改进数据驱动型决策。
复制链接至浏览器,获得免费的 BARC 报告“数据准备 — 通过优化原始数据获得价值”(此语言为英文,请酌情查看):
https://www.tableau.com/zh-cn/node/76022
Tableau Prep Conductor 简介
Tableau 曾为可视化分析提供助力,现在也将为数据准备提供支持。借助 2018 年春季发布的 Tableau Prep Builder,通过可视化的智能型直接数据准备,能够更轻松地访问数据。分析师和业务用户可以准备自己的数据用于分析,这些数据与 Tableau Desktop 完全集成,确保用户处于其分析流中。现在,借助 Tableau Prep Conductor,我们正在扩展 Tableau 平台的数据准备功能,以便您能自动执行数据准备流,而无需在数据发生更改时手动更新,并且使您准备好的数据可以更容易地被组织发现。
借助 Tableau Prep Conductor,您可对流进行计划,使其在可扩展且可靠的集中式服务器环境中运行,确保数据始终保持最新状态。借助它,管理员还可以了解整个组织内的自助式数据准备情况。通过 Tableau Prep Conductor,您可以使用 Tableau 服务器环境管理、监视和保护流程。
Tableau Prep Conductor 与 Tableau Server 和 Tableau Online 集成,利用现有的计划、跟踪和安全性功能。和数据提取刷新一样,计划流任务和按需流运行作为后台任务排队。现在,将流从 Tableau Prep Builder 无缝发布到 Tableau Server 或 Tableau Online,采用的功能与使用 Tableau Desktop 发布数据源和工作簿类似。
自动保持数据最新状态
将流计划为在需要时运行。自动执行运行流的任务,创建可重复的流程,从而实现准备数据交付的一致性。
通过通知和运行历史记录了解相关情况
查看流的运行历史记录的历史视图,包括立即了解运行是成功还是失败。通过现成的通知(如果流失败),跟踪准备流的质量。
创建受管控的准备环境
构建有关数据共享和刷新的规则和权限。利用 Tableau Server 或 Tableau Online 的现有权限和基础结构,控制谁可以发布、查看和运行流。
提高数据可发现性
使用简单的管理功能(包括关键字标记、在项目间移动流以及设置用户权限)帮助组织中的用户查找已准备好的相关数据。
图 1 使用 Tableau Prep Conductor 查看发布到 Tableau Server 的数据准备流。
2
就您组织中的数据准备进行思考
要掌握您的数据的完整上下文,重要的一点是,不仅要了解谁正在使用数据,而且要了解数据是由谁准备的、数据从何而来、在何处提供数据以供分析,以及最终用户将如何通过数据受益。这种了解是可扩展的自助式数据准备的基础。
谁实施数据准备?谁应该实施数据准备?
在许多组织中,分析师经常为其他角色准备数据供其使用,这与他们准备用于自己分析的数据的频率相同。高级数据准备工具可能会很复杂,这意味着这种功能通常仅限于部分高级用户。但即使分析师和业务用户无法访问数据准备工具,也不代表他们不能在其他应用程序中执行这些任务。
自助式商业智能工具为所有技能水平的用户开放了数据分析功能,但为了深入了解自己的数据,这些用户仍需依靠 IT 来获得结构完善的数据。当您思考大规模自助式数据准备时,可以考虑当前存在的角色,以及需要共享或添加哪些职责,这一点可能有所帮助。
数据管理员角色可以与较传统的角色(如数据库管理员)协作。如今,数据管理员的职责更加体现在确保组织内(向分析师、业务用户等对象)分发的数据是受信任的,以便用户可以从数据中获得价值。数据库管理员和数据工程师通常会优先考虑数据的存储和访问方式。还会添加数据库(而不是人员)专用的列。构建专用于分析的数据仓库时,工程师会优先考虑能够解答大多数问题的核心业务指标。如果数据分析师需要的信息尚未存在于数据集中,他们可能需要调整聚合或引入外部源,这可能会导致数据错误或数据孤岛。
当您扩展自助式数据准备时,请考虑谁应参与建立协商一致的管控做法并加以执行,谁将使用什么工具用于数据准备,需要什么培训,以及如何从组织角度衡量成功。
像专家那样实施数据准备:在组织中分配关键数据角色
人为错误、不同的系统和变化的业务需求等因素可能导致数据混乱,但数据准备通常不仅仅需要简单的清理步骤。用户可能需要调整数据的粒度,或通过转换实现一致性,然后将其与其他数据进行并集或联接。这意味着用于分析的数据通常与原始数据源有着很大差异。清理、整理和扩充数据可能涉及以下步骤以及其他步骤:
IT/商业智能专业人员角色
数据库管理员 (DBA) 负责管理、监视、维护和保护组织中的数据库。DBA 与数据工程师和数据管理员协作, 提供数据访问,并辅助与 Tableau 产品连接的数据源的建模、结构创建和优化。
系统管理员 在数据中心或云中安装、配置、管理和维护安装 Tableau Server 的硬件和操作系统,同时按照业务和技
术战略执行公司政策。
客户端管理员 配置客户端软件,包括安装数据库驱动程序和 Tableau 产品,并在 Tableau Server 或 Tableau Online 中启用 Tableau Prep Conductor。
Tableau 管理员角色
Server 管理员 可以完全访问 Tableau Server 设置、服务器上的所有站点、用户和组以及所有内容资产(例如项目、 数据源和工作簿)以监视和维护 Server 总体运行状况。
Tableau 站点管理员 创建和管理站点的用户和组,创建项目以组织站点上的内容,并分配权限以允许用户(组) 访问内容。他们还会提升和认证内容,衡量站点中的分析使用情况。
内容创建者角色
数据管理员 (具有 Tableau Creator 许可证)了解业务领域以及业务流程与分析的交互。数据管理员确保存在用于 数据访问和使用的已记录程序和指南,他们会与 DBA 和/或数据工程师合作,计划和执行公司范围内的数据治理和符合性政策。数据管理员可以发布准备流和/或数据源。
内容创作者 (具有 Tableau Creator 许可证)创建和发布仪表板、准备流和/或数据源。
数据来源于何处?现在数据位于何处?
当今,对于许多组织而言,了解数据准备的执行方式非常困难。如果没有标准的受管控的方法,临时准备工作和分析可能导致重复劳动、没有可重复流程的手动工作以及数据源的不一致。解决这些问题的一个关键因素是了解数据从何而来,清理数据后将在何处提供数据 - 本质上说是准备数据的人员和使用数据进行分析的人员之间的关联。
• 以何种方式保护数据?谁需要访问和整理数据的恰当权限?
• 什么用户可以访问原始数据源?什么用户可以访问清理后的数据?
• 用户是否需要合并的数据源(或外部数据)以探索问题的关键或进行更强大的分析?
• 如何将准备的数据源与他人共享以进行分析?
将数据导出至 CSV 或其他电子表格文件以进行清理和临时分析,这一做法很常见。但这可能会带来安全问题, 因为文件可能会以不安全方式共享。对于将 Tableau Server 或 Tableau Online 用作数据源和工作簿存储库的组织而言,Tableau Prep Conductor 会使用户轻松了解包含指向 Server 或 Online 的发布流的数据准备流程。这不仅能集中用户可查找和访问准备流的位置,而且能查看流的完整性,提供了解自助式数据准备的最佳做法的机会。
结果会对您的组织带来什么好处?
• 如何收集针对数据源和报告的要求?
• 需要提出或回答什么类型的问题?
• 访问数据的用户的战略性业务优先事项是什么?
• 对于提供已知问题的即时答案的需求,您是否进行平衡,并允许进一步探索?
• 存在哪些可确保数据流和已发布数据源质量的流程(例如,质量保证、认证)?
3
使用 Tableau Prep Conductor 管理数据准备混乱情况
要使自助式数据准备取得大规模成功,人员和技术应整合到受管控的框架下,该框架将 IT 部门控制与业务部门需要的灵活性和敏捷性进行平衡。IT 部门可以专注于通过自动化执行流以确保可实施性,并监视使用情况、性能和访问,确保数据准备实践以高效且有效的方式扩展。
如何实施数据准备流?
在某些情况下,例如针对小型简单的或已清理数据集的临时数据探索,Tableau Desktop 的基本数据准备功能(如数据透视或隐藏列)可能已经足够。但是,对于大型复杂数据集或馈送关键仪表板的流,数据源可能需要保持最新状态,以实现受信任的决策制定。您所需要的可能不仅限于 Tableau Server 的计划数据提取刷新,具体取决于用例。自动执行准备流运行会将必要的清理步骤应用于数据,并生成可用于分析的数据源,而无需更新数据提取。
如果您的组织中有人使用 Tableau Prep Builder 来清理数据,借助 Tableau Prep Conductor,您可以自动利用他们的工作成果。通过 Tableau Server 中的计划任务将流计划为在特定时间或定期运行,或者创建在 Tableau Online 中按预定义计划运行的流任务。可以在非工作时段重复运行流,无需每次通过人工发起,从而节省时间和开销。这也有助于用户利用稳定的 Server 环境,而不是依赖于自己的桌面资源运行流。
图 2 创建流任务,以按照固定计划定期运行准备流。
像专家那样实施数据准备:使用 REST API 自动执行
通过使用 REST API 的第三方系统生成工作流,以强大方式连接数据管道。发布、计划、下载和查询流;更新流连接;按需运行流和流任务;管理权限等。
复制链接至浏览器,详细了 解 Tableau Prep Conductor 的 REST API 功能(此语言为英文,请酌情查看):
https://onlinehelp.tableau.com/current/api/rest_api/en-us/REST/rest_api_ref_flow.htm
如何监视数据准备流?
监视是 IT 在数据准备实践扩展过程中可为组织提供强大助力的方面。性能和使用情况监视、自动化以及通知有助于确保组织的数据保持最新状态和安全性,因为数据通过高效流准备。
如今,借助 Tableau Prep Conductor,管理员可以使用与 Tableau Server 上提供的工具相同的工具监视流。这包括 Tableau Services Manager (TSM)、“状态”页面和现成可用的管理视图。这些视图集成到 Tableau Server 和 Tableau Online 中,有助于回答有关组织数据准备实践的重要问题。请注意:并非 Tableau Server 中的所有视图均在 Tableau Online 中提供,或与其相关。
• 流运行的性能 — 了解当前计划的是什么流任务、当前运行的是什么流任务、流任务的持续时间、什么流任务运行最频繁,以及哪些流是临时的、哪些流是计划的。
• 所有用户的操作,特定用户的操作,或最近用户的操作 — 如果您需要对服务器进行维护,并且希望了解用户对服务器的使用情况以及维护会对用户产生什么影响,那么后者可能非常有用。
• 空间使用情况统计数据 — 确定哪些流输出占用服务器上最多的磁盘空间。
• 后台任务延迟 — 使用此视图帮助确定通过优化任务和分配任务计划改进服务器性能的方面。
像专家那样实施数据准备:使用 Tableau Server 存储库生成自定义报告
除了预先构建的管理视图外,还可以使用 Tableau Desktop 对服务器活动进行查询和构建分析。为此,您可以连接 Tableau Server 存储库(一种 PostreSQL 数据库)并在其中查询视图。
复制链接至浏览器,详细了解如何使用 Windows:
https://onlinehelp.tableau.com/current/server/zh-cn/adminview_postgres.htm
或 Linux 为 Tableau Server 构建自定义视图:
https://onlinehelp.tableau.com/current/server-linux/zh-cn/adminview_postgres.htm
如何检测问题?
无论是连接问题,还是流中的错误,您需要了解阻碍您的数据准备流的问题并解决这些问题。为了尽可能降低使用陈旧数据的风险,Tableau Prep Conductor 不仅会告知您流运行时发生的任何问题,还会为您提供有关解决发生的错误的建议。
• 运行历史记录 — 用户可以查看流的历史刷新,立即了解成功或失败的运行。这有助于您了解所有流的质量,使您对数据的准确性更有信心。
• 通知 — 及时的通知将告知您流是否正确运行。如果流遇到错误,用户会收到电子邮件通知,Server 界面也会显示一条通知。借助通知中的链接,分析师和数据管理员可以快速采取措施并检查错误,根据建议的修复方法解决问题,然后恢复准备或分析。
• “状态”页面 — Tableau Server 的“状态”页面和 Tableau Services Manager 的“状态”页面包括 Tableau Server 进程,以及故障排除文档(用于进程未按预期运行的情况)的链接。如果将鼠标指针悬停在进程状态指示器上方,工具提示会显示节点名称和运行进程的端口。
图 3 收到失败的流运行的通知 - 在此处的电子邮件中显示,并在 Tableau Online 中显示。
数据准备工具应该既能够解决分析师的一次性问题,又能反复利用。
—— GORDON STRODEL
SLALOM 信息管理和分析顾问
如何利用访问控制并确保大规模数据安全?
监视和管控流的一个重要方面是确保恰当的用户可以访问数据准备流。IT 管理员使用 Tableau Server 或 Tableau Online 中合并的权限控制可以节省时间和精力。对于由 Tableau Prep Conductor 管理的准备流,您可以在发布流时设置权限 - 谁可以查看流、谁可以编辑流、谁可以运行流等。如果流连接到数据库,您可以指定身份验证类型,并设置访问数据的凭据。
图 4 使用简单、熟悉的界面管理和自定义流权限。
此外,管理视图提供可以查看特定用户或所有用户权限和操作的报告,您可以深入了解谁对每个流执行了什么操作。
4
发现数据的价值
如果组织能发现准备好的数据,了解其相关性并且信任这些数据,则可以从中获得更大的价值 - 特别是在数据实践扩展且面向更多用户提供更广泛数据的背景下。因此,自助式数据准备可以增加和提升自助式分析在受管控的环境(如 Tableau Server 或 Tableau Online)中的优势。
您的组织如何发现已准备的数据源?
Tableau Prep Conductor 的许多管理功能可以帮助用户在搜索、筛选和查找发布到 Tableau Server 或 Tableau Online 的流和数据源时更好地发现相关的可信数据。
添加标签 — 向流应用关键字可以帮助用户查找、筛选和分类内容 - 就像对工作簿执行的操作一样。可以将标签添加到单个流或一次性添加到多个流。
组织 — 在项目之间移动流,使相关数据源、工作簿和其他内容的流保持井井有条。默认情况下,流所有者可执行此操作,但其他人也可通过相应管理员授权获得“移动”权限。
生命周期管理 — 附加的管理功能有助于确保数据准备流具有相关性且有条理,包括在必要时保存、重命名和删除流的权限。管理员、流所有者和项目所有者还可以重新分配流的所有权。
Tableau Server 或 Tableau Online 中已有的搜索数据流的功能还有助于避免过多的重复数据准备操作。如果用户可以找到数据源,并且认为准备流适合其分析需求,则无需花时间重新创建准备步骤或运行流。或者,他们可以找到可以下载的现有流,对其进行修改,以满足类似用例 - 无需从头开始构建准备流。
您如何帮助组织了解其可用的数据?
数据素养是任何组织扩展自助式数据准备和分析的必要投资。在许多组织中,IT 和分析推动者协力打造卓越中心,其中包括资源和支持、一个内部用户群组以及旨在培养分析技能的培训和发展投资。您的组织应该基于利用 Tableau Prep Builder 和 Tableau Prep Conductor 等工具进行自助式数据准备的用户的类型和数量,对这些需求进行评估。
分析师和业务用户可以快速了解 Tableau 数据源的创建方式,从而信任您的数据。借助 Tableau Prep Conductor,任何用户都可以查看流创建的数据源的来源,并直接导航至数据源,了解其构建方式。在对数据有了基本认识并了解流步骤后,用户应该可以确定数据源是否对其有价值。
要启用 Creator 和 Explorer(Tableau 许可证类型,允许用户连接数据源并制作新内容或探索和自定义现有内容),IT 和数据管理员应建立一个流程,以认证利用始终一致运行的准备流的数据源。通过认证的数据源会告知组织数据是可信的,可直接用于分析。通过认证的数据源也会与搜索和筛选相结合,在 Tableau Server 或 Tableau Online 中具有较高的优先级。
可视化数据准备工作让人们能够看到完整的端到端流程,并在早期发现潜在的问题,例如数据中的拼写错误、多余的空格或不正确的联接子句。这也能增强人们对最终分析的信心。
—— JASON HARMER
NATIONWIDE INSURANCE 顾问
5
考虑大规模管控
每个组织都有特定的需求,而“一刀切”式的数据准备方法并不存在。但是在选择自助式数据准备工具时,组织应考虑该工具能否将流程改进为迭代式的敏捷方式,而不为录入工作带来新的障碍。如果能看到数据准备步骤的影响,人们就会更愿意去准备和了解数据。
恰当的协作和管控是关键 - 员工可能会尝试解决自己的数据问题,但 IT 在解决组织数据问题方面发挥着至关重要的作用。管控做法将帮助恰当的人员访问恰当的数据,确保驱动用户决策的数据是正确的,并维护内部政策或外部法规的符合性。
管控方面的转变不是让 IT 放弃控制,而是使公司在受信任的集中式环境中具有更高的自主性。分析师和业务用户成为在 IT 和业务部门达成一致的管控模式下识别数据问题或违规行为的第一道防线。
就如自助式分析的模式转换一样,要鼓励业务部门参与管控以普及数据准备,这会产生许多难题,其中包括流程和技术变更管理、要减轻的安全风险以及用户的技能差距。但重要的一点是,借助部署的迭代式敏捷方式和管控的协作方法,向更多人普及数据准备的好处将超过预期。
采用 Tableau Prep 之前,我们的团队需要花费大量时间来确保数据源整洁有序,而这只是为了确保我们的分析准确、高效。Tableau Prep 彻底改变了我们查看数据的方式,通过大幅缩短从收集数据到得出可行见解的时间,为我们节省了大量工时。
—— GESSICA BRIGGS-SULLIVAN
CHARLES SCHWAB, INC. 的 TABLEAU 管理员
借助 Tableau Prep Conductor,您可对流进行计划,使其在可扩展且可靠的集中式服务器环境中运行,确保数据始终保持最新状态。想要了解更多 Tableau Prep Conductor 内容,报名参加明天的网络讲座吧:
课程提醒
厌倦了关于脏数据无休止的讨论吗?
生成、捕获和存储数据时,数据可能会采用各种令人眼花缭乱的结构,但对于分析而言,并非所有数据格式都是有效的。数据准备过程的速度和效率直接影响发现见解所花费的时间。了解要分析的数据范围、看到对数据的更改,可以加快整个流程。
时间:
2 月 28 日 周四 14:00 – 15:00
学习内容:
我们面对的脏数据挑战;
通过 Tableau Prep 整理数据;
按计划刷新数据,确保时时都能拥有干净数据。
报名方式:
点击下方
“阅读原文”
,或在活动列表中,找到活动相应名称即可进行报名。独乐乐不如众乐乐,也欢迎您转发至其他感兴趣的朋友或同事。
温馨提示: 提交报名后,活动确认函会以邮件的形式发送至您的邮箱,如果您的邮箱发生变动,请在微信后台中给我们留言,我们会以新邮箱为准。
白皮书下载
进入【Tableau社区】微信后台,点击菜单栏【学习】,选择【白皮书】中的【 管理您的组织中的数据准备混乱情况 】,即可下载本期白皮书。
欢迎留言
如果小伙伴们对于 Tableau 产品有其他问题或需求,欢迎给我们留言~~
Tableau 中国官方微信定期为您推送最新行业趋势、热点资讯、精彩活动等信息。 立即订阅,官方信息一手掌控,更多精彩,更多新鲜,敬请期待!
|
房地产经理人联盟 · 万科BIM精细化施工图设计深度标准! 7 年前 |
|
英国大家谈 · 湖区申遗成功,英国31处世界遗产厉害在哪? 7 年前 |
|
城市画报 · 所以,江南皮革厂到底倒闭了没? 7 年前 |
|
学术中国 · 数据告诉你:高校教师有多努力? 7 年前 |