专栏名称: 亚马逊云科技
亚马逊AWS的公众号,第一时间获取关于AWS国内外服务的资讯。AWS中国(北京)区域由光环新网运营。
目录
相关文章推荐
读特新闻  ·  涉嫌性骚扰,徐克声明! ·  17 小时前  
读特新闻  ·  涉嫌性骚扰,徐克声明! ·  17 小时前  
洪观新闻  ·  28岁樊振东,传来喜讯 ·  3 天前  
洪观新闻  ·  28岁樊振东,传来喜讯 ·  3 天前  
现代快报  ·  28岁樊振东,传来喜讯 ·  3 天前  
现代快报  ·  28岁樊振东,传来喜讯 ·  3 天前  
51好读  ›  专栏  ›  亚马逊云科技

数据是生成式AI的“燃料”!

亚马逊云科技  · 公众号  ·  · 2024-10-12 11:14

正文


本文作者 Ishit Vachhrajani

亚马逊云科技全球企业战略总经理


数据是推动生成式AI发展的“燃料”。 大量数据以及云端 存储和处理这些海量数据的关键能力,推动了强大基础模型的快速崛起。 如果能对这些模型进行微调,或使用 检索增强生成(RAG) 根据业务需求对它们进行定制,就能整理好企业分散的数据并很好地利用起来。

数据和生成式AI的关系非常紧密。一方面, 生成式AI可以把数据数据能力变成有利的分析; 另一方面, 生成式AI也能够让企业发现数据的问题 ,比如数据孤岛、数据质量低。这就是亚马逊云科技在过去几年大力投资数据建设的原因之一。

以下三个例子将说明 使用人工智能技术推动数据发展的过程。 在企业选择人工智能用例时,或许会发现以下用例值得被列为优先事项。它们可能会迅速带来成效,并帮助企业从数据资产中挖掘价值。




源数据自动分析

简化繁琐工作流程


在任何数据项目中,最耗费资源的任务之一,仅仅是提取、转换和加载(ETL)那些将被用于分析的数据。这 一过程通常占据了60-70%的工作量,这一沉重的负担正是亚马逊云科技致力于实现Zero-ETL的原因。

生成式AI可以自动分析源数据和目标数据结构,并完成相对应的映射。 Amazon Q Developer可以使用自然语言构建数据集成管道。 这不仅减少了所需的时间和工作量,而且还有助于在不同的ETL过程中保持一致性,从而更容易进行持续支持和维护。

企业往往发现它们拥有结构化(如客户资料和销售订单)和非结构化(如社交媒体或客户反馈)数据,并且这些数据分散在各种数据源、格式、架构和数据类型中。 Amazon Glue中的Amazon Q Developer数据集成可以为20多种常见数据源生成ETL作业, 包括PostgreSQL、MySQL、Oracle、Amazon Redshift、Snowflake、Google BigQuery、DynamoDB、MongoDB和 OpenSearch。借助ETL和数据管道的生成式AI,数据工程师、分析师和科学家可以花更多时间解决业务问题并从数据中获得洞见,而不是耗费时间布置管道。这是如今大多数企业开始使用的生成式AI用例的原因。



数据可视化

更快的获取,更好的洞察


在组织内很难实现数据普惠化,数据分析师和数据科学家经常会被大型复杂的项目所拖累,限制了他们为每个人提供数据的日常可操作洞见的能力,并且不是每个人都具备严格和创造性地使用数据的技能。

借助生成式AI,企业可以使用对话式查询和自然语言与数据互动。 而不必等待专人生成报告和控制面板来 获取信息,从而减少获取价值 的时间。例如零售高管可以询问:“上一季度表现最好的产品类别是什么?”全球优质汽车和摩托车制造商 宝马集团的区域供应链专家一直在使用Amazon QuickSight中的生成式AI助手Amazon Q,快速响应来自高级利益相关者(如董事会成员)的供应链可视性请求。

数据有影响变革的力量,但这需要引人入胜的讲故事技巧。 生成式AI可以通过创建视觉吸引力强、让数据变得栩栩如生的文档和演示文稿,使处理数据变得简单,使用数据也变得方便。 它也可以 帮助组织内的人员更熟悉数据及数据背后的洞察,从而使数据对于更复杂的生成式AI应用程序而言更加有价值。



合成数据

高度模拟客户真实数据集


随着分析和生成式AI的日渐成熟,许多企业发现他们没有为新的预想用例准备所需的全部数据,而获取第三方数据的成本可能过高。在医疗保健和金 融服务等受监管行业,数据隐私和安全至关重要,并且很难 使用真实的客户数据。测试业务流程边缘案例所需的数据往往也是有限的。

企业可以 使用生成式AI生成的高保真合成数据用于测试、训练和创新。 它模仿真实数据集的统计属性和模式,同时保护隐私并消除敏感信息。企业还可以使用它来增强生成式AI模型训练所用的数据,应对数据稀缺或敏感的情况。高管可以使用合成数据进行情景规划,模拟各种业务情况,并测试降低和规避风险的策略。全球制药公司默沙东 使用合成数据和亚马逊云科技的服务来降低药品检查过程中的误判率。 他们利用生成对抗网络(深度学习模型将两个神经网络对抗以生成新的合成数据)和变分自动编码器(生成神经网络,将数据压缩为紧凑表示,然后重构数据,在此过程中学会生成新数据)等工具开发合成缺陷图像数据,将误判率降低了50%。

生成式AI生成的合成数据可以释放创新力,帮助创造出色的客户体验。Amazon One是一项快捷便利的服务,允许用户只使用手掌就能进行支付、出示会员卡、验证年龄或进入场所。亚马逊云科技需要大量手掌图像数据来训练系统,包括不同光照、手势姿势等情况的变化。该团队使用生成式AI生成的合成数据,甚至能训练系统检测出高度逼真的硅胶手掌复制品。目前, 客户已经使用Amazon One超过300万次,准确率达99.9999%。



从自动化繁琐的数据集成任务,到赋予业务用户对话分析能力,生成式AI可以释放数据的潜能,更快地获取价值,帮助团队实现之前难以企及的新想法并带来创新力。

数据是生成式AI的“燃料”,而更为重要的是,应该将生成式AI看作一种强大的新型工具,并将其融入到数据处理中。


点击 阅读原文 ,获取更多精彩内容!










请到「今天看啥」查看全文