专栏名称: SegmentFault思否

SegmentFault （www.sf.gg）开发者社区，是中国年轻开发者喜爱的极客社区，我们为开发者提供最纯粹的技术交流和分享平台。

CommunityOverCode Asia 2024 专题介绍之 AI

SegmentFault思否 · 公众号 · · 2024-07-05 12:00

正文

请到「今天看啥」查看全文

本次 CommunityOverCode Asia 2024 的 AI 专题，将给大家带来 Apache 社区建设和发展的最新资讯和前沿实践，现在就一起来看看吧！

专题介绍

CommunityOverCode Asia 2024

机器学习（ML）是对计算机算法的研究，它可以通过经验和数据的使用来自动改进。机器学习算法基于样本数据（称为训练数据）建立模型，以便在没有明确编程的情况下进行预测或决策。它在工业中有着广泛的应用场景，并发挥着越来越重要的作用。

适合本分论坛的三类 Topic 如下：

聚焦于机器学习的框架和基础库项目，包括 Mxnet，TVM，Mahout，singa，SystemML 等
基于传统 Apache 大数据存储和计算项目在机器学习场景下做特定的优化的，例如 Spark Mlib，FLink ML 等
基于 Apache 项目实现工业场景下的机器学习平台（例如 Airflow + Kafka + Cassandra + Spark 等）

出品人

CommunityOverCode Asia 2024

谭中意

CommunityOverCode Asia 2024

Apache 软件基金会成员，Apache brpc PMC member，资深开源专家。

堵俊平

CommunityOverCode Asia 2024

Datastrato 创始人兼首席执行官，前 LF AI & DATA 主席，Apache 软件基金会成员，Apache Hadoop、YuniKorn、Ozone 等多个项目的 Committer 和项目管理委员会成员，同时也是多个 ASF 项目的导师。

王臣汉

CommunityOverCode Asia 2024

OpenBayes 贝式计算创始人兼 CEO，曾就职于华特迪⼠尼互动媒体集团、AVOS Systems 等世界知名企业，中⽂语义理解基准 CLUE 基⾦会秘书⻓、天津⼤学⻉式计算联合研究中心副主任。

议程亮点

CommunityOverCode Asia 2024

7 月 28 日 14:00 - 17:15

演讲议题： LLM 时代数据基础设施的演进

分享时间： 7 月 28 日 14:00 - 14:30

议题介绍：

由 LLM（大型语言模型）驱动的数据可以使应用程序更高效、准确和个性化，人工智能已被广泛应用于自然语言处理、推荐系统和数据分析等各种场景，并取得了显著成果。大型模型可以更好地优化数据，而深度优化的数据可以更好地训练大型模型，LLM 和数据相互补充。

在本次演讲中，我们将介绍我们的开源项目 Gravitino 如何构建一个统一的元数据湖，通过 Single Source Of Truth 来管理数据团队和人工智能团队的所有元数据。这不仅填补了人工智能模型元数据管理的空白，还提供了 Java、Python 和 NodeJS 的客户端，使得来自不同部门的数据团队、人工智能团队和业务团队可以使用 Gravitino 在单一的真实数据源中管理他们的元数据。Gravitino 不仅填补了人工智能模型元数据管理的空白，还提供了 Java、Python 和 NodeJS 的客户端，使得来自不同部门的数据团队、人工智能团队和业务团队可以无缝地完成数据 ETL、数据清洗、特征工程、模型训练、模型发布以及应用程序和模型集成的整个过程，加速数据和人工智能的融合。

Gravitino 还提供统一的 IAM 权限管理和对来自多个数据源的异构（结构化/非结构化）数据的统一读写支持，以支持多云环境，使得人工智能团队可以充分利用公有和私有数据中心中的 GPU、存储、云服务等基础设施资源，并降低模型训练的成本和周期。演讲者还将分享小米、唯品会和其他互联网公司如何使用 Gravitino 来解决人工智能模型训练中的问题和挑战。

演讲嘉宾：

Xun Liu丨 Datastrato Co-Founder & COO

Xun Liu ，拥有二十年的软件开发经验，过去十年一直在大数据开发领域工作。他是 Apache 软件基金会的成员和孵化器导师，并孵化了 Apache 中的多个开源项目，同时也是 Apache Hadoop 和 Zeppelin 的 Committer 成员之一。Xun Liu 是 Datastrato 的联合创始人兼首席运营官，目前负责公司开源项目 Gravitino 的运营工作。

演讲议题： 在 Apache 生态系统中增强 LLM 的可观测性：基于 OTel 和自动 Python 探针注入

分享时间： 7 月 28 日 14:30 - 15:00

议题介绍：

在当前技术发展趋势中，人工智能中的大型模型已成为推动创新的重要力量。然而，这也导致对这些模型的可观察性和监控需求不断增加。在 Apache 生态系统中，作为新兴的开源项目，OpenTelemetry 提供了标准化的工具和接口，用于跨语言的遥测数据收集和分析，而自动探针注入技术的发展进一步简化了监控系统集成的过程。本主题将深入探讨如何利用 Apache 项目和 OpenTelemetry 以及自动探针注入技术，构建高效、灵活和可扩展的人工智能大型模型可观测性系统。

主题内容包括：

Apache 与人工智能可观测性：讨论 Apache 项目在构建人工智能大型模型可观测性架构方面的贡献，以及 Apache 生态系统如何促进该领域的创新和发展。

OpenTelemetry 的价值和应用：详细介绍 OpenTelemetry 在人工智能大型模型可观测性中的作用，包括如何用于收集、处理和分析遥测数据。

自动探针注入的革命：分析自动探针注入技术如何解决在大规模分布式人工智能系统中集成遥测系统的挑战，使开发人员和运维团队更方便地部署和管理监控工具。

综合策略和最佳实践：分享成功案例，展示如何将 Apache 项目、OpenTelemetry 和自动探针注入相结合，增强大型模型的可观测性，促进系统性能优化和故障诊断。

面对未来的挑战和机遇：讨论人工智能可观测性领域面临的挑战，并探讨 Apache 生态系统和开源社区如何共同推动技术进步和创新。

本主题旨在向参与者展示如何利用 Apache 生态系统中的资源和项目，实现对人工智能大型模型的高效可观测性，进一步支持人工智能应用的稳定性和可靠性，并为开源社区和企业提供实用的见解和策略。

演讲嘉宾：

Yanhong Li 丨Observability Research and Development Engineer

我是一名研发工程师，专注于大型模型的可观测性，是阿里云原生应用平台可观测性团队的一员。作为负责大型模型可观测性和 Python Agent 的核心成员，我负责大型模型和 Python Agent 的可观测性的研发工作。在这个领域，我进行了广泛的研究和实践工作，积累了丰富的专业知识，特别是在 Langchain 和 llama-index 等大型模型的可观测性研究方面。

演讲议题： 基于 Gravitino 的小米数据和人工智能框架实践

分享时间： 7 月 28 日 15:00 - 15:30

议题介绍：

随着数据和人工智能的整合日益紧密，对两者的统一管理成为企业内部面临的挑战。Databricks 通过 Unity Catalog 引入了一种商业产品，通过它可以桥接大数据和人工智能。然而，由于它是专有的，企业难以在内部实施这个解决方案。

在过去的几年中，小米已经统一了表格数据管理的元数据系统，带来了显著的好处。今年，我们将元数据管理扩展到了人工智能数据领域。借助 Gravitino，我们可以在一个统一的系统下管理非表格和表格数据，实现数据+人工智能的统一元数据。

大纲：

1）小米的业务特点和挑战

管理表格数据不仅包括 Hive 和 Iceberg ，还包括 MySQL 和 Oracle 等 OLTP 表。统一管理这些数据类型提高了内部效率。

2）数据 + 人工智能的综合需求

随着大型模型的普及，数据和人工智能的整合越来越受关注。统一的元数据对于整合数据 + 人工智能至关重要。我们将分享小米在数据+人工智能整合方面实施的要素。

3）基于 Gravitino 的统一元数据

小米如何基于 Gravitino 实现数据 + 人工智能的统一元数据管理。

4）基于统一元数据的在线开发平台

利用 Gravitino 强大的引擎插件和 PythonClient ，实现统一开发平台。我们将分享开发人员可以享受的便利性。

5）Gravitino 的未来计划

我们将分享 Gravitino 社区的未来计划。

关于 Gravitino：Gravitino 是由 Datastrato 开源的，正在准备捐赠给 Apache 基金会

演讲嘉宾：

Kang Zhou丨Xiaomi，Team Leader of Data Development Platform

小米的高级软件开发工程师，负责大数据平台的开发工作。Apache Kylin、Gravitino 的贡献者。

演讲议题： AI 无处不在：开源 + Wasm 在普及大型语言模型访问中的作用

分享时间： 7 月 28 日 15:45 - 16:15

议题介绍：

本次演讲重点探讨了通过开源大型语言模型（LLM）和 WebAssembly（Wasm）普及 AI，使其变得更加可访问和高效。

推理过程预计消耗了 AI 工作负载中超过 90% 的计算资源。Wasm 不仅降低了 AI 推理成本，还提升了大型语言模型（LLM）的部署和可访问性，使得可以在你的 PC 上编写 LLM 应用，并在各个环境中运行——从边缘设备到云端，从高端服务器到低功耗物联网设备，覆盖 CPU 和 GPU。我们将进行互动演示，展示如何在各种环境中部署开源 LLM，以及如何使用 Wasm 以简单步骤创建无服务器 LLM 应用。

我们还将讨论 Wasm 和 Wasm 运行时如何提供高性能和安全性，使 AI 模型和应用具有可移植性、可访问性、可靠性和安全性。

与会者将学习如何在自己的设备上运行开源 LLM，并将这些技术整合到他们自己的 AI 项目中。

演讲嘉宾：

Miley Fu丨CNCF Ambassador, Founding member of open source runtime WasmEdge

CNCF 大使，开源运行时 WasmEdge 的创始成员, Miley 是一名开发人员倡导者，她热衷于授权开发人员构建和贡献开源。作为创始成员，她在 CNCF 沙盒中从事 WasmEdge 运行时工作超过5年，她在 KubeCon、KCD 深圳、CloudDay 意大利、DevRelCon、日本开源峰会、AWS 用户组、全球人工智能笔记、KubeDay 新加坡等地发表了演讲。Miley 撰写科技内容并组织开发活动，包括 KCD 深圳，开源博览会，WebAssembly 和 Rust meetup 在台北，新加坡，中国等。

演讲议题： RayII.Java — 基于 Java 的对 Project Ray 的全新设计和实现

分享时间： 7 月 28 日 16:15 - 16:45

议题介绍：

Project Ray 是一个开源的分布式人工智能框架，在人工智能领域有着快速的发展。目前，它即将进入 3.x 开发阶段。Ray 最初是为高性能强化学习而设计的，但已经发展成为一个统一的计算框架，用于扩展人工智能和 Python 工作负载。Ray 也是训练像 ChatGPT 这样的大型语言模型的核心技术。

我们目前的研究工作主要是改进和扩展 Ray 的架构和实现，以适应不同的硬件和软件生态系统，包括对 Ray 的各种可能的重构。这个方向的最新探索是基于 Java 的 RayII.Java 的重新设计和实现，具体内容如下：

1）对当前 Ray 核心的设计和实现进行优缺点分析；

2）Graalvm 为中心的 RayII.Java 的整体思路和架构设计（使用 Python+Java 替代当前 Ray 项目中的 Python+C++ 软件层以及更多内容）以及我们的测试平台；

3）尝试将 RayII.Java 与 DJL 和 H2O 等知名 Java 框架在人工智能领域进行集成；

4）探索在更多异构硬件平台上（如 FPGA 和 NPU 等，目前 Ray 只支持 GPU ）通过 RayII.Java 加速 Ray 应用程序的支持。

演讲嘉宾：

Feng Li丨indie-developer

曾在 Motorola、Samsung 等公司工作，现在是一名独立开发者。在各种平台上积累了超过十年的移动开发经验，并在过去几年专注于云和边缘基础设施领域。对技术创新具有浓厚的兴趣和实践能力，热衷于参与开源社区的各种活动，例如 IT 会议、技术分享，并为开源项目做出贡献。

演讲议题： 京东算法调试系统（StarGazing）介绍

分享时间： 7 月 28 日 16:45 - 17:15

议题介绍：

1、StarGazing 的数据基石

基于 Flink & ClickHouse 的实时数据链路构建

基于 Iceberg & StarRocks 的准实时数据链路构建

2、上层应用：排序可解释

trace 链路：机器学习在线链路常见的几个阶段（召回、过滤、排序、策略等）以及相应的详细介绍以及 trace 功能的目的

debug 链路：为什么要做 debug 以及常见的 debug 策略

行为画像：旨在复现当时用户的全部行为，包括但不限于点击、浏览、加购等宏观行为以及点击主图、浏览评论等精细行为

用户画像、商品画像（大规模特征）：user 特征、item 特征、交叉特征、端侧特征等多种特征的丰富

3、上层应用：模型可解释：

实现方式：shapely value、tree shap、IG 等

模型可解释在京东电商场景下的应用：
全局的特征重要性及排名
多个输入 sku 的特征重要性对比
单个 sku 在同 spu /产品词/品类下的特征竞争力对比
用户维度下的特征重要性排序
对重要特征进行扰动带来打分和排序的影响
解释模型打分层面上为何给特定用户曝光特定商品

4、上层应用：流程解释

用户行为动态线路分析
推荐系统指标构建

演讲嘉宾：

Ying Zhang丨京东，算法开发工程师，Alink、TF on Flink Contributor

架构师，Alink、DL on Flink 的贡献者。

扫码购票

CommunityOverCode Asia 2024

🌟 点击下方二维码或文末【阅读原文】进行扫码购票！数量有限，快来参与吧～

作为 Apache 软件基金会（ASF）的官方全球系列大会，每年的 CommunityOverCode Asia 都吸引着来自全球各个层次的参与者、社区共同探索 "明天的技术"。 7 月 26 日至 28 日 ，即将强势来袭的 CommunityOverCode Asia 2024 上，大家可以近距离感受来自 Apache 项目的最新发展和新兴创新。