专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
目录
相关文章推荐
爱可可-爱生活  ·  xLSTM ... ·  昨天  
宝玉xp  ·  //@grafiks:自己不提,任何事都不会 ... ·  昨天  
爱可可-爱生活  ·  【[843星]building-llm-ap ... ·  昨天  
爱可可-爱生活  ·  【[133星]Blender MCP ... ·  3 天前  
51好读  ›  专栏  ›  AI科技评论

动态 | 中科院计算所开源Easy Machine Learning系统,用交互式图形界面简化ML开发过程

AI科技评论  · 公众号  · AI  · 2017-06-13 21:23

正文

300 + 明星创业公司,3000 + 行业人士齐聚 全球人工智能与机器人峰会 GAIR 2017 ,一 同见证 AI 浪潮之巅!峰会抢票火热进行中。

今天特放出 直减 1100 元的无条件优惠码 (见文末,优惠幅度逐天减小),感谢各位读者对雷锋网的支持,打开链接即可使用。

AI科技评论按 :6.13号上午,中科院计算所研究员徐君在微博中宣布,Easy Machine Learning 系统开源,欢迎大家下载。 AI科技评论 编辑第一时间为大家带来该系统的功能介绍。

在许多大数据应用中,机器学习算法已经成为至关重要的一部分。不过,机器学习的全部潜能还远远没被开发出来,因为使用机器学习算法很困难,尤其是在像Hadoop和Spark的分布式平台。主要障碍不仅是来自算法本身的运行,而且在真实应用中,运行它们的过程中往往包含多重步骤和不同算法。在这个演示中,展示了一个通用的基于数据流的系统,以减化在真实世界中应用机器学习算法的过程。在该系统中,学习任务被构造成一个有向非循环图(DAG),其中每个节点代表一个操作(例如,一个机器学习算法),每个边缘代表数据流从一个节点到它的后续节点。实现了交互图形用户界面,使用户能够以拖放的方式创建、配置、提交和监视任务。

图2显示了系统的体系结构。整个系统由三部分组成:提供基础服务的大数据基础结构,提供机器学习任务的核心构建模块的机器学习库,和提供友好界面降低使用机器学习的难度的机器学习工作室。

大数据基础结构

该系统是建立在开源大数据系统Hadoop和Spark之上的。所有的数据,机器学习算法以及其它相关的信息都存储在分布式文件系统HDFS和Hive数据管理系统,MySQL的相关数据库系统用于存储元数据。我们的系统也依赖于分布式计算框架Map-Reduce 和 Spark。所有计算资源都由Yarn管理.每一个提交的机器学习任务(数据流DAG)首先转换为一个工作流DAG,然后随着工作流的调动程序调动。

机器学习库

机器学习库实现了一系列流行的机器学习算法(如分类、主题建模、图形处理、信息推荐等)。对于每种算法,都在Spark上运行了单机版和分布式版,因为在数据不够大的时候,单机版往往比分布式版更有效。除了核心算法,该库也会执行必要的模块来支持核心算法,包括数据预/后处理实现所需要的功能模块、数据格式转换、特征提取、绩效评价等,所有的算法和模块可以通过命令行和java API来调用。这些算法构成了用户定义机器学习任务的核心构建块。

机器学习工作室

机器学习工作室的主要目标是提供一个友好的用户交互界面,使普通用户可以使用机器学习算法轻松地解决自己的问题。机器学习工作室是作为一个Web服务实现的,可以通过Web浏览器访问。它提供了以下主要功能:

1) 资源管理

在机器学习库中实现的所有算法都可以从Studio系统中访问。该系统还提供了一些数据和任务,用于演示如何使用这些算法来解决问题。为了构造机器学习任务,用户可以直接使用系统中的算法和数据。他们还可以上传自己的数据和算法包。要上传一个算法包,用户需要指定运行该算法的命令行模式字符串的格式。字符串定义程序名、输入端口、输出端口和参数设置。这样,上传的算法可以在不同的参数设置下运行。在指定的任务数据流DAG中,该算法可以按照命令行模式运行。在提交机器学习任务之后,它将被分配一个唯一的ID,并存储在任务存储库中。用户可以在将来检查和重用任务。还可以将任务共享给其他用户。

2) 任务设计

构造一个机器学习任务,用户可以将算法和数据集(节点)拖到工作面板上,将这些节点连接成一个数据流DAG,并设置所有节点的参数。如果用户可以在库中找到一个类似的工作(大多数情况下),可以直接复制现有的任务和进行必要的修改(添加/删除节点和边,改变参数)。通过在工作面板中选择一个节点,参数设置面板将显示在页面的右边,这使得用户可以为任务中相应的算法设置特定的参数值。提交一个机器学习任务后,工作室将检查数据流DAG的正确性,产生时间文件的文件路径,将数据流DAG转化为工作流DAG,最后提交工作流程DAG到 Oozie执行。

3)任务监视







请到「今天看啥」查看全文