作者 | Todd Mostak
翻译 | 雁惊寒
今天,我们非常高兴地宣布,MapD Core数据库及其可视化库开源了。
项目的代码托管在Github上,基于Apache 2.0协议。它能够构建全功能版的MapD Core数据库,该数据库能够在多GPU的服务器上对数十亿条记录进行二次查询。我们所有的核心技术,包括分层缓存系统和LLVM查询编译引擎,都包含在今天发布的这个开源版本中。
这样做是因为我们对开源软件的变革力量具有强烈的信念。无论是在Hadoop还是在深度学习的生态系统中,开源项目都带来了巨大的创新,这些都不是封闭软件所能带来的。
我的目标一直都是要向世界开放MapD,但是在最初的时候,由于代码库尚未成熟,我一直在犹豫是否要开源。所以我建立了这个产品,扩大了公司规模,并做了其他一些事情。
然而,在NEA(最近带领我们进行了2500万美元的B轮融资)与Greg Papadopoulos和Forest Baskett的第一次见面中,我们共同认识到开源的破坏性潜力,特别是在分析领域。我们注意到,虽然基于GPU加速的机器学习正在进入人们的视线,但是在GPU上运行的分析栈却无人涉及。几乎整个GPU机器学习和深度学习都是开源的,但是却没有一个开源的数据处理引擎来协助它。而我们就是来做这个的。
作为开源软件,该项目能够与生态系统中的其他部分进行集成,这是封闭系统所无法做到的。我们今天同时也很高兴地宣布,与Continuum Analytics和H2O.ai一起组建的GPU开放分析计划(GPU Open Analytics Initiative,简称GOAI)基金会成立。并且,我们共同发布了我们的第一个项目,GPU数据帧(GPU Data Frame,简称GDF)项目。GPU数据帧允许在GPU进程之间传递数据,而不会增加复制数据或者将数据传递给CPU带来的开销。我们希望这个项目能为在GPU上实现一个开放的端到端管道迈出一步。
今天开放下面这些源码:
MapD Core开源数据库:根据Apache 2许可证提供的MapD Core数据库的源代码。该代码提供了多GPU加速SQL查询功能。
MapD可视化库:MapD提供的开源JavaScript库,允许用户创建支持MapD Core数据库的基于Web的可视化应用程序。这个库包含了图表生成、交叉过滤数据和MapD Core数据库连接管理等功能。其中,图表和crossfilter库基于流行的DC.js Dimensional Charting项目。
我们同时还推出了包含MapD Core数据库、MapD Core GPU渲染引擎和MapD Immerse可视化分析客户端的MapD分析平台企业版(MapD Analytics Platform Enterprise Edition)。它包含了不在开源版本中的分布式横向扩展、高可用性(HA)、LDAP和ODBC功能。
我们还提供了社区版本的二进制文件下载,其中包含MapD Core数据库、GPU渲染引擎和MapD Immerse可视化分析客户端,这些文件都基于非商业的学术许可。
文中涉及文件下载等详细内容参见「阅读原文」。