来自:开源中国
链接:https://www.oschina.net/project/eBay
开源数据质量解决方案 Apache Griffin
https://www.oschina.net/p/griffin
Apache Griffin是一个应用于分布式数据系统中的开源数据质量解决方案。在Hadoop, Spark, Storm等分布式系统中,提供了一整套统一的流程来定义和检测数据集的质量并及时报告问题。
Apache Griffin填补了开源世界里在大数据质量领域的空白。就像空气质量,水和食品安全等无时不刻地在影响人类的生命一样,数据质量在数据科学领域是至关重要的。在大数据时代,企业决策调整,商机发现等越来越依赖于大数据的数据分析和数据挖掘,而数据质量的保证是所有一切数据分析和数据挖掘的基础。
系统架构:
https://www.oschina.net/p/turmeric
Turmeric是eBay公司开发的SOA开源平台。这个平台拥有一个完整的安全措施驱动的保安系统,它基于Java,遵守WSDL, SOAP, XML, JSON, XACML, REST等主要标准,支持各种协议和数据格式的可插拔,可用于SOA的服务端以及应用端的开发、部署、安全保护、运行和监控。平台提供了Eclipse 插件,辅助SOASOA的服务端以及应用端程序的开发。当前发布的版本是1.0.0 GA,包括eBay公司内部使用的类似平台的大部分组件,只是将其中依赖于商业产品的一些功能去除,并代之以开源的等价实现。
由于来自eBay的生产系统,Turmeric的可扩展性和定制性都非常出色,而且为大规模系统进行了优化。 而且,Turmeric已经在eBay内部使用多年,开发了超过150个SOA服务。其中有些服务已经开放给大众使用(http://developer.ebay.com/products/overview/)
Turmeric平台架构图
Turmeric平台主要包括:
-
运行环境支持开箱即用多种数据格式(SOAP,XML, JSON, REST, 和 Binary XML)。
-
各种服务质量(QoS)有关的功能,如,身份验证(Authentication),授权(Authorization),和使用率限制(Rate Limiting),可通过为服务定义安全措施(Security Policies)来控制。
-
内置在运行环境的指标收集系统和运行监测。
-
基于服务库的服务注册和管理。
-
支持数据类型库,提供定义和管理类型的能力,使得定义的数据类型可在多个服务里重用。
-
报错信息库是另一个有用的功能,它让你能定义和管理跨服务使用的报错信息。
eBay公司还与云计算的开源软件公司Intalio合作。由
Intalio
提供商业应用的客户支持。
Web服务器监控和管理 REST Superman
https://www.oschina.net/p/restsuperman
REST Superman 已改名
REST Commander
是 eBay 开发的一个使用快速并行的异步 HTTP/REST/SOAP 客户端开发的服务用来监控和管理10000台 Web 服务器,可在 10 秒内发送请求到 1000 台服务器,或者 50 秒内发送请求到 10000 台服务器。
Hadoop 数据安全方案 Apache Eagle
https://www.oschina.net/p/apache-eagle
eBay公司隆重宣布正式向开源业界推出分布式实时安全监控引方案 - Apache Eagle ,该项目已正式加入Apache 称为孵化器项目。Apache Eagle提供一套高效分布式的流式策略引擎,具有高实时、可伸缩、易扩展、交互友好等特点,同时集成机器学习对用户行为建立Profile以实现实时智能实时地保护Hadoop生态系统中大数据的安全。
Eagle 是开源分布式实时Hadoop数据安全方案,支持数据行为实时监控,能立即监测出对敏感数据的访问或恶意的操作,并立即采取应对的措施。
Eagle具有如下特点:
-
高实时: 我们充分理解安全监控中高度实时和快速反应的重要性,因此设计Eagle之初,我们竭尽可能地确保能在亚秒级别时间内产生告警,一旦综合多种因素确订为危险操作,立即采取措施阻止非法行为。
-
可伸缩:在eBay Eagle 被部署在多个大型Hadoop集群上,这些集群拥有数百PB的数据,每天有8亿以上的数据访问时间,因此Eagle必须具有处理海量实时数据的高度可伸缩能力。
-
简单易用:可用性也是Eagle产品的核心设计原则之一。通过Eagle的Sandbox,使用者仅需数分钟便可以设置好环境并开始尝试。为了使得用户体验尽可能简单,我们内置了许多很好的例子,只需简单地点击几步鼠标,便可以轻松地完成策略地创建和添加。
-
用户Profile:Eagle 内置提供基于机器学习算法对Hadoop中用户行为习惯建立用户Profile的功能。我们提供多种默认的机器学习算法供你选择用于针对不同HDFS特征集进行建模,通过历史行为模型,Eagle可以实时地检测异常用户行为并产生预警。
HTTP/SSH/TCP/Ping并行客户端 Parallec