专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
宝玉xp  ·  Lex Fridman ... ·  昨天  
机器之心  ·  自有歪果仁为DeepSeek「辩经」:揭穿围 ... ·  昨天  
爱可可-爱生活  ·  【Claude和o3 ... ·  2 天前  
宝玉xp  ·  //@刘群MT-to-Death:这种氛围真 ... ·  3 天前  
爱可可-爱生活  ·  【[24星]SpatialVLA:一个强大的 ... ·  4 天前  
51好读  ›  专栏  ›  机器学习研究会

【推荐】xLearn:一款专门针对大规模稀疏数据的机器学习库

机器学习研究会  · 公众号  · AI  · 2017-11-25 22:57

正文



点击上方 “机器学习研究会” 可以订阅
摘要

转自:马超Terminal

在机器学习里,除了深度学习和树模型 (GBDT, RF) 之外,如何高效地处理高维稀疏数据也是非常重要的课题,Sparse LR, FM, FFM 这些算法被广泛运用在实际生产和kaggle比赛中。现有的开源软件例如 liblinear, libfm, libffm 都只能针对特定的算法,并且可扩展性、灵活性、易用性都不够友好。基于此,我在博士期间开发了 xLearn,一款专门针对大规模稀疏数据的机器学习库,曾在之前 NIPS 上做过展示。经过打磨,现开源 http://t.cn/RYUMtlL。我们的 vision 是将 xLearn 打造成和 xgboost,MXNet一样的工业事实标准。相比于已有的软件,xLearn的优势主要有(1)通用性好,我们用统一的架构将主流的算法(lr, fm, ffm 等)全部囊括,用户不用再切换于不同软件之间。(2)性能好。xLearn由高性能c++开发,提供 cache-aware 和 lock-free learning,并且经过手工 SSE/AVX 指令优化。 在单机MacBook Pro上测试 xLearn 可以比 libfm 快13倍,比 libffm 和 liblinear 快5倍(基于Criteo CTR数据 bechmark)。(3)易用性和灵活性,xLearn 提供简单的 python 接口,并且集合了机器学习比赛中许多有用的功能,例如:cross-validation,early-stopping 等。除此之外,用户可以灵活选择优化算法(例如,SGD,AdaGrad, FTRL 等)(4) 可扩展性好。xLearn 提供 out-of-core 计算,利用外存计算可以在单机处理 1TB 数据。除此之外,xLearn 也提供分布式训练功能。这里我希望更多的朋友加入这个开源项目!

What is xLearn?

xLearn is a high performance , easy-to-use , and scalable machine learning package, which can be used to solve large-scale classification and regression problems. If you are the user of liblinear, libfm, or libffm, now the xLearn is your another better choice.

Performance







请到「今天看啥」查看全文