专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
目录
相关文章推荐
爱可可-爱生活  ·  节点化思维:用输入输出重新认识AI工具还记得 ... ·  昨天  
爱可可-爱生活  ·  [CL] Next Token ... ·  昨天  
爱可可-爱生活  ·  晚安~ #晚安# -20241229224420 ·  2 天前  
宝玉xp  ·  转发微博-20241229014116 ·  3 天前  
宝玉xp  ·  AI自动化测试,可以试试-202412280 ... ·  4 天前  
51好读  ›  专栏  ›  AI科技评论

业界 | FAIR实验室开源的 fastText 资料库,现在可以在小型设备上跑起来啦

AI科技评论  · 公众号  · AI  · 2017-05-06 23:47

正文

AI科技评论消息,近日 FAIR 实验室在官方博客中指出,目前 fastText 资料库已经能够在智能手机及小型电脑上使用,而且内存只需要几百千字节,充分增强了 fastText 的延展性。

为实现这一目的,FAIR 实验室需要尽可能减少 fastText 模型在运转时所消耗的内存。Facebook 的 FAISS 团队与 fastText 团队进行合作,发布论文《FastText.zip: Compressing Text Classification Models》(FastText.zip:压缩文本分类模型),能够克服模型迁移到小型存储设备存在的挑战。

Facebook 团队一直努力在提升精度的同时尽可能地减少计算的复杂度,让实际应用在使用的过程中变得更加灵活方便。而在机器学习拓展的过程中,团队所面临的问题在于,需要涉及一个通用库来解决文本分类问题。因此,fastText 应运而生,针对文本表达和分类帮助建立量化的解决方案。

FAIR 实验室去年开源了资料库 fastText,AI科技评论此前也做过覆盖。

FAIR fastText 的具体实现原理过程有两篇相关论文阐述,分别是《Bag of Tricks for Efficient Text Classification》(高效的文本分类技巧)和《Enriching Word Vectors with Subword Information》(使用子字信息丰富词汇向量)。当时开源的资料库对内存要求较高,动辄数 GB,因此主要支持笔记本电脑及 X86 用户。

对于有大量类别的数据集,fastText 采用了分层分类器,将不同的类别整合进树形结构中。并且结合线性及多类别的对数模型,能够大量减少训练的时间,也减少了训练的复杂度。利用类别不均衡的客观事实,研究人员采用 Huffman 算法建立用于表征类别的树形结构。并且根据树形出现的频率高低,深度也有所不同,这样一来也提升了计算效率。

FAIR 实验室采用低维度向量对文本进行表征。高向量自然能提升准确性,但所耗费的训练时间和计算量也较多。研究显示,如果有正确的表征与足够庞大的语料库,那么即便是低维度向量也可以得到最优的结果。在编码期间,向量的大小会通过常规获得低维向量的优化方法来获得。团队通过「bag-of-words」(词袋)提取特征和线性分类器以训练模型。因为词袋并不能识别句子中的单词顺序,所总结的高频单词特征并不能与低频率单词共享,导致低频单词的准确率也要稍低。「n-gram」模型能够解决词序问题,但也会增加训练的复杂度、时间和相应的费用。fastText 部分采用了「n-gram」,通过选择主题词前后的词数以平衡训练时间与准确度的关系。

结果显示,fastText 比起目前非常流行的 word2vec 以及最先进的形态词表征方式有着更好的表现,且兼容多种语言。除准确度外,fastText 也有着更快的速度,比起目前表现最好的神经网络,它的运行速度快 1000 到 10000 倍。这是使用低级线性模型和标准功能(如二进制)的结果。

而兼容小型设备后,相信 fastText 能在未来服务更多的用户,AI科技评论也将持续关注。

相关论文:

FastText.zip: Compressing Text Classification Models

Bag of Tricks for Efficient Text Classification

via facebook

报名 |【2017 AI 最佳雇主】榜单

在人工智能爆发初期的时代背景下,雷锋网联合旗下人工智能频道AI科技评论,携手 环球科学 和 BOSS 直聘,重磅推出【2017 AI 最佳雇主】榜单。

从“公司概况”、“创新能力”、“员工福利”三个维度切入,依据 20 多项评分标准,做到公平、公正、公开,全面评估和推动中国人工智能企业发展。

本次【2017 AI 最佳雇主】榜单活动主要经历三个重要时段:

2017.4.11-6.1 报名阶段

2017.6.1-7.1  评选阶段

2017.7.7    颁奖晚宴

最终榜单名单由雷锋网、AI科技评论、《环球科学》、BOSS 直聘以及 AI 学术大咖组成的评审团共同选出,并于7月份举行的 CCF-GAIR 2017大会期间公布。报名期间欢迎大家踊跃自荐或推荐心目中的最佳 AI 企业公司。

报名方式

如果您有意参加我们的评选活动,可以点击【阅读原文】,进入企业报名通道。提交相关审核材料之后,我们的工作人员会第一时间与您取得联系。

【2017 AI 最佳雇主】榜单与您一起,领跑人工智能时代。