专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
黄建同学  ·  这门课的两位讲师是《Hands-On ... ·  8 小时前  
爱可可-爱生活  ·  【[661星]Meridian:谷歌推出的营 ... ·  4 天前  
爱可可-爱生活  ·  【[74星]RapidUDF:高性能C++表 ... ·  4 天前  
黄建同学  ·  //@宝玉xp:你可以说写代码sonnet强 ... ·  4 天前  
量子位  ·  DeepSeek华为火线联手!硅基流动首发即 ... ·  4 天前  
51好读  ›  专栏  ›  机器学习研究会

百度宣布,推出全球最大AI公开数据集计划BROAD!

机器学习研究会  · 公众号  · AI  · 2017-11-29 23:33

正文

优质的机器学习质量离不开其背后的数据集,而一个优质数据集的公开,将为更多技术提供学习养分


11月16日,在2017百度世界大会 AI 技术与平台论坛上,百度3D视觉首席科学家杨睿刚宣布,推出 百度 AI 公开数据集计划——BROAD (Baidu Research Open-Access Dataset) ,并宣布首批室外场景理解、视频精彩片段、阅读理解 3个数据集即日起对公众公开。



“ BROAD ”百度 AI 公开数据集计划 (http://ai.baidu.com/broad) 率先公开的三大数据集实力强劲、各有所长,咱们先看为敬!


为更精准安全的自动驾驶助力


室外场景理解数据集来源于百度自动驾驶事业部。该数据集试图将感知能力从物体级感知升级到像素级感知,进而了解图片中所有像素的属性和来源,实现更精准、安全的自动驾驶。 它是世界范围内第一个带像素级语义标签的室外3D视频。


2018年开始将陆续有自动驾驶汽车面世甚至小规模量产,想想还有点儿小期待呢。


上万个精彩小视频

想怎么用就怎么用


视频精彩片段数据集主要来源于爱奇艺精彩视频片段。


视频类型为综艺节目,目前囊括 1500个长视频, 视频总时长约 1200小时, 还从中手动收取出 18000个精彩小视频, 同时能够提供视频帧的图片特征序列,是全球首创的公开精彩片段标注数据集。


百万文档和人工撰写的优质答案

拿去,都拿去


随着越来越多的 AI 开发者和团队加入到人工智能的浪潮中来,如何让 AI 系统通过“机器阅读”的途径持续学习和进化成了重中之重。


首次亮相的 百度阅读理解数据集 DuReader, 是迄今为止规模最大的中文公开领域阅读理解数据集。


数据集基于真实应用需求,所有问题都来源于百度搜索用户的真实问题,文档来自全网真实采样的网页文档和百度知道 UGC 文档,答案是基于问题与文档人工撰写生成的。


数据集标注了问题类型、实体和观点等丰富信息,弥补了现有主流数据集对于观点类问题覆盖不足的问题。首批发布的阅读理解数据集包含 20万问题、100万文档及42万人工撰写的优质答案, 并提供开源基线系统。DuReader 将为阅读理解技术研究提供有力支撑,加速相关技术和应用的发展。



持续公开真实、大规模的数据集

我们在一起







请到「今天看啥」查看全文