点击上方“CSDN”,选择“置顶公众号”
关键时刻,第一时间送达!
从传统的可见光图像人脸识别到现在较为先进的基于 3D 建模及红外技术,自 2016 年以来,人脸识别在电子商务、银行、金融、证券、教育、交通等场景中频频出现,热度居高不下。而因人脸识别的日渐成熟,众多科学家也秉持「技术永无界限」的探索精神,于近日跨越了人的种族界限,由京东金融引导开启了“猪脸识别”大赛。
这究竟怎么一回事呢?接下来笔者将为大家一一解开心中的疑惑。
11 月 6 日,由京东金融与红杉资本联合主办的首届“JDD-2017京东金融全球数据探索者大会”在 751 大罐举行,同时,大会也正式启动了首届“JDD-2017 京东金融全球数据探索者大赛”,即日起至 11 月 20 日,在中美两地爱好者均可报名参加。
为了这个大赛,京东金融真是不惜下了血本了。
首先是京东的当家掌柜亲自来给大会站台。京东集团董事局主席兼首席执行官刘强东在会上特别说到:“随着公司不断做大,我们在行业内做的越来越深入,无论是从全球范围还是从整个国家来看,我们都确实需要一个庞大的生态体系,只有这样整个行业才能逐步健康和健全起来。正是基于企业壮大后,做开放的生态系统的心态,京东金融携手红杉资本举办了此次 JDD 大赛。”
在东哥的演讲中,请注意他提到的生态体系。换句话说,京东如今的体量,它要做的不是某项具体的业务,而是要专注于赋能,不断增强内力,修炼内功。而如今,最重要的内功是什么呢?如何更好地赋能呢?
“科技赋能”,刘强东说到,“在这个时代,AI 既是一种技术,也是一种思考方式。”
结合到本次比赛,AI 正是刘强东当下最重要的内功,那么很自然,选拔 AI 人才必须是件刻不容缓的重要事儿。
JDD 大赛到底玩什么?
于是,结合京东最紧要的业务,一场关于 AI 人才选拔赛拉开了。这次比赛规格相对比较高,同时中美两地进行。
四大选题
由于金融业务是京东未来最大的发力点,因此,本次比赛主要瞄准金融业务,涉及四大选题:
猪脸识别;
店铺销量预测;
登陆行为识别;
信贷需求评估。
强大阵容
大赛将选手划分为两个组别,分别是商业组和算法组,其中商业组分为中国赛区和美国赛区。无论是在校学生、企业程序员,还是高等院校科研单位从业人员均可报名参加,团队参加人数不超过 3 个人。
同时,在算法组,本次大赛为进入总决赛的选手引入了导师制。导师将为选手提供 48 小时贴身现场辅导。
在中国赛区的商业组,进入总决赛的选手将在四位大咖导师及京东专业人员的带领下完成比赛,总决赛导师分别为:
登陆行为识别的导师——TalkingData首席执行官 崔晓波
店铺销量预测的导师——红杉资本中国基金专家合伙人 车品觉
信贷需求评估的导师——微软亚洲研究院城市计算领域负责人、美国计算机学会杰出科学家 郑宇
猪脸识别的导师——国际人工智能联合理事会主席、香港科技大学计算机科学及工程学系主任 杨强
大赛的评委包括:
决战巅峰
不得不提的是本次大赛的奖金:
其中,商业组冠军1名,奖金30万,算法组冠军共4名,每名获得30万奖金。除奖金外,获胜团队有望对接到相应的投资。
值得一提的是,本次JDD大赛中一道关于“猪脸识别”的赛题,真是别具一格,来看看这具体是一道怎样的别致赛题:
暗藏玄机——猪脸识别
说到“猪脸识别”,还要从一个故事引入。话说,家住北京周边的养猪专业户老张最近遇到了一个难题,经过多年的辛苦劳动以及经营,他家的养猪场规模也是越来越大,猪的数量从原来的几头发展到现在的上百头。
看着这么多的肥猪,老张心里美滋滋。可是伴随着猪对的数量增长,让人发愁的事情也随之而来。这些猪的体型都很相近,老张想要清晰的分辨出每头猪变得越来越困难。
可是,为了了解每头猪的状态,他又必须得认清每一头猪,此猪而非彼诸。
怎么办呢?
要分辩不同的人,有人脸识别;同理,要认清不同的猪,就整个猪脸识别呗!(猪也是这么想的)
那京东为什么花大力气来做这个赛题呢?它能得到什么好处?
在 JDD-2017 京东金融全球数据探索者大会上,国际人工智能联合会理事会主席、香港科技大学计算机科学及工程学系主任杨强对于“猪脸识别”是这么看的,“首先我们可以获取大量数据,而不用担心隐私问题,我们想猪可能不太关心隐私。此外,这涉及到一个活体识别的问题,背后确实存在一个商业场景的问题。”
也就是说,好处有三:
第一,隐私的问题将不存在;
第二,可以更好地研究活体识别;
第三,没准能将此经验复制到其他场景。
那么,其中的经验到底还可以应用于哪些场景呢?关于这个问题,我们目前还没有得到满意的答案。
而通过猪脸识别,养猪户老张能得到什么好处呢?
杨强提到,AI 能轻松地帮他鉴别出,不同的猪只在养殖过程中的各种活动,于是,老张能看到这个猪是不是活跃,是不是萎靡,如果是一只非常不爱动的猪,就可以在一定程度上对它的健康作决策,继而保险就可以做出相关预测。
再者,消费者可能喜欢不同类型的猪肉,这又是对猪的鉴别衍生出的个别化需求。
别看它就是一只猪,这其中可既有深度学习的应用,又有商业应用,既有趣,又极有未来潜力。
想来认猪吗?即日起就可以报名啦。
比赛详细信息
比赛日程(重要的时间节点请注意)
11.06-11.20——报名。参赛选手通过「JDD—2017京东金融全球数据探索者大赛」官网(http://jddjr.jd.com/)进行报名,报名成功后即可进入选拔赛。
11.09-12.12——选拔赛 。根据赛题通过机器评分选出16名参赛选手入总决赛。
12.15-12.17——总决赛。16名进入总决赛的选手线下封闭48小时(通过相关材料、数据的提交以及现场展示等环节,分数由评委打分综合决定,选出冠亚季军, H5投票现场截止,投票最高者获得最具网络人气奖。)
评审标准
关于“猪脸识别”的赛题
本赛题需要参赛者设计一个算法,能够通过猪的照片来正确的辨别每一头猪的身份。训练数据训练数据包含30头猪的视频素材,每头猪对应一个文件,时长约1分钟,文件名即为猪的编号。参赛者需自行决定如何从视频中获取图像数据。
评测数据测试数据为30头猪的照片3000张,参赛者需要用算法来区分这些照片上的猪的身份,即预测每张照片属于每个类别(猪)的概率。本赛题AB榜评测数据各包含3000张照片,B榜照片的下载将在B榜开放当天挂出来。
根据参赛者提交的图片分类概率,按如下公式计算得到分数,其中N为测试图片的数量,M为分类的数量,pij 为预测图像i是第j头猪的概率,为防止出现计算异常,计算时会将p替换为max(min(p,1-10-15),10-15),yij 为图像i的真实分类,即如果图像i是第j头猪,则y=1,否则y=0:提交要求提交的数据文件应为csv文本,英文逗号分隔,无BOM的utf8编码,不包含列名。文件中只包含三列:图片号(id),猪的类别(pig_id),分类概率,必须包含测试集中每张图片属于每个分类的概率。
关于信贷需求预测的赛题
通常来说,开展信贷业务不仅需要评估客户的风险水平,还需要对客户的借款需求进行预测,做好资金额度与需求的匹配才能提高资金利用率,降低成本并增加收益,因此预测用户的信贷需求是金条产品运营的核心问题之一。
该赛题需要通过竞赛数据中的用户基本信息、在移动端的行为数据、购物记录和历史借贷信息来建立预测模型,对未来一个月内用户的借款总金额进行预测。
其中包含了各种维度的序列数据、品类交易数据,参赛者可以采用各种类型的数据预处理算法、模型融合等技术来解决信贷需求这个关键的商业问题。
训练数据为2016-08-03到2016-11-30期间,用户在移动端的行为数据、购物记录和历史借贷信息,及11月的总借款金额。参赛者需要对每个用户(t_user表中的全部用户)在2016年12月的总借贷金额进行预测。
要求提交的数据文件应为csv文本,英文逗号分隔,无BOM的utf8编码,不包含列名。文件中只包含两列:用户id(uid),预测的总借贷金额,其中用户id必须唯一,必须包含训练集中的全部用户。
关于店铺销量预测的赛题
对店铺销量进行预测是“京小贷”业务信用评估的关键环节之一,只有准确的预估店铺未来的销量,才能合理的设定贷款额度,提高资金利用率。
该赛题需要对店铺开展贷款业务需要定期测量和跟踪经营状况,对店铺销量进行预测是其中的关键环节之一,只有这样才能准确的评估其资金需求并设定合理的贷款额度。
通过竞赛数据中店铺过往的销售记录,商品信息,商品评价,以及广告费用等信息来建立预测模型,预测店铺未来90天内的销售额。
训练数据包含2017-04-30日之前270天之内若干店铺的每日订单量、销售额、顾客数、评价数、广告费用等数据,下架时间在2017-04-30之后或者未下架的商品数据,以及这些店铺2016年6月-2017年1月每月末后90天内的销售额,同时需要对每个店铺(训练数据中涉及的全部店铺id)在2017-04-30之后90天内的总销售额进行预测。
提交的数据文件应为csv文本,英文逗号分隔,无BOM的utf8编码,不包含列名。文件中只包含两列:店铺id(shop_id),预测销量,其中店铺id必须唯一,必须包含全部店铺。
关于登录行为识别的赛题
大数据风控引擎会对用户登录后进行的每一笔交易进行评判,自动对疑似有风险的交易进行拦截操作。
登录识别的应用情景是在用户进行金融交易支付时,通过其近期的登录行为来判断本次交易的风险程度,进而及时拦截可疑的支付动作。
需要做到能够在常用的分类算法基础上,构建针对登录行为识别的、有业务可解释性的模型,对账户的登录行为进行评判。
训练数据包括2015年1月1日至6月30日的用户登录信息以及该时段内这些用户的交易风险标志,由于用户不会每次登录都发生交易,所以风险标志少于登录次数,需要自行决定如何将登录行为与交易行为进行关联。需要根据2015年7月1日至7月31日的登录行为信息,来预测这个时间段中每一笔交易的风险标志。
提交的数据文件应为csv文本,英文逗号分隔,无BOM的utf8编码,不包含列名。文件中只包含两列:主键(rowkey),是否有风险(1表示有风险,0表示无风险),其中主键必须唯一,必须包含测试集中的全部rowkey。
最后的话
京东愿意这么大力来做这个比赛,这是一个双赢盛世。
对选手来说,大量的一手的高质量数据将被贡献出来,选手们不再是空中楼阁般地比拼武艺,而是能融入实际场景,解决实际问题。而一旦能以突破性的方式解决问题,团队不仅能得到重磅奖金,更重要的是,有希望能直接获得投资。
对于京东来说,信贷需求预测,店铺销量预测是需要升级的核心能力,把问题抛出来,在全社会的智慧中寻找最佳答案,无疑是最省事也是最省钱的方式。 如果看中了哪个团队,也可以直接投资,省去了自建团队的各种麻烦事。
在前不久,创新工场发起的AI challenger挑战赛,搜狗拿出大量数据供选手比赛,由于比赛的数据量大,而且质量高,在选手中颇得好评。
可以想见,由企业发起,解决实际问题的比赛,在明年还会越来越多。这是一个开放的信号:数据、资源、资金、人才、技术,一个都不能少,才能真正促进企业不断在AI的豪华军备升级中,拔得头筹。