专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
目录
相关文章推荐
Founder Park  ·  Claude工程师聊prompt:不要把模型 ... ·  3 天前  
Founder Park  ·  Claude工程师聊prompt:不要把模型 ... ·  3 天前  
爱可可-爱生活  ·  晚安~ #晚安# -20240917225513 ·  3 天前  
宝玉xp  ·  请问这道智力题答案是什么?据说 o1 ... ·  5 天前  
爱可可-爱生活  ·  【Docker Compose ... ·  6 天前  
量化投资与机器学习  ·  看这些够了!『量化交易』书籍清单(附下载) ·  1 周前  
51好读  ›  专栏  ›  AI科技评论

开发 | 美国最大点评网站Yelp公开内部数据集,面向学生发起多样挑战赛

AI科技评论  · 公众号  · AI  · 2017-09-02 16:00

正文

AI 科技评论消息:日前,美国最大的点评网站Yelp公开其内部数据集。据官网介绍,这是一个通用数据集,开放这个数据集的主要目的是帮助学习。

这个数据集是Yelp涵盖的商户、点评和用户数据的一个子集,可以用于个人、教育和学术。现在可以得到这个数据集的JSONSQL文件,利用它来教学生关于数据库的知识,学习NLP,或在学习制作手机APP时作为样本产品数据。

数据集详细信息

数据集包括470万条用户评价,15多万条商户信息,20万张图片,12个大都市。此外,还涵盖110万用户的100万条tips,超过120万条商家属性(如营业时间、是否有停车场、是否可预订和环境等信息),随着时间推移在每家商户签到的总用户数。

如何使用?

用户可以使用JSON和SQL数据集。

JSON

  • 能立刻建立和运行

  • 以单独的文件形式呈现,你可以任意选择

  • 在任何应用上都可以使用

JSON数据集中的每一个文件都由一个单独的对象类型组成,一行表示一个JSON对象。下面是一个商家签到用户数的实例。

在GitHub上还有更多的例子:

https://github.com/Yelp/dataset-examples

SQL

  • 与大多数关系数据库兼容

  • 填充表具有引用完整性

  • 只有一个文件,容易导入

表格之间的联系和结构如下图所示:

下载地址:

https://s3-media2.fl.yelpcdn.com/assets/srv0/engineering_pages/5176da685fac/assets/vendor/yelp_schema.zip

关于数据集的挑战赛

yelp希望更多的学生利用这些数据,在研究中想出创新性方法,他们也提供了目前感兴趣的一些主题。

一是图片分类。目前他们虽然能识别出图片中类似于汉堡之类的食物,但是如何评价一张图片是否好看还有待研究。

二是自然语言处理和情感分析。用户评价数据里有很多能挖掘的元数据,可以用于推断语义、商户属性和情感。他们想知道评价里表达了什么,是好评还是差评。

三是图像挖掘。比如说挖掘出用户之间的关系是如何限定他们的使用规律,流行趋势的引导者在一家店火起来之前都是去哪儿吃饭的。

via:https://www.yelp.com/dataset

—————  给爱学习的你的福利  —————

3个月,从无人问津到年薪30万的秘密究竟是什么?答案在这里——崔立明授课【推荐系统算法工程师-从入门到就业】3个月算法水平得到快速提升,让你的职业生涯更有竞争力!长按识别下方二维码(或阅读原文戳开链接)抵达课程详细介绍~

————————————————————