专栏名称: 网络大数据
打造中国最专业的网络大数据科学门户网站,提供新闻动态、研究资料、测量工具、数据报告、在线测量等各项信息及服务,供IDC,CDN,ICP和普通大众共同学习进步。
目录
相关文章推荐
大数据分析和人工智能  ·  免费领取DeepSeek教程 ·  昨天  
数据派THU  ·  成功率可达100%,药物开发公司Cellar ... ·  昨天  
数据派THU  ·  NeurIPS ... ·  4 天前  
数据派THU  ·  独家|人工智能值得信任吗(附链接) ·  5 天前  
软件定义世界(SDX)  ·  Flywheel:2024电商消费趋势年度报告 ·  1 周前  
51好读  ›  专栏  ›  网络大数据

如何用10个大数据技术方案解决一个问题

网络大数据  · 公众号  · 大数据  · 2019-11-01 14:52

正文

数据分析技术一直在不断的发展。旧的关系数据库系统变得越来越不受欢迎。现在,我们必须通过一些新的技术来找到我们的方法,这些技术可以处理大的(和流的)数据,最好是在分布式环境中。


Python现在很流行当然也有很多其他的选择。SQL大行其道,而其他一些老古董仍然存在。

本文试图为一个简单的挑战,提供10种不同技术编写的10个解决方案:

通过这些技术,使用Grouplens网站提供的两个CSV数据集列出十大最受欢迎的电影。

数据集

目标

我们将聚合收视率数据(u.data)来计算每个movie_id的平均收视率,并找到平均收视率最高的10部电影。

1. AWK

Step 1: Join the Datasets

Step 2: Sort, Cut and TR

Step 3: AWK

Step 4: Again AWK

Step 5: Sort, Head and TR

2. PERL

3. BASH

4. SQL(PostgreSQL)

5. Python with Pandas

6. MapReduce With MRJob in Python

7. Pig Latin







请到「今天看啥」查看全文