日志分析实战之清洗日志小实例7：查看样本数据，保存统计数据到文件

About云 · 公众号 · · 2017-10-23 16:35

正文

问题导读

1.如何从所有数据中，抽取样本查看？
2.如何保存结果到hdfs？
3.saveAsTextFile的作用是什么？

上一篇
日志分析实战之清洗日志小实例6：获取uri点击量排序并得到最高的url
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22928

查看示例数据

[Scala] 纯文本查看复制代码

1	`uriCounts.takeSample(` `false` `,` `5` `,` `10` `).foreach(println)`

说明
上面三个参数，
表示采样是否放回，true表示有放回的采样，false表示无放回采样；第二个参数num，表示返回的采样数据的个数,第三个参数是种子，这里只有10条数据，所以使用10.

保存数据
我们统计网站信息，那么该如何保存我们的数据。保存如下代码，spark默认保存到hdfs。对于路径写了两种方式，但是他们保存的路径则完全的不同。