一个小的练习:爬取 CRAN 上的所有 R 包的名称、发布日期和标题
可以爬清华镜像源的列表:https://mirrors.tuna.tsinghua.edu.cn/CRAN/web/packages/available_packages_by_date.html
显然,这是个表格,很容易爬取:
library(rvest)
library(tidyverse)
# lubridate 是处理日期的一个 R 包
library(lubridate)
library(hrbrthemes)
# 需要耐心地等待一会儿
pkg %
read_html() %>%
html_table() %>%
.[[1]] %>%
as_tibble() %>%
mutate(
Date = ymd(Date),
Year = year(Date),
Month = month(Date)
)
# install.packages("ggchicklet", repos = "https://cinc.rud.is")
library(ggchicklet)
pkg %>%
group_by(Year, Month) %>%
count() %>%
ggplot(aes(x = factor(Year), y = n)) +
geom_chicklet(aes(fill = factor(Month)),
width = 0.75,
radius = grid::unit(3, "pt")) +
theme_ipsum(base_family = enfont,
grid = "X") +
coord_flip() +
scale_fill_brewer(name = "Month",
palette = "Paired",
breaks = 1:12,
labels = month.name) +
theme(axis.text.x = element_text(color = "gray60",
size = 10)) +
theme(legend.position = "right") +
guides(fill = guide_legend(ncol = 1)) +
labs(
title = "Number of R packages on CRAN",
subtitle = "Created by TidyFriday @ czxa.top",
caption = "Data Source: \nhttps://mirrors.tuna.tsinghua.edu.cn/CRAN/",
x = "",
y = "")
按年统计:
pkg %>%
group_by(Year) %>%
count() %>%
ggplot() +
geom_chicklet(aes(x = factor(Year), y = n,
fill = factor(Year))) +
geom_label(aes(x = factor(Year),
y = n + 200,
label = n),
family = enfont,
color = '#444444',
label.size = 0,
size=3) +
scale_fill_manual(
values = c(RColorBrewer::brewer.pal(4, "Paired"),
RColorBrewer::brewer.pal(10, "Paired"))
) +
theme_ipsum(base_family = enfont) +
theme(legend.position = "none") +
labs(
title = "Number of R packages on CRAN",
subtitle = "Created by TidyFriday @ czxa.top",
caption = "Data Source: \nhttps://mirrors.tuna.tsinghua.edu.cn/CRAN/",
x = "",
y = "")
可以看到,今年截止到今天,CRAN 上一共有 15334 个 R 包,今年新发布的 + 更新的有 6428 个!
延伸阅读
新书上市
北京大学出版社
《
TensorFlow深度学习实战大全
》
本书以TensorFlow为核心,分为3篇,共计15章节。第1篇是基础篇(第1~5章),主要介绍什么是深度学习、深度学习的本质是什么、深度学习所使用的教材和方法,以及深度学习在图像识别(MNIST)领域的应用。第2篇是发展演变篇(第6~14章),主要介绍在图像识别领域深度学习技术的发展与演变。主要是以ImageNet挑战赛为线索、以ImageNet挑战赛中的冠军模型为主干,介绍了卷积神经网络的发展历程、遇到的主要挑战、思路和对策,以及各种冠军模型的模型架构与模型训练。第3篇是前沿篇(第15章),介绍了生成对抗神经网络(GAN),它是一种能够自动生成图像的神经网络,这是与之前介绍的各种用于图像识别的卷积神经网络*显著的区别。
本书讲解细致、深入浅出,即使没有机器学习的基础,也能快速学会,同时适合任何对深度学习技术或人工智能相关领域感兴趣的从业人员学习使用。
▼
当当网购买地址:
http://product.dangdang.com/28497230.html
。
PS:
文末留言点赞第1的读者,免费送该书一本!
截止日期:
12月22日(周日)。
另外,点赞留言第1的读者请添加微信:
EasyCharts,然后发送:
姓名-电话-地址-获奖书名。