专栏名称: 机器学习算法与Python实战
长期跟踪关注统计学、数据挖掘、机器学习算法、深度学习、人工智能技术与行业发展动态,分享Python、机器学习等技术文章。回复机器学习有惊喜资料。
目录
相关文章推荐
半月谈  ·  基层,不妨大胆拥抱AI ·  9 小时前  
长安街知事  ·  杨靖宇信件公布! ·  昨天  
微观三农  ·  预告 | ... ·  昨天  
四川新闻广播  ·  蜀乡各地春耕备耕忙 ·  2 天前  
中国水利  ·  水利部全面部署各地春灌保障工作 ·  2 天前  
51好读  ›  专栏  ›  机器学习算法与Python实战

用 R 复刻了一张图,附代码

机器学习算法与Python实战  · 公众号  ·  · 2024-11-15 10:59

正文

大家好,我是章北海

现在市面上再有大模型发布,很难掀起大波澜了,尤其是国内百模大战背景下。

前几天看到阿里开源了通义千问 Coder 系列的 6 款 Qwen-2.5-Coder 模型。

说是编程能力又大幅提升了,甚至超越 GPT-4o

由于阿里没有给我广告费,我就不吹嘘它如何牛逼了。

倒是感觉官方这张图很有漂亮

既然大模型都这么能打了,那能不能复刻这张图呢?

我找了 GPT-4o、Claude-3-opus、Claude-3.5-sonnet-20241022 这几位经常被超越的 loser

结果并不理想

我还试了号称很难打的其他几个,不提名字了,效果更差,懒得再深入了

Claude sonet 241022

然后优化了提示词,让其先抽取并整理好数据再用 python 绘制极坐标图,效果好点了:

不过 Python 的天花板貌似也止于此了

想要更漂亮,害得上 R

用 GPT-4o 复刻结果如下:

调整一下图例、去掉背景色

再上 PS ,或许就完整复刻官方那张图了

代码如下:

# 加载必要的库
library(ggplot2)
library(tidyr)
library(dplyr)

# 数据准备
data   Benchmark = c("HumanEval""MBPP""EvalPlus Average""MultiPL-E""McEval"
                "LiveCodeBench""CRUXEval-O""BigCodeBench",
                "AiderPass@2""Spider""BIRD-SQL""CodeArena"),
  Qwen2.5_Coder_32B_Instruct = c(92.790.286.379.465.931.483.438.373.785.158.468.9),
  DeepSeek_Coder_V2_Instruct = c(88.489.283.879.962.927.975.136.372.981.351.957.4),
  DeepSeek_Coder_33B_Instruct = c(79.381.274.969.254.321.350.629.859.473.845.616.8),
  CodeStral_22B = c(78.173.373.570.250.522.663.529.851.176.646.221.7),
  GPT_4o_2024_08.06 = c(92.186.884.479.165.834.689.237.671.479.854.269.1)
)

# 数据转换为长格式
data_long %
  pivot_longer(cols = -Benchmark, names_to = "Model", values_to = "Score")

# 绘制极坐标图
ggplot(data_long, aes(x = Benchmark, y = Score, fill = Model)) +
  geom_bar(stat = "identity", position = "dodge") +
  coord_polar() +
  theme_minimal() +
  theme(
    axis.text.x = element_text(angle = 45, hjust = 1),
    legend.position = "bottom",
    legend.text = element_text(size = 8),
    plot.title = element_text(hjust = 0.5)
  ) +
  guides(fill = guide_legend(nrow = 2)) +  # 设置图例为两行
  labs(title = "Benchmark Scores by Model",
       fill = "Model")

Claude-3-opus 表现也不俗

最后生成图形如下:

最后说一句







请到「今天看啥」查看全文