专栏名称: t0mbkeeper

汉语从句专家，茧房建筑师

目录

相关文章推荐

纯银V · #大理周边攻略# ... · 昨天

阑夕 · 「财富」杂志报道，字节跳动为了追赶大模型的训 ... · 3 天前

槽边往事 · 生活这场大电影 · 5 天前

槽边往事 · 2024年9月文章一览 · 1 周前

纯银V · A ... · 1 周前

51好读 › 专栏 › t0mbkeeper

我有一个自己的大模型测试集。其实就是设定了一系列结果可验证的任务-20241006153910

t0mbkeeper · 微博 · 热门自媒体 · 2024-10-06 15:39

正文

2024-10-06 15:39
本条微博链接

我有一个自己的大模型测试集。其实就是设定了一系列结果可验证的任务。比如：推理一个函数的执行结果、写一个能完成某任务的程序、分析一个故事中的人物关系、找出一段描写中使用不当的形容词、给出一个电路某两点之间的电压，等等。

所以，在和一些没怎么使用过大模型的朋友讨论大模型的时候，大家往往会惊讶于我对一些模型的评价，并表示”某某模型在某某测试中排名很靠前啊！“

在大模型问题上，大家也不要忘了，咱们最擅长的就是“跑分”，或者叫“测评优化”。

推荐文章

纯银V · #大理周边攻略# 这次在大理度假，玩了巍山古城与诺邓古镇。都不热-20241007192844

昨天

阑夕 · 「财富」杂志报道，字节跳动为了追赶大模型的训练进度，把自家的数据-20241005150654

3 天前

槽边往事 · 生活这场大电影

5 天前

槽边往事 · 2024年9月文章一览

1 周前

纯银V · A 股暴涨之际，推荐阅读孟岩昨晚发的这篇公众号：A股与闪电当闪电-20240930093457

1 周前

书法在线 · 古画、古诗、古琴的意境

7 年前

硕士博士读书会 · 鲁迅妻子，无性无爱守41年活寡，只愿生生世世永远不要再遇见鲁迅。

7 年前

美食家常菜谱做法 · 蜂蜜的6大真相，吃了这么多年竟然才知道！

7 年前

互联网观察 · 全球爆发电脑勒索病毒，已波及100多个国家

7 年前

财经早餐 · 看完都震惊了！现场空无一人，中国这个码头太高级了！

7 年前

Sov5搜索 · 小百科 · 移动版

51好读 - 好文章就要读起来!