专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

论文配图不再愁：GLM-4v-Flash免费大模型一键润色，科研效率翻倍！

PaperWeekly · 公众号 · 科研 · 2024-12-31 18:02

主要观点总结

文章介绍了智谱最新发布的GLM-4V-Flash模型，该模型全模态能力卓越，能够支持论文配图等任务。文章强调了该模型在科研工作者中的价值，能够节省大量时间用于更重要的研究和分析。文章还介绍了GLM-4V-Flash模型在图像理解、评价系统构建和图片规划方面的能力，并强调了其免费开放的特点。

关键观点总结

关键观点1: 智谱开放平台发布GLM-4V-Flash模型，成为行业领军者。

智谱开放平台再次引领行业潮流，推出全模态能力的GLM-4V-Flash模型，效果卓越。继GLM-4-Flash之后，GLM-4v-Flash成为第二个免费开放接口的大模型，也是首个免费开放的多模态模型。

关键观点2: GLM-4V-Flash模型的应用价值。

GLM-4V-Flash模型能够轻松理解论文配图，并给出专业意见。它具备强大的图片润色能力，能够评价论文配图的质量，并给出改进建议。此外，它还能帮助规划图片的大幅改动，提供严谨有效的修改思路。

关键观点3: GLM-4V-Flash模型具备出色的图文理解能力。

GLM-4V-Flash模型能够理解复杂的图表和图像，并能够捕捉到图片中的重要信息。它能够从更高的角度指出图像的核心内涵，为科研工作者提供强有力的支持。

关键观点4: GLM-4V-Flash模型的集成应用。

通过将GLM-4V-Flash模型的原子能力集成在一起，可以设计出简单好用又有效的配图润色系统。这个系统可以帮助科研工作者获得满意的论文配图，提高科研效率。

关键观点5: GLM-4V-Flash模型的免费开放特点。

GLM-4V-Flash模型的免费开放，充分体现了智谱作为AI行业领军者的社会责任感与行业担当。访问智谱开放平台，体验GLM-4V-Flash的强大功能，让科研效率翻倍。

正文

你是否曾在深夜赶论文时，为了一张图表焦头烂额？精心绘制的模型图，却因表达不清被导师打回重做；或是数据可视化不够规范，难以支撑结论，最终影响论文评分。

这些看似简单的图表，往往耗费大量时间与精力，成为压垮科研工作者的‘最后一根稻草’。据统计，科研工作者平均花费 20% 的时间在论文配图上，而这些时间本可以用于更重要的研究和分析。

现在，这一切将变得简单! 没错,就是智谱最新发布的 GLM-4V-Flash 模型。智谱开放平台再次引领行业潮流，推出全免费‘最强全家桶’，支持全模态能力，涵盖语言模型 GLM-4-Flash 和多模态模型 GLM-4v-Flash，效果卓越。

继 GLM-4-Flash 之后，GLM-4v-Flash 成为第二个免费开放接口的大模型，更是首个免费开放的多模态模型。这一突破得益于智谱开放平台底层推理技术的显著提升，也彰显了智谱践行普惠理念的决心。

此前，智谱也向社会开放一系列免费且性能强劲的大模型，包括：

语言模型 GLM-4-Flash：

https://www.bigmodel.cn/dev/api/normal-model/glm-4

文生图模型 CogView-3-Flash：

https://www.bigmodel.cn/dev/api/image-model/cogview

文生视频模型 CogVideoX-Flash：https://www.bigmodel.cn/dev/api/videomodel/cogvideox

本次同样免费的多模态模型 GLM-4v-Flash 继续开放，将大幅拓展应用场景，进一步提升大模型对社会各领域的深远影响，加速智能化时代的全面到来。现在，科研工作者可以免费享受这一强大工具，彻底告别论文配图的烦恼！

废话不多说，让我们来看看如何使用免费的 GLM-4-Flash 来帮我们解决 AI 配图这个难题!

过于专业？GLM-4v-Flash能轻松理解！

想要 AI 帮忙润色，首先得确标 AI 模型能够看懂配的图片。也许，你给师兄或者师姐讲图还需要费一番口舌，但是 GLM-4v-Flash 能够轻松懂你！GLM-4v-Flash 使用非常便捷，官方文档详见：

https://open.bigmodel.cn/dev/api/normal-model/glm-4v

你可以通过网页端或 API 两种方式使用该模型。接下来，我们通过网页端展示模型的理解能力！网页端可以访问：

https://open.bigmodel.cn/console/trialcenter

以论文 LLM-Neo: Parameter Efficient Knowledge Distillation for Large Language Models (https://arxiv.org/pdf/2411.06839) 中的图为例，测试模型的理解能力。网页端操作简单，只需上传图片并输入设计好的提示词即可启动 AI 模型。我们使用的提示词如下：

假设你是 AI 顶会的审稿人，这幅图来自于投稿到本会议的论文 LLM-Neo: Parameter Efficient Knowledge Distillation for Large Language Models，请你说说从审稿人视角看出了什么信息？

对应的图片是：

本图展示的是常规的 KD/LoRA 方法和该论文提出的 LLM-Neo 方法的区别，展示了 LLM-Neo 方法与其他方法的区别。

让我们来看看 GLM-4v-Flash 的输出：

可以看出，GLM-4v-Flash 轻松地理解了这张图的意思。既能够捕捉到图片上的问题信息（trainable 和 frozen），也能理解图中展示的信息（LoRA 使用特殊结构来减少参数量）。进一步地，模型从更高的角度指出本图是比较常规的 KD 方法和 LLM-Neo 方法，这也正是本图的核心内涵。

看到这,相信你也发现了 GLM-4v-Flash 强大的图片理解能力。对于整天和代码打交道的炼丹师来说，可能还是更习惯使用 API 来操作。参考上面的官方文档（https://open.bigmodel.cn/dev/api/normal-model/glm-4v）, 我们可以调用接口来实现这个功能。测试代码如下：

程序运行的日志是：

不难看出，智谱 AI 的 GLM-4v-Flash 可以轻松地从审稿人的视角给出对图片的理解，这项能力对模型能够有效地提出润色意见非常重要。

看得懂还不够，还得能评价！

如果简单地能看懂图片传达的信息，这是不够的。为了能达到润色的最终目的，我们还需要模型具备一定的评价能力。

对于论文配图，我们的目标是力求图片达到"信达雅"的高标准。一幅好的论文配图,应该达到以下的标准：

信息准确性：图表中的数据必须准确无误，避免误导读者, 坐标轴、图例、标签等应清晰标注，避免歧义, 图片内容与论文正文描述保持一致。
美观与排版：使用清晰、对比度高的颜色，避免过于复杂或刺眼的配色。使用易读的字体，确保文字大小适中。图片元素排列整齐，避免拥挤或空白过多。
学术规范性：如果使用他人图片或数据，需注明来源并遵守版权规定。为每张图片添加详细的图注，解释图片内容及其与论文的关系。遵循目标期刊或会议的图片格式规范（如尺寸、分辨率、文件类型）。
可读性与受众友好性：通过分块、分层展示，降低复杂图片的理解难度。使用箭头、高亮等方式引导读者关注核心内容。根据目标读者的专业背景，调整图片的复杂度和细节。
伦理与隐私：如果图片涉及敏感数据（如人脸、个人信息），需进行匿名化处理。确保图片内容符合学术伦理和相关法律法规。

通过综合考虑以上维度，AI 论文中的配图不仅能够有效传达信息，还能提升论文的整体质量和可读性，为读者带来更好的阅读体验。给出专业意见这件事，GLM-4v-Flash 也是轻松拿下。具体的提示词可以设计成：

假设你是资深的 AI 论文画图专家，这幅图来自于投稿到本会议的论文 LLM-Neo: Parameter Efficient Knowledge Distillation for Large Language Models，请你从 XXXX 的角度给出一些修改意见？

那么我们就可以轻松搭建评价系统，让模型给出对图片专家的润色观点！示例代码如下：

那么我们就可以获得睿智的大模型给出的专业意见。例如针对可读性与受众友好性，模型对上面的示例图片给出的意见是：

GLM-4v-Flash 给出的具体的改进建议是：

1. 统一颜色编码：图中使用了多种颜色来区分不同的组件和状态（如“frozen”、“trainable”等），但颜色的使用不够一致。可以考虑将颜色编码简化为2-3种，以便更容易理解。

2. 增加标签清晰度：例如，“KD Loss”和“Loss”这两个词虽然含义明确，但对于不熟悉该领域的读者来说可能不够直观。可以添加简短的描述或解释，帮助读者快速理解。

3. 优化箭头方向：有些箭头的方向可能会引起混淆，尤其是当它们指向同一个节点时。确保每个箭头的方向都是清晰的，并且指示了正确的信息流向。

4. 减少不必要的复杂性：如果某些部分对于非专业人士来说过于复杂或不必要，考虑将其简化或移除。专注于最重要的信息和流程，避免过多的细节干扰读者的注意力。

这些意见非常专业且中肯。由此可见本模型强大的图片润色能力。有了这些意见，一幅专业且美观的配图不在话下，论文的中稿概率也能大幅提高！

需要大改？GLM-4v-Flash帮你轻松规划！

很多时候，我们可能需要对图片进行一些大幅的改动，比如添加或者删除模块。这种改动往往需要对图片进行大幅的修改，涉及到元素的重新绘制，位置重新排布,颜色重新规划等复杂操作。这种修改，往往需要对论文具备整体的把握，并拥有丰富的配图经验。也许，实验室最强的师兄师姐也得破费一番脑力。

此时，我们能否使用聪明强大的 GLM-4v-Flash 来帮忙规划？答案是可以！强大的 GLM-4v-Flash 模型可以高效地提供给严谨有效的修改思路，助力你实现目标。操作不需要太复杂，我们只需要设计好对应的提示词，让模型给出对应的输出即可。这里提供一个有效的提示词：

假设你是资深的 AI 论文画图专家, 画图经验丰富。这幅图来自于论文 LLM-Neo: Parameter Efficient Knowledge Distillation for Large Language Models。现在你需要对图片重新规划，达到如下目标: XXX。针对此目标，请你给出一些重新规划的思路并解释。

这样我们就可以轻松构造示例代码：

这里面的 use_zhipu_api 函数复用上面的函数即可。当我们输入"突出 LLM-Neo 是 KD 和 LoRA 方法的交集"这个目标的时候，就可以获得对应的意见。GLM-4v-Flash 给我们的意见是：

为了突出 LLM-Neo 是 KD 和 LoRA 方法的交集，我们可以采取以下步骤来重新规划和设计这个流程图：

1. 颜色编码：首先，我们将 LLM-Neo 特有的元素用一种独特的颜色标记出来（例如红色或橙色），以便在视觉上与其他部分区分开来。

2. 位置调整：将 LLM-Neo 模块放置在 KD 和 LoRA 路径交叉的位置，使其成为焦点。

3. 线条连接：使用箭头或其他图形元素明确表示 LLM-Neo 与 KD 和 LoRA 之间的联系，以展示它是这两个方法结合的结果。

4. 标签强调：给 LLM-Neo 模块加上加粗或者不同颜色的边框，并在其旁边标注“LLM-Neo”字样，确保它容易被识别。

5. 注释说明：如果可能的话，添加一个简短的注释或标题，解释为什么 LLM-Neo 被认为是 KD 和 LoRA 的结合体，以及这种结合如何带来优势。

模型提醒我们，可以考虑将 LLM-Neo 模块放置在 KD 和 LoRA 路径交叉的位置，使其成为焦点。这个建议非常具有创造性，且遵从我们所输入的预设目标，即突出 LLM-Neo 是 KD 和 LoRA 方法的交集。这充分体现了 GLM-4v-Flash 强大的用户指令理解能力和图片润色的规划能力。

整体系统

有了上述的这些原子能力，我们再也不需要担心论文配图这个老大难的问题了，只需要将这些原子能力集成在一起，我们便可以设计出简单好用又有效的配图润色系统。整体的设计可以是：

框架图里面的三个原子能力对应三个章节所介绍的技术，这样我们就基于 GLM-4v-Flash 强大的图文理解能力构造好了我们的所需要论文润色系统。通过迭代来获得我们满意的论文配图。

通过以上实际应用，GLM-4V-Flash 的卓越表现有目共睹。除了本文提到的功能，GLM-4V-Flash 在图像分类、情感分析、社交媒体内容生成、教育应用、美容建议、质量检测、数据标注等任务上同样表现出色。最重要的是，GLM-4V-Flash 完全免费，充分体现了智谱作为 AI 行业领军者的社会责任感与行业担当。

现在就访问智谱开放平台（https://open.bigmodel.cn/），体验 GLM-4V-Flash 的强大功能，让你的科研效率翻倍！

▼ 点击「阅读原文」，立即体验