昨日行业动态丨突然爆火！小熊猫神秘模型排名超越 FLUX 和 Midjourney

优秀网页设计 · 公众号 · 设计 · 2024-10-30 13:31

正文

大家好呀，还有 2 天就是万圣节了，有没有需要制作万圣节相关宣传海报的小伙伴呀，记得来优设网找设计灵感和素材哦，近期官网分享了很多相关题材的教程呢~

接下来一起看看昨天都有哪些“大事件”吧，关注我，每天几分钟带你掌握设计圈新鲜事，AIGC 趋势早知道！工作日也不无聊，快加星标，轻松获资讯！🎁

这个不得了了，vidu 升级了 AI 模型，支持选取任意主体，包括人物、动物或物体作为参考。生成高度一致的视频，并且支持多种画风，真实场景、2D、3D风格，无论是脸部还是半身、全身，都能做到高度一致性以及可控性，快来看看吧~

你只需要上传一张图片，然后框选出参考主体，然后加上提示词，点击生成，很快一个相同人物的不同场景视频就生成了，并且这是完全免费的。这对于不会使用comfyUI 的朋友来说简直太方便了，并且该模型支持商业使用，赶快试试吧！

1. 神秘模型“小熊猫”爆火，排名超越 FLUX 和 Midjourney

近日，一款名为“red_panda”的新型图文生成模型迅速走红，其性能超越了 Flux、Midjourney 等知名模型，以 79% 的胜率和每 7 秒生成一张图像的速度引起广泛关注。该模型的来源成谜，引发众多猜测，很有可能来自中国厂商。

2. ChatGPT 新增重磅功能！能打造自己的聊天数据库了

OpenAI 近日推出了 ChatGPT 的新功能，允许用户快速搜索历史聊天记录，极大提升了信息检索效率。这一更新对写作、教育、金融和医疗等行业尤其有益，帮助用户构建个性化的聊天资料库。新功能将分阶段向不同用户群体推出，免费用户将于下月获得访问权限。

3. 微软开源 OmniParser 纯视觉 GUI 智能体，可跨平台工作

微软公司宣布开源 OmniParser，是一款解析和识别屏幕上可交互图标的 AI 工具。该工具并不需要依赖额外的上下文数据，可以理解更复杂的图形用户界面。OmniParser 结合可交互区域检测模型、图标描述模型和 OCR 模块等，不需要 HTML 标签或视图层次结构等显式基础数据，能够在桌面、移动设备和网页等上跨平台工作，提高用户界面的解析准确性。

4. 智源联合高校开源 Video-XL，打破长视频理解极限

Video-XL 是一款专为高效的小时级视频理解而设计的超长视觉语言模型，利用“视觉上下文潜在摘要”技术将长视频内容压缩成精简形式，提高效率并保留关键信息。在多个长视频理解基准测试中表现出色，效率和效果平衡。应用前景广阔，可用于电影摘要、监控异常检测和广告植入识别。

5. 苹果 iOS18.2 确认于 12 月推送，将为 Siri 植入 ChatGPT

苹果公司宣布将在 12 月推出 iOS18.2、iPadOS18.2 和 macOS Sequoia15.2 系统更新，引入革命性的 AI 功能升级，包括 Siri 首次接入 ChatGPT，为用户带来更智能、更便捷的体验。

6. xAI 为 Grok 添加图像理解功能，还能看懂梗图的幽默

马斯克旗下 xAI 公司最新为其 AI 模型 Grok 增添了图像理解功能，用户可上传图片向 AI 助手提问。马斯克展示了 Grok 的新能力，包括理解图片内容和幽默元素。功能仍在早期阶段，团队将持续改进。xAI 通过与黑森林实验室合作，新增多模态理解功能，提升用户体验和开发者 API。

以上就是今天的读报内容，大家对当前的内容安排还满意吗？或者说你还想通过这个栏目关注哪些资讯呢？大家可以评论区给一些建议，谢谢！