专栏名称: 交互设计学堂
系统学习交互知识,就找老D。干货分享、在线培训、行知书院三大版块帮你提升自己。 最新资讯-全是干货还有老D点评,每天推送; 交互培训-在线课程帮助小伙伴进入交互行业,只要3个月; 行知书院-老D帮小伙伴们解读经典设计书籍,都是“硬”知识。
目录
相关文章推荐
交互设计学堂  ·  AI时代的用户体验新模式 · 调优工具篇 ·  4 天前  
优秀网页设计  ·  一个顶 6 个,多合一 AI 搜索神器 ... ·  5 天前  
庞门正道  ·  老板,你这狗也太潦草了吧! ·  6 天前  
庞门正道  ·  今天中秋,明天上班! ·  1 周前  
庞门正道  ·  理发店大冒险。 ·  1 周前  
51好读  ›  专栏  ›  交互设计学堂

AI时代的用户体验新模式 · 调优工具篇

交互设计学堂  · 公众号  · 设计  · 2024-09-20 21:30

正文

全文共约6000字,通篇阅读可能需要一定时间。


AIGC产品浪潮,对于产品设计师来说或许是一个可以重燃设计热情,重新探索人们与技术进行新交互方式的契机。界面在不断进化,所以优秀产品设计的基础原理也比以往任何时候都更加重要。


当然如果你本身就是一名UX设计师,这个新系列下的这些UX模式你或许也会感到熟悉,只是来到一个新的技术载体,设计细节和定义会得到新的诠释。


这是AI时代的用户体验新模式系列文章的第三篇,调优工具篇,灵感来自Emily Campbell模式梳理,成文夹杂部分笔者自己对目前和未来AI产品的理解。话不多说,开始。


之前的同系列文章:


👉 AI时代的用户体验新模式 · 路径指引篇

👉 AI时代的用户体验新模式 · 输入革新篇


调优工具模式的核心在于,让用户能够自由调整或重新组合提示,从而获得更好的结果。

接下去对AI产品的调优工具模式的新定义会分成八个部分。


过滤器、局部重绘、模型管理、参数、个性化表达、原始资料、参考资料、工作流


过滤器


概念上其实和传统产品的定义是差不多的,指的是让用户根据来源、类型、模式等,预先明确的约束或限定AI的输入或输出。通过设置过滤器,用户可以更有效地控制AI的工作方向和输出结果。


过滤器与早期的参数设置(主要指用于引导AI的重点方向的关键词)其实有些类似,不同之处在于,过滤器会提供更严格的边界,限定了AI应考虑的参考内容,改善AI 模型的道德标准以及限制了输出的具体格式和模式。


用户使用AI的流程本质其实就两个方面,微调输入和控制输出。具体到不同的场景下:


聚焦场景:用户清楚自己最终想要的结果,并知道如何实现,比如重新编辑现有内容更改语气转换格式等。


导航场景:用户有明确的目标,但不确定应该如何实现,比如寻找问题的答案,但不确定哪些输入能让AI提供正确答案等。


综合场景:需要从一组已知数据中得出一些未知的结论或决策,比如寻找已知数据中的趋势和信息洞察等。


浏览场景:纯粹的发现内容模式,尝试不同的输入探索并观察其产生的结果变化,比如使用不同的词组进行重组提示,观察会生成什么样的结果进行对比。


同时过滤器作为一种绝佳的模式可以用来平衡用户需求和企业需求,商业体验和用户体验。


作为一种授权型的过滤器,作者可以给自己的作品添加元数据,允许其按照特定的商业条款授权作为一种高级过滤器引入给模型使用。同时面对不同的目标受众,输出模式也可以作为AI结果的高级过滤器,尤其是在使用具有作者归属的数据时提供给用户时。


AI产品始终绕不开大型模型训练数据的伦理问题,引入过滤器AI就可以根据权限、合法性、个人数据等因素,重新组合或排除训练来源,是一种思路。


当然因为存在过滤和筛选,也会出现数据集过于狭窄的风险,实际应用要避免AI会从非常少量的低质量信息来源中提供荒谬的答案。


一些例子


用户可以直接在 Midjourney 的聊天界面中添加负向参数。



Jasper这样的写作工具可以让用户选择偏重速度或质量。



Hypotenuse相比Midjourney可以更轻松地管理常用参数,但同时也缺少了灵活性。



Coda的自动填充提示。



局部重绘


用AI提效,就需要让AI直接与内容产生互动,而局部重绘就是这样的交互模式,针对 AI生成结果的特定区域进行再生成或混合,换言之就是能够让AI调整一部分内容,而不会重新生成或影响整体内容。


局部重绘的核心就是让用户始终保持其对AI的控制感,AI并不会直接操纵源内容,而是根据用户的指示提供对源内容的改进建议。当然最理想的实现方式是让用户清楚只感知到应该如何改进现有内容,然后由AI生成靠谱的建议选项,而不需要用户太多思考。


例如,Adobe Firefly和Midjourney都会提供四个生成选项供用户选择。Notion则允许用户在获取到最终结果之前先对局部重绘的内容进行再调整。



AI作为一种工具更像是一种编辑器,用户可以给出指令或请求反馈,AI审查后提供多个建议调整的选项,用户可以选择接受、拒绝或再生成这些建议。


局部重绘本身作为一种功能,一方面在需要界面中清晰可见,另一方面应该提供便捷的用户操作,两者结合就能降低要求用户在最初提示中就掌握完美指令的压力。


因为存在修改,且用户只有再次运行关键词才能知道建议的关键词是否更好,所以需要引入比如版本控制、提交、分支类似的手段来跟踪AI的调整。


一些例子


Github Copilot可以根据和用户的对话提供建议,并支持将生成的代码内联插入到原有的文件中。




Grammarly允许用户使用新的标记、提示和参数调整选定的文本。


Midjourney的局部重绘支持调整特定区域。


Adobe Firefly通过将所选区域渲染成透明在视觉感知上告知用户局部重绘的作用。



模型管理


对于AI产品来说,选择的模型是生成内容的根本,尤其是一些支持调用多模型的产品因为模型本身的差异,就需要允许用户指定使用哪个模型进行内容生成。


从用户角度出发,希望切换生成模型的原因会有如下几个:


不同模型本身存在偏好:由于训练数据和基础提示的差异,一些模型可能会出现幻觉或错误。


新旧模型的差异:更新较新的模型通常会包含更新的参考资料和更多的数据集,能够生成相对更好的输出,但同时也意味要支付更高的费用。


不同图像模型的美学选择和风格差异:图像生成器可以通过不同模型实现不同的美学效果,就像尽管数字录音版本会有更高的音质,有人可能也会选择用黑胶唱片来欣赏某张专辑的氛围感。


对模型的安全性考量:用户可能会避免在某些未有强背书的模型中处理敏感或个人数据。


结果比对:和搜索引擎类似,也希望在多个模型之间切换以比较生成结果。


通过探索不同模型对最终结果的不同影响,用户可以学会调整提示,获取在不同模型中可预测可对比的输出,或利用它们的差异实现更丰富更具有想象力的效果。


允许用户更改模型,再放开一步让用户能够上传“自己的模型”,从用户反馈角度可以让产品设计者发现一些在大规模用户使用下难以轻易发现的界面设计改进点和模型微调整点,也就是通过反馈和提示结果将用户转化为改进模型的“共同拥有者”,共同提升模型的整体质量。


当然支持更改模型并不意味着责任转移,设计者需要确保用户明确知道他们使用的模型,并尽可能告知用户不同模型存在的差异。


一些例子


Claude、GPT等都允许用户从可用模型范围中进行选择,以满足不同的需求。



Midjourney提供了在提示中直接更改模型的选项。



ChatGPT支持随时更改对话中的模型以探索不同的结果。



参数


参数通常会和过滤器关联使用,过滤器主要约束输入和输出本身,例如参考来源或最终结果的格式,而参数则通过在提示中包含约束条件来影响诸如语调、标记、风格、参考等不同元素的权重。


最开始在Midjourney中,参数是需要手动写入到关键词描述中的,比如你可能需要添加--no[token]作为参数标记,以排除AI合成中的某些标记,用户直观感受上多个参数就是和初始提示结合在一起的。


然后结合传统的UI模式,例如默认值和选择器,以及自然语言的输入,参数模式开始演变为对用户更友好的界面模式。在基于标记生成内容的AI生成器中,让初始选择变得非常简单,提供一个基本的选择器,例如让用户在AI结果的速度和质量之间做出偏好选择。然后文本生成器通常会在用户使用提示前时,会有比如关于语调、简洁性等参数作为引导。



Midjouney的Alpha web界面就使得基础参数控制更容易被发现和调整,但是代价就是限制了更多参数的发现和尝试。



在需要一个更简单的界面来快速上手的场景下,较多的前期选项对于用户来说是受益的,基本参数的选择则受到多方面考虑的影响,例如,Udio音频生成器前置显示的参数有助于用户在第一次尝试时更容易获得一些有趣的结果,显然,这是产品设计者认为有用的增长点。


参数可以遵循用户的意图,根据用户的需求调整AI的约束力度,使其在生成结果时更加聚焦,而不是依赖系统或训练数据的默认设置。


参数可以为AI指定不同的生成条件,适用于所有媒体类型,从图像生成器中的图像分辨率和变化范围,音频生成器中的语调和风格,到文本生成器中的风格和结构都可以进行设置。对于用户来说,能够显式设置AI的边界,而不必依赖复杂的提示技术。


当不需要严格的条件约束时,结合一些意料之外的参数(比如语调和受众等)可以像头脑风暴一样扩展AI的可能性。


一些例子


Midjourney已将其标准参数作为选项构建到Web UI界面中。



Grammarly会提供预设参数。




Hypotenuse允许用户选择音调作为输出参数。


个性化表达


在AI实际生成可落地且服务专业的内容中,需要确保生成的内容始终符合用户期望的语气、语调和偏好,即一致性和稳定性。个性化表达意味着无论是个人还是品牌,都可以保持个人/个体一致的语气和风格。同时还包括能够重复使用相同的参数或输入,即参数的复用。


AI的人格影响的是它会如何与你进行互动,而个性化表达影响的是AI如何通过生成内容反映出用户(训练者)的风格。


许多支持关键词模版的工具允许用户或团队存储术语或信息,供以后生成时使用。比如Copy.ai允许团队保存关于品牌、产品和趋势的信息,后续可以将这些内容作为参数引入到提示中。


如果产品使用场景涉及到商业或专业用途或其他可能比较定制化的场景,语气和风格控制,用个性化表达来定义产品差异化,会成为关键功能。个性化表达功能可以拓展基于相同模型的开放式聊天框的实用性。


一些例子


Grammarly允许用户设置特定参数来构建自己的个性化表达。



Jasper支持使用不同的输入方式来定义自己的声音。



Copy.ai会提示用户在对话中添加品牌声音。



原始资料


在一些应用场景下,单一的提示通常难以完整传达用户意图,这个时候引入原始资料,用户就可以提供给AI一个包含大量数据的参考,以此帮助AI生成更精确更具有针对性的响应。


原始资料作为指导:我们知道AI是使用包含数据的tokens来理解用户意图并生成匹配的结果。那么通过提供明确的参考原始资料,用户就可以让AI更清楚地理解他们的需求。参考的原始资料作为初步过滤器,帮助AI在构建响应前就聚焦于特定数据。


原始资料作为主体:在某些情况下,原始资料是提示本身的主题,比如当用户要求AI总结、综合或分析某份文档时。这类使用场景下,参考的原始资料与一般参考资料的界限开始模糊。关键区别在于,原始资料是AI显式处理的对象,而一般参考资料是作用在LLM上的一层提示。


当你有明确的意图希望AI生成一些特定的内容,或者希望AI在生成回应时明确地与某些内容进行互动,就可以考虑引入参考性的原始资料了。


我们常说的一图胜过千言,为AI提供希望生成的内容示例,可以极大增加让AI理解意图的可能性,尤其是对于生成像语调和风格这样难以描述的细节时。


但是原始资料本身会存在一些潜在风险,如果原始资料包含未经用户察觉的抄袭作品或不准确的研究结果,一方面可能会因为自动化偏见而导致我们对AI生成的结果缺乏质疑,错误累积就会降低对AI的信任感。另一方面如果原始资料包含了个人数据,可能会导致不道德甚至非法的行为,并可能导致未经授权的数据传播。


因此验证原始资料的所有权对于产品设计者来说很重要。比如Udio不允许用户上传没有版权的歌曲作为参考的原始资料。


一些例子


Midjourney允许用户添加图像作为主要参考来源的原始资料,供AI参考以获取其标记。



Copy.ai 可以通过引用示例文章来生成特定语气。



Adobe PDF可以直接与作为主要来源的PDF进行交互。



参考资料


参考资料指的是AI在生成回应时引用的其他信息来源。


早期的LLM(Large Language Models大语言模型)仅限于其训练数据和上下文窗口,导致其知识结构会存在缺陷,并且回答时会出现大量“幻觉”,即AI尝试回答其并不清楚的问题。而RAG(Retrieval-augmented generation检索增强生成)的引入则允许 LLM结合其基础数据和外部来源,极大增加了其可利用的数据连接。


虽然模型的训练数据是私密且难以解析特定参考的,但RAG技术能让用户去引导AI引用的数据,换言之为用户提供了AI使用其他数据的透明性。


最早利用RAG的AI产品Perplexity向用户提供上下文搜索结果的同时,给用户一个直接找到来源的简单方法,也提供了一个 AI聊天机器人,用户可以通过与其对话来改进或扩展结果。随之迭代为类似引导和使用初始参考资料来构建首次提示迭代的路径指引模式,出现类更贴合用户体验的模式,比如允许用户连接多个私有数据源供AI参考,同时保护这些数据不会被纳入 LLM的主要训练数据中。



通过RAG来聚合其用于构建或综合结果的数据来源,同时也能让用户查看和管理参考资料来源正在成为一种AI产品的标准模式。


在初始提示中使用的参考资料可以引导AI朝正确方向前进,因为这种引用意味着用户意图,所以添加或删除参考来源是一种允许用户调整AI视角的好方式。


将数据源与过滤器或参数结合起来,用来调整AI的语气、受众感知、技术深度等,这几乎相当于通过各种参考资料的混合实现了一种类似于Token叠加的效果。


关于Token叠加的定义:AI时代的用户体验新模式 · 输入革新篇


但是既然是参考,信息源质量依旧决定着AI回答的质量,如果参考资料就是充斥着未经验证甚至虚假受到污染的信息,那么AI只会解析来源中的相关信息,无法独立验证信息的准确性。


一些例子


ChatGPT 可以直接连接到GoogleDrive或OneDrive文件作为参考源。



Notion AI可以和基础基础连接,将相关参考文献与其结果结合起来。



Leena提供了RAG服务,可以直接和知识库集成。



工作流


工作流指的是通过逻辑将生成步骤串联起来,实现自动化合成、创建或发送内容,它能够将一次性将多个提示结合在一起,带来更一致的生成结果。


工作流允许所有者和发起者为每个步骤定义一致的、集中的提示过程,同时还可以将工作流定义为模板,供其他人按需重复使用。通过工作流整个流程的自动协调,可以更好地控制内部数据在系统间的流动。


AI生成式工作流与现有的传统工作流模式存在很多共性,一个完整的工作流理论上可以包含无限步骤,且每一步都是独立的提示或操作,可以和其他平台集成,既可以引用外部数据,也可以将其提取到工作流的核心系统中。


步骤独立的好处在于通过运行每个提示并生成示例结果可以及时测试工作流的准确性。将提示嵌入到由AI驱动的工作流中,下游只需在指示的提示地方输入少量信息就可以跑通整个流程。


通过一次性放置过多提示词会让AI偏离原先的轨道,难以构建并返回可预测的准确结果。工作流可以解决这个问题,将提示分解为基本构建块,让每一步都变成靠逻辑驱动的提示。作为单一提示,满足实际业务需求的指令可能会显得复杂且难以管理,但作为工作流,每一步都会变得简单明了,因为每一步都是由逻辑串联并能轻松扩展。


当然,工作流的存在就是为了简化和提效,如果将工作流本身设置的过度复杂化难以理解,这样就有些舍本逐末了。


一些例子


Copy.ai支持设置多步骤工作流程,也可以保存为模板供其他人使用。




上面提到的8种AI产品的调优工具新模式,过滤器、局部重绘、模型管理、参数、个性化表达、原始资料、参考资料、工作流,设计目标都是通过对AI生成内容的持续改进,帮助用户获得更为精确和符合预期的生成结果。


调优工具的高阶功能存在一定的学习曲线,特别是在理解复杂参数和其对生成结果的影响时。同时,依赖特定参数组合还是依靠用户自由撰写开放文本,也依托于对生成内容的多样性还是特定性的实际需要。


后续预告:AI时代的用户体验新模式系列文章的第四篇,调控器篇。


或许也值得一看的文章


- END -


注:交互设计学堂公众号接受投稿啦,如果你有好的原创设计类文章,可联系客服。别让灵感溜走,快来投稿吧~~