专栏名称: 交互设计学堂
系统学习交互知识,就找老D。干货分享、在线培训、行知书院三大版块帮你提升自己。 最新资讯-全是干货还有老D点评,每天推送; 交互培训-在线课程帮助小伙伴进入交互行业,只要3个月; 行知书院-老D帮小伙伴们解读经典设计书籍,都是“硬”知识。
目录
相关文章推荐
设计诗designer  ·  Clara Joly ... ·  2 天前  
字体设计  ·  有你喜欢的人物排版设计风格不? ·  1 周前  
庞门正道  ·  一篇神文回顾。 ·  6 天前  
研途星辰  ·  科研绘图第20期 | 快速绘制好看的3D饼图 ·  6 天前  
研途星辰  ·  科研绘图第20期 | 快速绘制好看的3D饼图 ·  6 天前  
交互设计学堂  ·  设计灵感! 5个优质设计案例解析 ·  1 周前  
51好读  ›  专栏  ›  交互设计学堂

AI时代的用户体验新模式 · 输入革新篇

交互设计学堂  · 公众号  · 设计  · 2024-09-10 21:34

正文

全文共约7000字,通篇阅读可能需要一定时间。


AIGC产品浪潮,对于产品设计师来说或许是一个可以重燃设计热情,重新探索人们与技术进行新交互方式的契机。界面在不断进化,所以优秀产品设计的基础原理也比以往任何时候都更加重要。


当然如果你本身就是一名UX设计师,这个新系列下的这些UX模式你或许也会感到熟悉,只是来到一个新的技术载体,设计细节和定义会得到新的诠释。


这是AI时代的用户体验新模式系列文章的第二篇,输入革新篇,灵感来自Emily Campbell模式梳理,成文夹杂部分笔者自己对目前和未来AI产品的理解。话不多说,开始。


第一篇:

👉 AI时代的用户体验新模式 · 路径指引篇


AI产品的新数据输入方式,目前最主流的形式,就是将用户的提示词(prompt)与其上下文一同提交给AI模型。在AI模型中,用户的提示词与相关的上下文信息相结合可以提高生成结果的精准性和相关性。


AI需要分析用户的输入和之前的交互行为,理解用户的真实意图,提供更加个性化和符合上下文的响应。


以下对AI产品的新数据输入方式的新定义会分成八个部分。


自动填充、内联操作、变量填充、开放式文本、混合提示、AI摘要、综合处理、Token叠加


自动填充


这是一种让用户能够轻松将一个提示扩展到多个输入的产品设计形式。


在Excel中,自动填充就是帮助用户快速完成重复性任务的功能,现在自动填充会被扩展到生成式AI具备的基础能力上,用来连接已存在但尚未被充分利用的信息。


之前的自动填充功能更多是根据顺序或某种公式进行内容的填充,而在生成式AI能力的加持下,用户可以指示AI自动抓取数据库中的任意数据或者让AI补充数据(在数据源和推理过程都正确的前提下)。


要避免受到错误信息的影响,目前比较有效的方式就是增加信任标记,如标示置信度指标或信息来源,以便于人工进行二次审查和判断。


与开放式聊天不同,使用自动填充,更像是作为一种提示输入来更直观的建立用户日常任务与AI模型所能提供的价值之间的联系,因此就能快速建立起一个快速反馈的循环。


相比于直接在公共大语言模型(LLM)上开放式提示,以表格形式分享个人或专有数据的可能性会更大一些,同时依托用户可能拥有或愿意分享的数据,结合已有的结构,通过渐进式披露的方式提供路径指引的线索也会变得更加容易。


一些例子


Notion 的数据库 AI 工具允许用户自主设置提示并将其作为属性应用于数据库中。



Relay允许用户根据单个提示自动生成字段内容。



Coda使用模式识别根据现有数据自动填充空单元格。



内联操作


在整个AI对话的交互过程中,用户都需要基于页面上已有内容的上下文与AI进行互动,而有时候只需要修改AI生成结果中的一小部分(即微调)来进行结果的优化,这就是AI产品中的内联操作概念。


无论是回复、重新生成部分文本,还是引入新的内容,内联操作都能够让用户直接与内容进行交互,本质上就是赋予了用户更多的控制权,将AI从一个单纯的执行者转变为真正的协作助手。


常见交互形式:最常见的形式就是目前主流做法,当用户高亮某段文字时,系统会显示出回复或常用操作(如ChatGPT、Jasper)。这些交互通常是以线性形式推进的,但用户和AI都可以通过内联操作来进行二次参考,即在这种情况下,原始提示会成为新提示的初始参考。


当然一些产品的交互体验会更进一步,包含可以自动内联应用内能力的附加操作(如Grammarly、Notion),例如调整文本的长度、修改语气等等。这种二次修改让用户重新定义提示本身,并赋予它新的指令和参数。


高级交互形式:如GitHub Copilot,用户可以在IDE中直接添加、编辑或注释代码。用户可以指示AI参考代码或内容生成想要的结果,但交互操作时也只会对部分代码进行重生成,就像针对特定内容的二次编辑功能,或者可以称之为修补功能。


多模态交互形式:从语音到图像识别,这是AI内联操作的理想形式,比如能够让AI及时终止,忽略早前的对话部分,聚焦于当前交互,这也就意味着用户能够完全掌控AI的注意力。


在真实的日常交流中,我们经常会回顾之前的发言、调整语气或者重新表述观点,实际上内联操作的交互模式就非常类似于这种自然的对话方式,因为这个模式赋予了用户更多的精确控制,可以有意地逐步迭代AI的输出,保留有效的部分,丢弃不合适的部分,产生更个性化的结果。


前面说到这部分特性也就意味着AI模型需要提供清晰的历史记录,否则用户无法追溯有效的更改,妨碍用户回顾有效步骤或从生成的内容中学习。


一些例子


Github Copilot 允许用户与编辑器中的任何代码行进行内联交互和提示。



Hubspot允许应用单个操作来重新生成内联文本。



ChatGPT 允许引用一段文本并将其作为目标引用进行再次回复。



变量填充


变量填充更确切的讲实际上依托于工作流(后面介绍)的交互模式,指的是可以反复执行生成任务而不影响格式或准确性的输入类型,是后续用户可以再次编辑的内容。


它允许用户一次性定义好项目之间的关系或者提示的格式,然后反复使用,而不破坏提示词的底层结构。这种模式最大的好处就是通过限制,当任务的基本参数是已知的以及输入数据是结构化的时候,可以最大程度避免在执行其他任务时发生不必要和随意的错误。


比如要创建同质化功能的PRD(产品需求文档),因为其文档结构和格式通常是固定的,输入的来源以及类型也是清晰的,当然目前的模型能力还做不到用AI自动创建真实可行的PRD,但是可以通过使用工作流和输入类型的约束来将多个来源的信息汇总到一个地方,便于检索。


同时变量填充也可以被分解为多个步骤,它的格式通常也是由多个输入和参数构成的集合,用户可以指定提示,也可以留下一些开放的输入供其他用户填写。这样多个上下游用户就可以基于同一个提示工程来进行工作,而不需要重新编写或调整提示。


会在很多工作流中看见变量填充的存在,用户可以手动输入触发器或交由自动化完成,然后工作流机会无缝执行其余部分。


当然变量填充模式的反复使用时很可能会导致内容过于公式化,这也是目前普遍存在的问题,比较好的应用场景是前期的头脑风暴,但要确保最终面向用户的内容有真实的“人性化”元素,而不是AI味儿。


一些例子


比如将会议笔记从Gong同步到Salesforce中的工作流,其建立目的就是为了将来自其他来源的信息以及AI生成的信息进行整合。


又比如Writer.com和Copy.ai的共享提示词库建立,如语气、受众对象等细节只需定义一次,然后就可以复用到到提示模板中。


开放式文本


开放式文本输入模式目前是交互式AI产品设计的核心部分,通过简单直观的界面,鼓励用户与AI系统进行对话。当然在目前的大模型能力下,这种交互模式最主要的特点在于应用用户最熟悉的对话框形式,使用户可以相对“最自由”地用自然语言与模型互动。


自然语言是人类习以为常最自然的交互形式,当用户明确知道自己想要什么时,例如在搜索场景或者一些特定的业务场景中,这种模式非常有效。


当然有效是针对明确的场景,如果当用户在开放聊天框中不知道接下来该说什么/该干什么时,还是会陷入到选择困境,即所谓的“空白画布效应”。


简单的设计不等同于用户能够容易使用。实际上,大多数用户并不具备编写出能与他们预期结果匹配的提示技巧。


第一篇提到的所有路径指引模式 👉 AI时代的用户体验新模式 · 路径指引篇 可以帮助用户快速启动对话,但目前的产品设计大多只是局限于提供一些启动对话的线索,而缺少更多能够帮助用户构建更好提示的辅助功能。因此在目前大多数主流AI产品中,用户常常会感到互动缺乏一致性、可预测性,或者返回的结果质量不如预期。


开放式聊天的交互模式当然不会消失,只是随着模型能力的提升和用户体验的追求,会逐步演化为以下的模式:


设定优秀的提示模板可以帮助用户在没有完全掌握提示技巧的情况下编写出更好的提示词。


通过渐进式披露提示来引导用户改进自己的个性化提示,告知更好的提示应该是什么样的。


同时提供足够智能化的过滤器和参数使复杂的功能更易于使用。


当然最主要的还是做到AI能力的提前显化,让大模型的回答不止关注初次互动,还要想想下一步用户想要做什么?即对用户意图的及时反馈的提前感知。基于AI的及时响应用户可以快速迭代对话需求,形成“类似”人类之间的动态互动。同时这种即时反馈回路可以帮助用户更好地理解AI的功能性和局限性。


但是,开放式文本形式的交互模式不是万能的,它只是目前让用户接受的相对最合理形式,它确实也存在不少问题。


第一是自然语言本身具有模糊性,所以误解与歧义就不可避免了,在缺少结构化输入的情况下,用户可能会以AI难以正确理解的方式进行提问,也会导致得到一些不满意或无关的响应。


第二是开放文本模式的有效性和准确性高度依赖于训练原料的真实性和准确性。


第三则是目前还未受到重视的隐私和伦理问题,这个问题实际上对于AI时代的产品来说反而是最核心的。由于互动的开放性,用户可能会向AI分享敏感信息或个人隐私信息,那么强有力的数据处理和隐私政策法规就非常有必要了,只是这个问题确实任重道远。


一些例子


开启对话框交互模式的ChatGPT。



Notion 的启动页面也是非常开放式的,依靠一些提示引导来帮助用户开启对话。



像Julius这样更具体的上下文中,对话框提示也会更加具体。



Fin的AI交互模式也是遵循最熟悉的对话框交互模式。



混合提示


混合提示是指可以结合多个来源的提示或其他资源来获取到结果。理论上通过对tokens(令牌)的混合和重组,用户能够获取到无限创意的多样化提示。用户可以将来自多个来源的标记组合在一起,或者在初始生成后添加额外的标记和参数,从而引导AI提供生成更理想的结果。


“互动越多,用户对系统的理解就越深入”,用户无需了解背后复杂的运作机制,只需要通过前端可视化的功能模块进行混合提示。


图像生成器允许用户将不同的图像结合在一起,或将图像中的标记作为开放式提示的输入来源。


内容编辑器允许用户引导模型以新的参数重新生成结果,比如“更简短”或“更口语化”这样的提示。


文档解析器可以总结网站、文档或附件中的信息,并允许用户与文本进行“对话”。


聊天机器人保存对话的历史信息,即使对话已经继续,用户也可以检索或询问之前的内容。


混合提示,就像是哼唱熟悉的旋律但填上了新的歌词,这种重新组合的形式最大的好处就是当用户未能从提示中得到他们想要的结果时,提供参考点或允许添加新信息能帮助他们重新掌控信息。


不断的开放式文本形式难免会让用户疲倦,这时候通过混合提示,用户也不必着急在第一次得到完全正确的回答,每次输入都将他们引向目标,这种探索形式给予用户探索感的同时也保持了用户参与感。


当然混合提示下每一组新的信息都会为模型引入更多的处理内容,也就增加了结果混乱的风险。需要引入让用户感到可预测的方法,比如支持用户查看改进提示的方式,为用户提供设置更优参数的线索,精简提示词的明确提示等,核心就是让用户输入更符合大模型的“认知”习惯。


一些例子


Grammarly会提供关于如何重新组合写作内容的建议。



Notion的AI文本生成器包括用于混合提示的内联提示。



Midjourney可以直接从不同来源提取tokens,不需要额外的提示。



Images提供了多个可以让图像重新混合的功能。



AI摘要


通过非AI或AI生成摘要的模式其实一直都存在,对于AI产品来说,最大的是机会就是将摘要这一模式与其他模式结合起来,最彻底的提效模式就是让用户感知不到任务的存在。


对于会议纪要、准备对话、阅读文档这样的场景来说,AI摘要模式可以为用户提供了一条捷径,忽略不重要的部分而专注于真正重要的部分。


结合引用,摘要可以捕捉长篇文档中的关键要点,同时向用户提供关联信息;结合综合,摘要可以将多种内容输入提炼为主要要点;结合工作流程,摘要可以自动添加到特定文档或其他位置,便于后续信息检索。


当然在实际应用过程中要使用披露标识清晰明确标注摘要,同时为了最大程度避免AI可能会遗漏信息或报告不准确的情况,可以结合引用和来源,显示引用和指向来源的路径。


对于大多数AI系统来说,AI摘要模式是一个可以直接引入的低风险模式,比如视频转录类应用、新闻类应用、信息洞察类应用,大部分都已经默认引入了AI摘要模式,不再需要用户再编写内容或再次点击交互。


AI摘要确实可以帮助用户快速获取重要信息,但摘要不能代替原始信息。因此还是需要保留引用和来源让用户找到返回原始信息的路径,AI帮助用户在关键点深入了解,但同时也要避免失去摘要存在的上下文。


一些例子


Grain在文字记录旁边会包含AI生成的摘要,并且通常带有时间戳。



当用户查看客户记录时,Salesforce Einstein会显示一个内联摘要示例,该示例可在上下文中使用。



Notion可以嵌入信息卡片,通过单个命令来汇总页面上的数据。



Jira可以为用户制作个性化摘要,同时包含其他来源的链接以进行下一步操作。



综合处理


综合处理的输入模式,指的是将来自多个来源的数据经过重新组织提炼成一个单一的输出。


如Miro或Figjam,用户可以选择置入多个便签或文本输入,由AI综合关键主题,重新分配类别和关键词。比如按关键词、情感或其他特质进行聚类。



比如一些数据分析工具,可以将多个数据点或数据集整合成单一的图表或仪表板。


对综合处理的交互模式来说,用户可以拥有未结构化的数据,AI帮助组织这些数据,或者用户拥有结构化的数据,AI帮助将其转向新的信息组织方向。


综合处理也是一种结合其他模式共同使用的简单模式,它允许用户自主选择他们想要合并的内容,让用户控制要综合的数据(如Perplexity生成初始来源后,允许用户添加或移除额外的来源),同时也提供了多样化选项,结合用户需求,综合成相对最具可读性的输出形式,比如可视化图表、多段视频、文章等等。


同样的问题,AI可能存在的局限性会导致组织方式的幻觉,因此对于综合结果的最终判断还得依靠决策者自身的经验。


一些例子


Figjam可以综合整理信息。



Figjam也提供便签文本的综合和总结功能,可作为一种捷径模式。



Shopify的商家洞察数据工具可以将大型数据集合综合成关键要点,甚至生成视觉效果以帮助讲述故事。



Blackboard提供了一种通用的综合模式,可以自动从文本中抓取标记,并使用它来生成可以插入到内容中的图像。



Adobe的PDF处理工具可以综合处理内容量很大的文档并罗列出关键点。



Token叠加


AI是依赖Token(令牌,一些特定标记)来理解用户的提示并将其转化为结果。Token的选择同样遵循人类的自然沟通方式,不同的词语和表达方式会有不同的意义,加上一些特定词语本身就携带了其被关联的意义,比如在一些语料学习中,panda熊猫在不注明的情况下,其关联的地点通常是中国。


Token叠加就是一种再通过人为故意组合的形式,来精炼AI对提示词的理解及其响应方向的交互(技术)模式。


 目前以Web为载体的产品界面趋向于将开放式提示与Token叠加结合起来,例如,Adobe Firefly使得在提示中添加和查看Token变得非常容易。



Token也可以作为对初始提示的后续操作来引入,比如Jasper在提交提示后会再自动生成后续问题,这些问题本身作为二次输入的额外Token,这种方法的好处就是让系统能更好地理解用户意图。



同样,Token也可以作为后续操作直接引入,以帮助用户指导AI如何修改结果。在这种情况下,建议可能来自于一个固定的列表(如Grammarly),或者来自现有上下文的自动生成内容。这种收集用户Token和额外参数的方法实际上还是渐进式披露的一种形式。



Token叠加在不同上下文中会存在差异:通过技术接口(如在Discord 中使用 Midjourney),Token叠加是需要手动由用户直接输入的;基于网页的接口(如 Adobe Firefly),Token可以更具视觉化,也就是传统用户体验设计中的,明确且可被快捷调整的原则。


无论哪种情况,都要提供简便的方式让用户理解Token的权重是如何影响最终结果的。


应用Token叠加需要注意平衡准确性与渐进披露两者之间的关系。实际上,从小提示或一些关键token列表开始,并逐步添加,可以有效调整结果。在用户路径上,考虑AI需要多少上下文才能得到准确的响应,提供一些有效的帮助用户扩展输入的建议。


当然最理想的形式还是利用AI来使用AI,相比提供一套固定的Token列表供用户选择,或完全开放式对话,可以利用AI生成建议的附加Token供用户选择添加。但不能忽略的一点是,生成多个结果的迭代在实际使用产品的时候是有成本的(不管是金钱还是精力),需要寻求一个平衡点,既能通过迭代学习,又能尽早提供一个高质量、接近用户初衷的结果。


一些例子


输入第一个提示后,Perplexity会添加后续操作以捕获其他标记,每个跟进也是自动生成的。



Udio将开放式提示与特定Token相结合,以便让用户生成更理想的结果。



上面提到的8种AI产品的新数据输入方式,自动填充、内联操作、变量填充、开放式文本、混合提示、AI摘要、综合处理、Token叠加,囊括目前大多数主流AI产品的输入模式,但其实也仅是以文本输入和对话形式为主体的交互模式,未来随着AI模型能力和信息载体的迭代,或许会出现更多更具创新性和模态拓展的模式。


后续预告:AI时代的用户体验新模式系列文章的第二篇,调优工具篇。

— END —


注:交互设计学堂公众号接受投稿啦,如果你有好的原创设计类文章,可联系客服。别让灵感溜走,快来投稿吧~~