专栏名称: AlibabaDesign

这是一个充满魅力的组织，是一群疯狂热爱用户体验的家伙；这里有国际音乐家、有舞者、游戏玩家、摄影师以及各个领域的爱好者；我们坚信，创新、设计、技术和客户第一的价值观粘合在一起，一定会创造出我们为之疯狂的用户体验！

挑战熟知，人机交互系统工作效率的定量测量

AlibabaDesign · 公众号 · · 2020-09-02 21:07

正文

商业设计做得久了，大家一定见过很多这样的理论和说法：“重要信息一定要放在左上角”；“文字14号最适合阅读”；“最适合阅读的行宽是60~75CPL（character per line）”等等。一直以来，这些理论从用户体验的学术圈流传到商业设计圈，商业设计师们大都口耳相传，一般很少，或基本没有机会去验证这些理论是否准确。

直到最近，阿里巴巴安全体验设计需要对一套业务系统的人机交互效能进行优化，而衡量这套系统效能的重要指标便是工作人员对信息的读取和综合判断速度。

那么既然提到了人类对信息的读取速度，首先我们想到的便是上述的那些理论。比如字体和字号，文字颜色和文字的背景颜色，字间距和行间距，以及文本宽度和布局等等是否会影响到阅读的速度。有些从一些文献中可以找到直接结论

比如：

中文的基础阅读速度 ：大约562~622wpm （word per minute），实际跳读速度可能远快于这个水平 @《论中文的阅读速度》廖建桥,张万山，1996
字体和字号，文字颜色和背景颜色对阅读速度的影响 ：分栏与字色在阅读指标和眼动指标上交互作用均不显著 @《字色与分栏对英文阅读影响的眼动研究》孙玉婷，2016
字间距和行间距对阅读速度的影响 ：在增大空格的条件下，平均注视时间最短，向前眼跳幅度最长，表明增大字间空格在一定程度上减少了视觉拥挤。但是其他眼动指标并未体现增大空格的促进作用，可能是由于在增大字间空格条件下，增加了句子呈现的物理长度，使得注视点个数增多，因此产生了注视点与注视时间的权衡，所以在整体阅读时间上并没有表现出更大促进作用 @《汉字空间格大小对青年和老年人阅读的影响》，2020 ；在一定字号范围内，不同字体大小的阅读速度无显著差异 @《眼动对中文阅读速度的影响研究》2007
分栏与阅读速度的关系 ：在单栏阅读时，受试者会指向屏幕，但在三栏阅读时很少这样做，这表明受试者在单栏阅读时很难保持自己在文本中的位置 @《THE EFFECTS OF MULTIPLE COLUMN ONLINE TEXT ON READING SPEED, READING COMPREHENSION, AND SATISFACTION》 RyanBaker，2002

根据以上论文，我们大致可以判断文字字体，字号和间距可能对阅读速度（或视觉搜索速度）的影响不大，而文本宽度和排列情况对于信息输入效率的影响则没有找到基于中文环境的明确结论。所以我们决定在优化系统效能的开始阶段，首先通过试验，确定文本宽度对阅读效能的影响情况。并通过后续一系列试验，逐渐沉淀出一套对人机交互系统工作效率定量测量的方法。在这篇文章中，主要目的是以这次试验为实例，分享一些我们现在使用的定量试验设计方法和分析思路。

试验设计

1. 试验目标

确定在23英寸显示器，放缩倍数100%，1920*1080分辨率，中文环境下，100%全宽度文本，50%宽度文本，25%宽度文本对视觉搜索效率的影响情况。

2. 环节设计

（1）n位被试同时进行A，B，C三组测试；

（2）ABC三组测试每组20道试题，ABC具有不同的样式，分别对应100%，50%，25%的文本宽度。

ABC三组中的每道试题由红色文字的结论，和黑色文字的描述组成。被试需要根据黑色文字描述判断红色文字的结论是否与描述一致，如果一致，则选择‘对’选项，反之选择‘错’，之后点击提交按钮提交。

这些试题参考了小学五年级阅读理解，对于正常被试而言没有理解障碍，同时，红色的结论完全出现在黑色描述之中，用来辅助被试将阅读行为转化为视觉搜索行为。每组试验题目难度和文字长度基本相同，内容不重复。

（3）针对n位被试，ABC三组的试验打乱次序进行，防止顺序效应对试验结果造成的影响。也就是被试1，试验顺序ABC，被试2，试验顺序ACB...依次类推。

（4）试验除了统计视觉搜索速度相关的指标外，也希望对造成视觉搜索速度差异的因素进行观察，故部分试验组也会采集相应的眼动数据。采集和统计到的数据以下表进行记录：

被试

试

验

顺

序

A组完成任务时长

B组完成任务时长

C组完成任务时长

A组正确率

B组正确率

C组正确率

A 组平均单任务注视时长

B 组平均单任务注视时长

C组平均单任务注视时长

A 组平均单任务眼跳距离

B 组平均单任务眼跳距离

C 组平均单任务眼跳距离

被试样本数n的确定

样本数的确定目前在商业设计领域以经验数量为主，通常定量测试选择人数在15~40人之间。

本次试验希望摸索一种完全定量的模式，所以希望较为准确地对样本数进行估计。由于想定会使用对平均值的T检测进行ABC三组试验数据两两之间差异度的显著性分析，所以在试验前使用了G-power软件对试验样本数n进行了估计。

其中参数设定如下：

1.Test family=t test

2. Satistical test（统计方法）=Correlation：Point biserial model（点二列相关，这个目前不是很懂...）

3. Type of power analysis（统计功效分析类型）=Compute required sample size...（样本数n，置信度α，检测力power，效应量ρ，已知其中三个可以求另外一个，这里就是在求解样本数）

4. Tail（s）=Two（双尾T检测）

5. Effect size（ρ）=0.8（试验前一般可分别根据经验取值0.2，0.5，0.8，当预计两组间试验数据差异较大时，使用较大的数值，但不能超过1， 在这里先凭经验取值0.8，后续可根据实际试验数据对ρ进行校正 ）

6. α = 0.05（置信度95%，也就是95%的情况下可以拒绝原假设h0，h0=两组数据无显著性差异）

7. Power=0.8 （经验取值检测力0.8，在后续试验中可以对这个参数进行修正，本次试验没有进行修正）

在上述参数设定下，Total sample size = 7，也就是需要7个人就可以得到置信度95%之下两组数据是否存在差异的结论，看起来这个样本数是偏小的，但不妨碍我们先开始试验。

试验数据分析

首先，对七位同学进行了试验，每位同学都参加了ABC三组测试。

试验结果如下：

A组=全宽；B组=半宽；C组=1/4宽		A组	B组	C组	A组	B组	C组
被试	试验顺序	完成任务时长	完成任务时长	完成任务时长	正确率	正确率	正确率
1	BAC	254	346	281	100%	95%	100%
2	CAB	222	196	255	95%	100%	100%
3	ACB	445	187	259	100%	100%	95%
4	ABC	264	254	207	95%	100%	100%
5	BCA	210	187	191	100%	95%	100%
6	CBA	296	286	270	100%	95%	100%
7	ABC	320	301	230	100%	100%	100%

此时ABC三组完成任务的平均时间如下，单位为秒：

	A组平均（全宽）	B组平均（1/2宽）	C组平均（1/4宽）
平均时长	287.3	251	241

从平均值看，三个试验组的平均值不同，全宽组用时最长，1/4宽度组最短。

但我们是否可以就此得出结论，和屏幕等宽的文本视觉搜索速度最慢，屏幕1/4宽度的文本视觉搜索速度最快呢？

显然是不可以的，因为平均值的差异有可能是由随机误差或系统性误差造成的，所以接下来我们用平均值的T检测对三组数据间两两之间是否存在显著性差异进行分析。

我们使用Excel内置的“t-检验：平均值的成对二样本分析”进行分析：

A-B组之间：

t-检验: 成对双样本均值分析
	变量1	变量2
平均	287.2857143	251
方差	6317.571429	3996
观测值	7	7
泊松相关系数	-0.094471522
假设平均差	0
df	6
t Stat	0.904606056
P(T<=t) 单尾	0.200268307
t 单尾临界	1.943180281
P(T<=t) 双尾	0.400536614
t 双尾临界	2.446911851

其中P单尾=0.2，P双尾=0.4，明显差异不显著（P双尾小于0.05时差异显著，P越小表示就越显著）。也就是A-B组之间的差异可能是由于随机误差，或系统性误差造成的。类似的，又进行了B-C组与A-C组差异性的检测，同样差异不显著（篇幅所限，数据就不展示了）。

但这很 有可能是由于样本量过少造成的，因此，我们可以根据先导试验得出的标准差对样本数进行校正：

此时ABC三组平均值分别为：287，251，241，标准差分别为79，63，33，使用效应量计算器计算：

此时的Effect size（ρ）=0.24，相应的，计算得出的样本数为：

n=131，但这个样本数已经超出我们预期的成本（包括时间成本）太多了，因此虽然我们决定继续增加被试进行试验，但同时决定边试验边对数据进行显著性观测，如果依然没有很高的显著性出现，说明试验因素（也就是文本宽度）的效应量实在太小，在低样本数时不足以观测出显著结果，同时也说明这个因素实际上对视觉搜索的效率并没有太大影响。

将样本数n扩大至17人时（剔除一组异常数据后），结果如下：

	A组（全宽）	B组（1/2宽）	C组（1/4宽）
BAC	254	346	281
CAB	222	196	255
ACB	445	187	259
ABC	264	254	207
BCA	210	187	191
CBA	296	286	270
ABC	320

挑战熟知，人机交互系统工作效率的定量测量

正文

请到「今天看啥」查看全文