谢益辉:看完本文后心情有点复杂。文章内容很丰富,但我觉得这篇文章对 “美观” 的强调值得商榷。我本人这个原则是并不太认同(唉,看脸的时代)。首先,美观是个主观判断;其次,我认为精确应该是图形的首要以及必要原则,美观只是个次要以及可选的参考原则;再次,我认为丑图在一些情况下也有它独特而重要的意义(比如揭示离群点),不能光是因为丑就嫌弃它。John Tukey 大人曾经说过,“图形的价值在于让我们看到我们不曾预料到的信息。”如果每幅图都是那么匀称漂亮,那可能就没什么惊喜的发现了。
我在文章提议 #698 (链接3)的第 5 项提到的内容是我最想在这篇文章中看到的,也就是用科学的方法来评估图形,而不是光靠自己的一双眼睛去品评一幅图的美丑。这个 “科学” 成分在我们评论图形的时候很少见(读文献费脑子啊,谁没事愿意读那个;相比之下嗑着瓜子指点江山多快活),但它是真正重要的。如果想挑战自己的评论能力,除了我在 #698 提到的文献之外,还应该读读 33 年前的《劣图百讲》:
H Wainer (1984) How to display data badly. American Statistician 38(2): 137–147
如果没空读原文,Karl Broman 在这个幻灯片(链接4)中作了总结。
黄湘云和李宇轩两位壮士的这篇文章亮点在于例子很丰富,作者们花了不少工夫收集整理这些例子;我眼中它的弱势在于部分论点和论据不是特别硬气。下面是一些具体的小意见:
1.我认为 “有效、简洁、美观” 三原则的分类法不太符合 “穷尽、互斥” 原则,它们之间有不少重叠部分,比如简洁通常是有效的前提(美观有时候也是),有时候它也是美观的前提。
2.文中多数图形都没有参考线,我认为参考线是图形最重要的辅助工具;没有参考线,靠人眼去拿图形元素和坐标轴对齐太费劲了。比如图 5 和图 6 都是特别高的图形,作者在每条线上都标了数值(其实图形要是沦落到需要标数值的地步,就说明它可能不太简洁和有效了),要是没有数值,我就问你图 5 中 Pontiac Firebird 那辆车对应的数值是多少你能很快估计出来吗,我觉得难,因为需要你的眼睛默默在异次元中画一条笔直的铅垂线下来到横坐标轴上。辅助眼睛去对齐坐标轴是参考线的一方面功能,另一方面是有了参考线之后,潜意识里计算倍数会很快,比如很容易看出谁是谁的两倍三倍。
3.至于坐标轴是该从 0 开始还是应该从某一个数值开始,我认为没有一定之规,尤其是不能用 “美观” 作为理由,如图 19。从零和不从零开始各有各的道理和用途,就看你想展示什么。通常情况下我觉得如果觉得选择困难,那么就把两种图形都画出来,让读者既能看见绝对数值的原图(便于展示柱子之间的比例),又能看见相对数值的截断图(便于展示柱子们代表数值的大小)。要是你主张从纵坐标 200 的位置截断图 19,那么后果可能是,不注意看纵坐标的读者也许会以为七月份的乘客数量是一月的三倍,这是不是违背了 “有效” 原则呢?
4.我认为三维图形在多数情况下都是反例,因为三维图形几乎永远都只能让人看见它的一面。凡是不能用鼠标拖、不能转的三维图形一定会存在遮挡的问题,比如图 24 中 1960 年 7 月 8 月两根高柱子后面是怎样的世界,读者便无从得知。三维图形的另一个大问题是感知数值的时候需要人眼立体投影到一个坐标轴平面上,这是读图的一大障碍,它不像二维图形只需要眼睛画水平线和铅垂线,三维图形需要眼睛斜着去投影。比如两个一样高的柱子,画在三维图形中时,如果是俯视的角度,由于立体透视效果,近的柱子看起来就会比远的柱子低(如果是平视或仰视角度,则近高远低)。考虑到这一点,图 24 中 1960 年 1 月和 12 月的柱子谁高谁低就很难比较了,除非你是写轮眼,否则把 1 月的柱子立体投影到对面的墙上会很费劲。