恢复旧数据的下一个挑战是理解这些数据文件本身。对于数字档案员而言,抢救数据的第一步是获取磁盘镜像——即复制设备内的每一位元数据,包括被覆盖和隐藏的文件。这就是数字取证技术致力的领域,不过这类工具的商业许可证要耗费数千美元。由于这些技术更侧重法律应用领域,它们会忽略某些对档案员来说重要的功能,比如滤除敏感信息。
因此档案员们开发了BitCurator,一款提取磁盘镜像并指导用户初步解读其内容的开源虚拟机,比如确认位元和字节到底以什么格式存为文件以供windows NT, Linux或者DOS操作系统读取。格式越古老,解读会越困难。
创建Muller Media的Chris Muller开发了可以解析古老文件的软件,但他指出有时由人提供的线索会更有价值。Muller会要求潜在客户给他寄数据原先所在介质的照片。有时客户认为没有意义的、两三个三福记号笔留下的潦草痕迹,却有可能是某些字母或者数字,并帮助Muller推测出备份数据时所用的格式和软件。
下一步是识别文件,北卡罗来纳大学教堂山分校信息和图书馆学学院的Christopher Lee解释说,他也是BitCurator主要的组织者之一,文件格式可能无法辨识,很难知道要用什么软件打开,他说,“软件经常成为阻碍。”研究人员可以用诸如HEX编辑器等程序显示这些文件的原始二进制内容。如果运气好,这能提示文件是什么软件生成的,甚至直接提取出有用数据。BitCurator也会跟美国国家标准和技术研究所的软件参考图书馆(Software Reference Library)交互,尝试为文件找出匹配的软件。
通过一些线索,研究人员经常能够知道可以用哪种现有软件读取相似的较早期软件生成的文件,并将它们转换为新的文件格式。如果可以找到原软件,另一种选择则是模拟器:在现代机器里重构一个模拟老式操作系统的平台,比如互联网库(Internet Archive)提供的模拟器可以在浏览器里模拟诸如MS-DOS等平台。当软件处理的是高度专业化的任务,或者是视觉渲染软件,不易转换为现有格式时,模拟器具有更好的成本优势,弗赖堡大学计算机科学学院的Klaus Rechert指出。他最近生成了一款模拟器,以重生某个自然语言研究的分析过程,这个分析之前被用于生成排版软件LaTeX的用户定制语言映射。
另一个选择是“数字考古”——开发专用软件以使旧格式的文件可读。但这是一条高成本路径,常会徒劳无功,而且通常要求对文件内容有合理推测。其中一个相对简单的例子是,RetroFloppy公司的David Schmidt,利用组成某个客户名称的字母组合造成的重复代码得到转换矩阵,再从存储于8英寸软盘的不明IBM系统中恢复数据。像George Blood和AVPreserve等公司则致力于解决更为复杂的这类问题。
数字档案员们指出,最大的障碍有时是人为因素而非技术因素。提取出一个文件并弄清它有6列100000行数据并不够,研究人员还需要知道这些数字的意义。比如,在密歇根州的政治与社会研究大学间联盟机构内,由Amy Pienta带领的档案小组购买了一台翻新的穿孔卡片读取机,以便从一项上世纪50年代开始的、针对退休的大规模纵向研究中提取数据。但是当孔位被转换为ASCII数字编码后,他们只有借助保存下来的编码表档案才能知道数字的确切含义——到底“1”代表“是”还是“否”呢?
Paker的故事有个有趣的收尾:那些数字化数据只记录了给树分组后每组的平均数据,但又从一个撞大运的电话沟通中得知,记录每棵树测量数据的纸质档案也被保存了下来。他驱车几小时去见了原先的科学家并拿到了数据档案。
墨尔本的McCarthy说:“如果你想拯救什么,你必须趁还能联系上相关人员时开始行动。”ⓝ
Nature|doi:10.1038/545117a