Gale数字学术实验室(Gale Digital Scholar Lab),由来自众多研究机构和组织的测试者共同参与开发,通过整合数字化原始文献内容与最常用的数字人文工具,和可自定义的算法相结合,生成可视化结果和分析数据,向各个层级的研究者提供机会参与数字人文研究。
Gale数字学术实验室将引导用户通过以下三步简化复杂的操作流程并改进研究结果。
(1)创建内容集
用户首先需创建文档语料库,收集原始文本数据,用于生成可视化结果。用户可以在Gale原始档案(Gale Primary Sources)中检索,选择文档加入到自定义的内容集。并排显示的OCR文本(原始文本数据)和原有扫描文档图像将帮助用户快速决定这些OCR文本是否可用于分析。
(2)分析内容集
选择文档并创建自定义内容集后,用户可以利用文本挖掘和可视化工具分析和探讨数据。收录了六种常见文本挖掘方法:Ngrams、命名实体识别、主题建模、词性标注、情感分析和聚类。研究者则可以自定义工具配置,生成新的结果。
(3)管理和分享
用户可以保存其内容集,方便为长期项目进行研究管理。用户也可以迭代处理其内容集,保留所有知识产权,以便分享分析结果。