Sarah L. Ketchley,Gale数字人文高级专家
Gale数字学术实验室(Gale Digital Scholar Lab)
最新增加了
三套Python笔记本(Python Notebooks)
,为处理和分析文本数据提供更多灵活性。每套笔记本都可以下载,然后直接使用或进行改编以满足个性化的研究需求。本文为想要将Python编程部分加入到他们的文本分析工作中但却不知道从哪里开始的研究者提供了一些思路。
本文也可以与
《Gale数字学术实验室中的命名实体识别、Python笔记本和一位勇敢的女性日记作者》
一文一同阅读,后者对使用命名实体识别的研究项目提供了一些实用的编程建议。
在编程语言领域,Python表现出色,是一个多用途且强大的工具,在很多不同领域都深受欢迎,从网络开发到数据分析和人工智能。它的设计理念强调代码的可阅读性和简易性,而其庞大的代码库更是初学者和资深开发者的理想之选。Python提供工具和资源支持各类应用,包括Django或Flask等支持网络开发的框架、Pandas和NumPy等数据科学库、以及TensorFlow或PyTorch等机器学习和人工智能库。
作为各自领域的学科专家,很多人文学者既没有时间也不愿意将学习编程加入到他们的任务清单中。很多数字人文研究项目跨学科的特性意味着专职的程序员常常是团队的核心成员。然而,学习基本的编程技能对于计划使用数字人文方法研究数据的学者而言是有一些益处的。
这样的技能能够让人文学者验证假设,例如,建立最初的研究路径,开展初步的分析等,这些可以是申请经费时建立概念验证的要素。在由不同学科背景的学者和研究者组成的团队中,熟练的编程技能将会是很有帮助的:团队中能够有效沟通是数字人文项目取得成功的核心组成部分。
幸运的是,有很多有用的资源可以指导新手轻松开始学习编程,很多都是免费的。例如,William Mattingly的“Python人文”(https://pythonhumanities.com/)提供文字和视频教程,向新手介绍Python。Mattingly的YouTube频道上还有一套三小时的入门课程。
“会编程的历史学家”(https://programminghistorian.org/en/lessons/?topic=python)提供30多个使用Python的入门课程,演示如何完成不同的分析任务,适合初学者或有一定经验的人使用。大学图书馆通常也会为教师和学生开设研讨班,你可以留意你所在院校的培训计划,找到合适的机会。
在实验室中现在提供了三套Python笔记本,从初学者到有一定经验的研究者都可以一行一行的运行预先写好的Python脚本,处理文本数据,运行分析,以CSV或图片格式展示分析结果。这些可执行的代码可以使用Google Colab或Jupyter Notebooks运行。笔记本里的每一行代码或每个代码块都带有注释。注释用井号开始,例如“#provide the name of the file you’re uploading”(提供你正在上传文件的名称),如下图所示。这些备注提供了更多的描述性资料,说明相关代码行正在做什么。