专栏名称: 清华大学智能法治研究院
发布清华大学法学院、清华大学智能法治研究院在“计算法学”(Computational Law)前沿领域的活动信息与研究成果。
目录
相关文章推荐
九章算法  ·  升到L6,谈谈今年的情况 ·  昨天  
九章算法  ·  谷歌/亚麻的BQ题库,附上标准答案! ·  昨天  
算法爱好者  ·  o3-mini 碾压 DeepSeek ... ·  4 天前  
51好读  ›  专栏  ›  清华大学智能法治研究院

Stanford HAI 回顾:2024 年最热门的博客文章

清华大学智能法治研究院  · 公众号  ·  · 2024-12-10 21:23

正文

2024年12月9日,斯坦福人为本的人工智能研究所 (HAI) 内容主管兼传播副主任 莎娜·林奇( Shana Lynch )发布一篇回顾文章,2024 年最热门的博客文章。


文章全文如下:


今年阅读量最高的博客文章聚焦于人工智能(AI)在医疗、法律和民主等领域的影响,既强调了人工智能的潜力,也指出了其面临的挑战。斯坦福人工智能研究院(Stanford HAI)发布的《人工智能指数》(AI Index)详细阐述了,人工智能正日益走向开源并融入各行各业,投资激增,特别是在生成式人工智能领域。然而,关于法律、医疗和心理健康应用的研究显示,这些模型经常出现错误、“捏造”虚假信息,并引发了人们对隐私、透明度和安全性的担忧。我们的学者在工作中也呼吁加强对人工智能的监管、建立伦理框架、进行严格评估,并采取以人为本的人工智能扩展方式。

《人工智能指数》:13张图表展现人工智能现状
《人工智能指数》是斯坦福人工智能研究院发布的一份综合报告,追踪全球人工智能的重要趋势。本文为读者提供了报告要点:今年,人工智能模型向开源转变,对生成式人工智能的投资激增,对人工智能的监管也在加强。去年,共有创纪录的149个基础模型发布,其中66%为开源(尽管在基准测试中,闭源模型的表现仍然优于开源模型)。美国在模型开发和私人投资方面处于领先地位,人工智能投资达到672亿美元,远超其他国家。在许多基准测试中,人工智能已达到或超越了人类水平的表现,促使企业采用人工智能工具来实现自动化和个性化。尽管取得了这些进步,但对就业安全的担忧、对人工智能产品安全性的忧虑以及对监管措施的需求也在不断上升,其中年轻且受过更高教育的人群对人工智能对就业的影响尤为关注。

人工智能时代的隐私保护:我们的个人信息如何得到保护?
通用人工智能,特别是大型语言模型(LLMs)的兴起,带来了严重的隐私问题:我们的个人数据是如何被使用和保护的?从为训练而抓取的网络数据到人工智能驱动的威胁(如语音克隆和身份盗窃),数据滥用的潜力巨大。斯坦福人工智能研究院的詹妮弗·金(Jennifer King)和卡洛琳·梅因哈特(Caroline Meinhardt)在其白皮书《人工智能时代的隐私重新思考》中提出,必须建立更强的监管框架。她们主张转向选择性的数据共享、采用供应链方法保护数据隐私,并通过数据中介等集体解决方案,在人工智能和数据收集主导的时代赋予用户权力。

法律幻觉:大型语言模型在法律领域频犯错误
ChatGPT和PaLM等大型语言模型的出现正在改变法律领域,但同时也带来了令人担忧的风险,尤其是在“幻觉”方面,即生成不准确的法律信息。斯坦福大学RegLab和斯坦福人工智能研究院最近的一项研究表明,大型语言模型在回答法律查询时经常产生错误或误导性的信息,在关键任务上的错误率高达69%至88%。这些错误在复杂或地域性强的法律事务中尤为常见,大型语言模型往往在这些事务中误解案件先例、错误归属作者,并基于错误的前提过于自信地作出回应。

虽然大型语言模型有潜力使法律信息更加普及,但它们目前的局限性也带来了风险,尤其是对于最需要准确和细致法律支持的用户而言。研究结果表明,法律领域的人工智能工具需要谨慎且受监督地整合,以确保它们能够辅助而非削弱人类的判断力和法律的多样性。

人工智能受审:法律模型在六分之一(或更多)的基准查询中出现幻觉
近四分之三的律师计划使用生成式人工智能来完成合同起草、文件审查和法律研究等任务。然而,可靠性是一个令人担忧的问题:这些工具已知会“幻觉”或生成虚假信息。这项研究测试了来自LexisNexis和Thomson Reuters的AI法律研究工具的准确性,发现尽管这些工具的错误率低于通用模型,但仍有高达34%的“幻觉”率。该研究揭示了AI辅助法律研究过程中存在的问题,如不准确的引用和“盲目附和”(即AI工具同意用户错误的假设)。研究结果强调了法律人工智能产品需要透明度和严格的基准测试,因为这些工具的设计和性能目前缺乏透明度,使得律师难以评估其可靠性并履行道德义务。

生成医疗错误:生成式人工智能与错误的医疗参考
大型语言模型正在迅速进入医疗保健领域,十分之一的医生使用ChatGPT来完成日常任务,一些患者甚至使用人工智能进行自我诊断。尽管人们对此充满热情,但斯坦福大学最近的一项研究强调了大型语言模型在医疗保健中的可靠性方面存在的重大挑战,尤其是在证实医疗信息方面。研究人员发现,即使是最先进的大型语言模型也经常捏造无根据的说法或引用不相关的来源,像GPT-4这样的检索增强生成模型在高达30%的情况下会产生无支持性的陈述。这些问题在像Reddit的r/AskDocs这样的患者自行询问中更为突出,表明没有医生指导而寻求信息的患者可能会被误导。随着人工智能工具在医疗保健中变得越来越普遍,专家敦促进行更严格的评估和监管,以确保这些系统提供可靠、基于证据的信息。

斯坦福人工智能研究院五周年:开创以人为本的人工智能未来
在谷歌工作期间,斯坦福大学计算机科学家李飞飞(Fei-Fei Li)亲眼目睹了人工智能如何改变从农业到能源等各行各业。受此启发,她带着让人工智能伦理地服务于人类的愿景回到斯坦福,并创立了斯坦福人工智能研究院。五年来,该研究院致力于塑造伦理人工智能,通过跨学科研究、产业合作和积极的政策参与,已成为负责任人工智能发展的领军者,在医疗保健、难民援助和可持续采矿等领域投资了超过4000万美元的研究项目,同时培养下一代人工智能领导者和政策制定者。

大型语言模型在学术写作中的使用程度如何?
斯坦福大学的詹姆斯·邹(James Zou)和他的团队调查了大型语言模型在学术写作和同行评审中的日益广泛使用,发现近18%的计算机科学论文和17%的同行评审中包含了人工智能生成的内容。通过语言分析和专家验证,他们确定了某些“人工智能相关”词汇,这些词汇在ChatGPT发布后使用量激增。这种在人工智能和计算机科学领域的快速采用,既凸显了大型语言模型的潜在益处,也揭示了其伦理挑战。邹认为,在使用大型语言模型时应更加透明,他指出,虽然人工智能可以提高清晰度和效率,但研究人员必须对自己的工作负责,以保持科学过程的完整性。

大型语言模型在医疗保健中的应用:我们准备好了吗?
斯坦福大学的学者们发现,尽管大型语言模型在医疗保健中前景广阔,但在它们能够安全地融入临床实践之前,我们还有一些重大挑战需要克服。他们的最新研究表明,虽然大型语言模型可以通过处理行政任务和回答患者问题来减轻医生的工作负担,但这些工具也存在安全风险,并会产生可能导致有害结果的错误。目前对大型语言模型的评估往往依赖于精选数据,而非真实患者的信息,且评估工作在医疗保健任务和专业领域中的分布也不均匀。研究团队建议使用真实患者数据进行更严格、更系统的评估,并建议利用人类引导的人工智能代理来扩大评估工作的规模。

《技术政变》:一本新书揭示公司不受约束的权力如何破坏治理
在与斯坦福人工智能研究院政策研究员玛丽耶特·沙克(Marietje Schaake)的对话中,这位前欧洲议会议员警告说,科技公司对民主机构的不受约束的影响正日益加剧。她认为,私人公司越来越多地履行传统上由政府保留的职能,如监控、网络安全,甚至对军事和选举基础设施产生影响,而无需承担必要的公共责任。沙克结合自己在欧洲议会和斯坦福的经历,主张对科技公司实施更严格的监管、提高透明度和加强监督,尤其是考虑到这些公司控制着对民主至关重要的庞大资源和数据。她建议的改革措施包括为立法者设立独立的科技咨询委员会,以及要求履行政府职能的公司承担更大的公共责任。沙克呼吁公民要求联邦政府对科技进行监管,支持数据保护法,并提高数据中心和人工智能发展的透明度,以保障民主原则。







请到「今天看啥」查看全文