THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。 |
![]() |
财宝宝 · 婆姨又把我骂了一顿。 ... · 昨天 |
![]() |
财宝宝 · 我家是怎么安排的?就在郊区当坐地户。 ... · 2 天前 |
![]() |
财宝宝 · 多说好话-20250216135610 · 2 天前 |
![]() |
财宝宝 · 中考是命运之考。 ... · 2 天前 |
![]() |
财宝宝 · 小鸟没有大舰船,就在陆地上轰了几炮,就把鹅鹅 ... · 3 天前 |
来源:机器之心
本文约 1897字 ,建议阅读 4 分钟
我们都知道斯坦福 NLP 组的开源工具——这是一个包含了各种 NLP 工具的代码库。
近日,他们公开了 Python 版本的工具,名为 Stanza。
该库有 60 多种语言的模型,可进行命名实体识别等 NLP 任务。
一经开源,便引起了社区的热议。
李飞飞就在推特上点赞了这个项目。
>>> import stanza
>>> stanza.download('en') # This downloads the English models for the neural pipeline# IMPORTANT: The above line prompts you before downloading, which doesn't work well in a Jupyter notebook.# To avoid a prompt when using notebooks, instead use: >>> stanza.download('en', force=True)
>>> nlp = stanza.Pipeline() # This sets up a default neural pipeline in English
>>> doc = nlp("Barack Obama was born in Hawaii. He was elected president in 2008.")
>>> doc.sentences[0].print_dependencies()
('Barack', '4', 'nsubj:pass')
('Obama', '1', 'flat')
('was', '4', 'aux:pass')
('born', '0', 'root')
('in', '6', 'case')
('Hawaii', '4', 'obl')
('.', '4', 'punct')
下载 Stanford CoreNLP 以及想要使用的语言模型;
将模型放入分配的文件夹中;
通过设置 CORENLP_HOME 环境变量(如在*nix 中):export CORENLP_HOME=/path/to/stanford-corenlp-full-2018-10-05 告诉 Python 代码 Stanford CoreNLP 所在的位置。
bash scripts/run_${module}.sh ${corpus} ${other_args}
bash scripts/run_tokenize.sh UD_English-EWT --batch_size 32 --dropout 0.33
bash scripts/run_depparse.sh UD_English-EWT gold
—— END ——