专栏名称: 学术中国
“见证学术力量 锻造学术精神”——关注“学术中国”,即时获取最新学术信息!
51好读  ›  专栏  ›  学术中国

关于中文数据库中国知网CNKI、维普、万方的操作“机理”剖析

学术中国  · 公众号  · 科研  · 2017-05-23 12:53

正文


作者 | 谢亚南,学术中国经作者授权发布

编辑:学妹


最近看到不少询问中文数据库使用的帖子, 并且有帖子对中文检索的说明,但是其中有些说明不尽准确。幽特此文回应。


中文数据库检索总之:


  • 有主页检索框检索(一个检索框)、高级检索(就是多个检索框)、专家检索(自己写命令符号)

  • 一般,一般,一般,不是所有,是 and *,or +

  • 有“精确”为完全一模一样匹配,“模糊”为汉语的短语分词。通常推荐用“模糊”,但是当你的检索词足够短(两个字、三个字)且确定大家都这么用,推荐用“精确”也是可以。

  • 注意,(多功能 AND 干细胞) 精确后,反倒没有 ——多功能干细胞 精确找到的多!很奇怪吧^^


以下仅适合好奇心极强的和专业人士看


但是,到底怎么分词的,命令到底有何区别,为什么? 下面是具体的机理分析。


下文说道的分词、切词,就是把多个汉字拆分成几个短语。


例如,信息素养,拆分为信息和素养两个短语,就是分词。


1. 中文数据库奇妙的“精确”与“模糊”


先说明,我是和三个数据库商技术特别沟通,均不能给出满意答案,数据库商本身也是没有解释的,相信我,为此我挨个周旋了2个月,无果。以下说明为我个人总结,仅供参考!


但真心的,觉得这事也不怨数据库商,中文实在太复杂了

土豆蔻

你说, 是让数据库拆成 土豆 还是 豆蔻?? 这不难为系统吗 ,何况还有“土豆蔻”

再如“还是不是”

是切成

还  是不是

还是 不是

还是 不 是

哈哈 别说系统,人都疯了 哈



A 在关键词、作者(导师)、期刊名等“短语字段“,推荐使用“精确”


理由:”短语字段“是幽幽自己起的名字,这些字段对应的内容本身就是切分好的短语,而不是大段文字!每个短语都是作为“整体”独立存在,”精确“为“整体”一模一样的匹配。”模糊“为分词检索。


例子:作者为张三,张三四。那么张三作为整体A,张三四作为另一个整体B,AB是完全不同的两个名字。“精确”检索张三,是找不到张三四的。因为对”精确“来说,张三四完全是另一个整体B。再解释下就是,汉字弓检索不出汉字 张,虽然张的左侧是弓!可是“模糊”检索张三能找到张三、张三四,因为张三四里面包含了张三两个字。特别是在检索期刊,“精确”检索图书,是找不到《图书情报工作》的。


B 在机构字段,视情况而定。“精确”的含义同上。检索东北师范大学,是找不到东北师范大学教育学部。


理由:一般有的机构是学校+院系。如果您想找到所有学校的文章,推荐用“模糊”。但是如果特别就想找某院系的发文,推荐“精确”,但是提示大家,很多院系老师发文只写到学校,这是没有办法找全的。


C主题、标题、摘要”文章字段“,推荐“模糊”


理由:”文章字段“也是幽幽自己起的名字,不同于前两种情况,这三者为大段大段的文字。主题指标题+摘要+关键词。“精确”为完全匹配一模一样,“模糊”会切分为短语。“精确”虽然会找到极其相关的信息,但是会丢掉大量有用的相关信息。但,奇葩就奇葩在真正检索时候还有些不同~中文的切词实在不知道后台是如何运行的,中文真的很复杂!具体大家看下面例子,能让大家更明白中文的模糊分词到底分的是什么。


维普案例:


以下全部为“模糊”对应的后台处理方式,看的就比较清楚。同样的汉字,但是给出短语的方式不同,系统后台切词处理就大相径庭!!!


诱导多功能干细胞,后台检索 诱导 AND 多 AND 功 AND 能干 AND 细胞

诱导 AND 多功能干细胞,后台检索 诱导 AND 多 AND 功 AND 能干 AND 细胞

诱导 AND 多功能 AND 干细胞, 后台检索 诱导 AND 多功能 AND 干 AND 细胞 


诱导 多功能 干细胞 细胞 能干 都是词库里的词 

但是机器学习的时候,机器判断:能干 细胞 的概率比 干细胞 概率大,所以“诱导多功能干细胞”被系统分词为:诱导 多 功 能干 细胞;


——再具体剖析下字段处理


同样是题名或关键词字段,而且都是模糊,但是输入城市商业街现状,和输入城市 AND 商业街 AND 现状处理方式完全不同: 


城市商业街现状的处理为————检索式为:(题名=城市 AND 题名=商业街 AND 题名=现状) OR (关键词=城市 AND 关键词=商业街 AND 关键词=现状)


城市 AND 商业街 AND 现状处理为————检索式为:(题名=城市 OR 关键词=城市) AND (题名=商业街 OR 关键词=商业街) AND (题名=现状 OR 关键词=现状)


是不是很有意思^^


CNKI案例:


他们给不出后台的命令,下面是我尝试的数据

文献,主题字段。文献是包含了多种文献类型,如期刊、会议论文、学位论文等等


下面数据检索时间为2017年5月13日晚


a诱导多功能干细胞 模糊 386条结果

b诱导多功能干细胞 精确 168条结果


c诱导 AND 多功能干细胞 模糊 405条结果

d诱导 AND 多功能干细胞 精确 158条结果


e诱导 AND 多功能 AND 干细胞 模糊 423条结果

f诱导 AND 多功能 AND 干细胞 精确 16条结果



a与e的结果不一致,猜想,CNKI的模糊切词应该不是我们所想的短语的切词。


特别是bdf精确结果的差别,猜想,CNKI的数据库是有个汉语的短语拆分词库的,可是怎么拆分的又实在奇葩了。


我比较好奇, 又做了下面的尝试,

g诱导 AND 多 AN 功能 AND 干 AND 细胞 模糊 5162条结果

h诱导 AND 多 AN 功能 AND 干 AND 细胞 精确 4558条结果


然后,又BT的做了这样的处理,3个字总好办些吧可就这三个字,也完全不是我们常规理解的”短语“


多功能 模糊 123,226

多功能 精确 23,685


这就说明”多功能“在CNKI里不是一个短语,它做了分词,可是,它是怎么分的呢????


多 AND 功能 模糊 833,549

多 AND 功能 精确 593,247


多功 AND 能 模糊 38,997

多功 AND 能 精确 76


多 AND 功 AND 能 模糊 399,719

多 AND 功 AND 能 精确 7,810


当然,以上是因为在主题字段(包含了本身已经切词的“关键词”),所以,特别在摘要里面尝试,我是真BT啊


摘要

i诱导多功能干细胞 模糊 338条结果

j诱导多功能干细胞 精确 120条结果

k诱导 AND 多功能 AND 干细胞 模糊 338条结果

l诱导 AND 多功能 AND 干细胞 精确 13条结果


这里,一下有了希望,可能真的是因为选择了”主题“,因为里面有关键词和标题摘要两种不同的处理。如果只看大段文字的摘要,那可能真是我们理解的短语切分的!至少ik一致!如果真这样,猜想“多功能”如果是一个短语,那么在”摘要“字段,它的精确模糊应该一致,如果切词了,那么和 某种拆分的精确或模糊其中一个应该一致吧,结果……………… 


多功能 模糊 89,878
多功能 精确 11,394

多 AND 功能 模糊 565,450
多 AND 功能 精确 565,442


多功 AND 能 模糊 73

多功 AND 能 精确 73


通过上面这些数据,至少我个人是如此想的,CNKI的切词,真心不是我们所以为的以为!!!也就是说,有些帖子里面的对CNKI模糊解释为切分短语检索不很准确,这里的“短语”大概真的不是我们所想的“短语”。真心不知道他们的词库到底是怎么处理的。


2 检索


三个数据库,专业检索都不针对符号!也就是说,如果想专门检索《历史研究》,这个书名号用 “”或'' 是处理不了的。无解!
三个数据库,检索命令书写和检索顺序都不同于外文数据库,包括现在的万方!
三个数据库,所有命令都是英文状态下的半角输入!


A 万方 http://g.wanfangdata.com.cn/


本来,很久以前万方的检索命令很好,很和英文数据库操作思维一致。不过现在改版交接之际,检索已经不是以前的检索了。基本已经说也会不请了~ 还是按英文思路来,找到什么算什么了。



有一点是确定的,接受(),and or等命令,一个检索框框内可以写复杂的关系式子,但是具体还是不是按命令执行,就只有天知道了!__看结果是看不出来的!



高级检索界面



由于它一个检索框就可以输入复杂的式子,所以其专业检索和检索框检索基本没有区别,除了检索字段的标识。


同时接受and*,or+。详见检索帮助!注意,用 *+时候前后有没有空格都可以,用and or 大小写都可以,前后必须有空格。


单独空格,表示and



例如:
(教育+教学+课堂)*(英语*(写作+阅读))*(中小学+(中学*小学))
(教育 
or 教学 or 课堂) and (英语 and (写作 or 阅读)) and (中小学 or (中学 and 小学))



重庆维普 http://qikan.cqvip.com/


同样,也是一个检索框框可以写复杂的检索命令,所以其主页检索、高级检索和检索式检索(专业检索)区别不大。主要就是字段的标识。
但是!维普的检索框框不接受括号(),奇怪吧!人家就是不接受。而且不接受+*,小写的and or也不可以。只能是大写的 AND OR, 左右要有空格,例如 蛋白 AND 乳腺癌。注意哦,(蛋白 
乳腺癌)中的空格不是AND!虽然结果看着好像是,但实际不是!维普的运算方式是依次从左往右运算!


“检索式检索”是接受括号的,但是关键词、作者等字段命令编写复杂,实在没意义,不推荐使用。

如果您想检索:英语 
and (写作 or 阅读)。正确方式为:写作OR 阅读 AND英语。 注意,逻辑算符前后有空格
如果较复杂如:(教育 
or 教学 or 课堂) and (英语 and (写作 or 阅读)) and (中小学 or (中学 and 小学)) ,别废脑子琢磨顺序了,建议用高级检索,每个括号是一个条件!同样建议“模糊”。比“检索式检索”方便。



C 知网CNKI http://www.cnki.net/

 

1)先说下专业检索,这里无论加不加单引号(CNKI是单引号表示一模一样的精确检索),都是精确检索! SU=诱导多功能干细胞,SU='诱导多功能干细胞',结果都是168. 亲们啊,当大家展示超强的专业检索式编写能力时候,您已经丢掉了很多很多相关文献了!!!
接受(),小写and*,or+。具体看帮助说明。挺复杂,但基本没用。
不过,通过第一部分对精确模糊的分析, 如果你的检索短语足够“短”,用专业检索就相当于精确了,基本和模糊差不多。怎么这么麻烦啊 ……


2)另外点主页右侧的“高级检索”后,看到“句子检索”,很推荐,但是一行的前后两个框框都要输入内容,不能空一个。写论文找一句话的出处很方便(比如做参考文献时候)。



3)常用“高级检索”,这里不同于前两个数据库,一个框框里面只能输入一个短语,不接受任何符号和命令。



6928条



175463条


一行为一个限定条件,系统自动加载了()。也就是说,一个条件内容只能有两个小限定。上面两图可以看出,一个框框里输入2个短语中间用空格,并不是 并含的意思。


系统默认的是一行一行按顺序运算,就是说第一行检索的结果和第二行组配,出来的结果在和第三行组配。


当逻辑关系(and or not)很复杂时候,基本就混乱崩溃了


所以强烈不建议大家去考虑什么顺序,善用“结果中检索”!


例如,(教育 or 教学 or 课堂) and (英语 and (写作 or 阅读)) and (中小学 or (中学 and 小学))


当一个条件内部超过2个了,如上,那么先检索(教育 or 教学 or 课堂),然后“在结果中检索”检索(英语 and (写作 or 阅读)),然后再在“在结果中检索”检索(中小学 or (中学 and 小学))。


这里的“词频”,还有新增加的“计量可视化分析”基本就是鸡肋!



检索出结果后,再编写下一个条件,这次就不要直接点“检索”,而是旁边的“结果检索”,以此类推



4)最后说下CNKI的主页检索框框。真的不是大家以为的谷歌百度式检索框!默认为模糊处理,但是和高级检索的模糊还不同………… 结论是,不用它,跳过,用高级检索



结果 204,022

但是



结果是  239,136 ,精确是175463条。可见处理方式是不同的。但是怎么个不同不清楚。


那么如果是 历史教育 一个短语呢?



172,024 条
可是和下面两种情况都不吻合
高级检索里面 
历史教育 模糊 169,934 条结果
高级检索里面 
历史   教育 模糊  239,136 条结果
都不一样


实际啊,中文数据库比英文复杂多了!!!


知网CNKI整体操作建议是5句话:
1.不用主页检索框,不是你们以为的 GOOGLE检索
2.用主题,不用关键词,找到全些
3.用模糊,因为系统的分词的特殊处理
4.检索用的词尽可能切分成最小短语,2个字,最多不要超过6字。字越多限定约严格。除非特殊的专有名词本来就字数多。
5.一个检索框框只能输入一个短语!!! 


3 中文3大库数据比较



在重庆维普改版后专做期刊,在期刊方面可以说超越了CNKI ,其期刊的完整性为三家第一。不过这里有个采购规则,就是“独家”。比如CNKI有些独家期刊,意思是在某些特定年份,全文只能在独家数据库下载,注意是有年限的,不是所有的文。所以这样的独家刊,部分全文维普检索不到,但是可以找到题录,通过邮箱接受的方式免费获得,就是速度慢点,有的会需要10分钟。


学位论文方面,CNKI\万方各有侧重,虽然万方为中国官方学位论文收藏地,但是不能公开也是无用啊。

CNKI的综合性,界面的人性化多年霸占国内学术文献检索的翘楚不是没有道理,不过随着维普的已经改版,万方的即将改版,其独霸天下的状况是否能继续维持还有待观察。



推荐


课程精彩回放:

学术资源找不到?因为你没遇到她?


本文作者谢亚南老师曾在学术中国讲授关于学术资源搜索的系列课,好评如潮,应广大学友要求,特将讲课视频全部开放,现在购买,即可享受半价优惠!点击链接就能马上报名学习: