对比上面模型结果, fastText模型基于词袋的针对英文的文本分类方法,组成英文句子的单词是有间隔的,而中文文本是连续的。因此对中文文本,则需分词去标点转化为模型所需要的数据格式,但分类效果一般,尤其是类别间区分度不是很大的情况下。
另外参数调优对模型结果影响较大,但模型优势在于训练时间很短。
所以fastText模型更适合做类别区分度更大且讲究分类效率的应用场景,比如将一则新闻自动划归到财经、军事、社会、娱乐等板块。
TextGrocery模型是专门针对短文本的分类模型,直接输入文本,无需做特征向量化的预处理,不去停顿词,不做词性过滤,优雅的API接口,但模型准确率和模型训练时间在此角色预测模型中不是太突出。
Naive Bayes为传统的文本分类模型,特征向量化的预处理相对繁琐、训练时间较长,但在分类类别多文本区分度不大的情况下,分类效果相比其他两种算法更为优秀。
这个实验结果侧面说明,在产品实现时切勿过度追求“时髦”的技术。对某一项特定业务来说,有助于业务实现更优效果的技术就是最好的技术。
聘宝在面对低区分度简历时的角色识别算法,吸收结合了上述各类算法的特点,面对不同场景条件时搭配应用,实现了更优的分类效果,在TMT行业主要职位类型上的识别准确率高于75%。
以“软件工程师”为例子,在聘宝中输入属于软件工程师的职位描述,预测出可能的角色,效果如下图:
对于其他行业低区分度的简历,同样可以训练出对应的模型。如果单个行业预测类别不用过细的话,可以将众多行业数据混合一起训练模型进行预测。
基于该实验的样本数据,假设简历库中有10000份名为“软件工程师”的简历。 一位HR在搜索“Android工程师”时仅关注简历名称为“Android工程师”的简历,她将遗漏912份有可能匹配的简历——这些简历均被冠以“软件工程师”的职位名称;
如果这位HR愿意花时间从头到尾通读每一份“软件工程师”的简历,将其中真正从事Android研发工作的简历筛选出来,那么她需要多阅读9088份无效的软件工程师简历,假设阅览一份简历需要15秒,这项工作将占据她38小时。
角色识别除了在简历检索方面的应用,在其他方面也有广泛的应用空间。
如薪资预测
,根据工作描述预测角色作为特征变量,将有助于提高预测薪资的准确性。