专栏名称: 数盟

数盟（数据科学家联盟）隶属于北京数盟科技有限公司，数盟致力于成为培养与发现“数据科学家”的黄埔军校。数盟服务包括：线下活动、大数据培训。官网：http://dataunion.org，合作：[email protected]

目录

相关文章推荐

数据派THU · 【HKUST博士论文】增强大型语言模型的可信 ... · 12 小时前

软件定义世界（SDX） · 与孙正义对话，Sam ... · 2 天前

数据派THU · 深入解析图神经网络：Graph ... · 昨天

CDA数据分析师 · 【内推】银行初级金融数据分析师 · 昨天

数据派THU · 【CUHK博士论文】大型语言模型的测试与评估 ... · 4 天前

51好读 › 专栏 › 数盟

TF-IDF与余弦相似性的应用（二）：找出相似文章

数盟 · 公众号 · 大数据 · 2018-05-03 22:00

正文

今天，我们再来研究另一个相关的问题。

有些时候，除了找到关键词，我们还希望找到与原文章相似的其他文章。比如，”Google新闻”在主新闻下方，还提供多条相似的新闻。

为了找出相似的文章，需要用到”余弦相似性”（cosine similiarity）。下面，我举一个例子来说明，什么是”余弦相似性”。

为了简单起见，我们先从句子着手。

句子A：我喜欢看电视，不喜欢看电影。

句子B：我不喜欢看电视，也不喜欢看电影。

请问怎样才能计算上面两句话的相似程度？

基本思路是：如果这两句话的用词越相似，它们的内容就应该越相似。因此，可以从词频入手，计算它们的相似程度。

第一步，分词。

句子A：我/喜欢/看/电视，不/喜欢/看/电影。

句子B：我/不/喜欢/看/电视，也/不/喜欢/看/电影。

第二步，列出所有的词。

我，喜欢，看，电视，电影，不，也。

第三步，计算词频。

句子A：我 1，喜欢 2，看 2，电视 1，电影 1，不 1，也 0。

句子B：我 1，喜欢 2，看 2，电视 1，电影 1，不 2，也 1。

第四步，写出词频向量。

句子A：[1, 2, 2, 1, 1, 1, 0]

句子B：[1, 2, 2, 1, 1, 2, 1]

到这里，问题就变成了如何计算这两个向量的相似程度。

我们可以把它们想象成空间中的两条线段，都是从原点（[0, 0, …]）出发，指向不同的方向。两条线段之间形成一个夹角，如果夹角为0度，意味着方向相同、线段重合；如果夹角为90度，意味着形成直角，方向完全不相似；如果夹角为180度，意味着方向正好相反。因此，我们可以通过夹角的大小，来判断向量的相似程度。夹角越小，就代表越相似。

以二维空间为例，上图的a和b是两个向量，我们要计算它们的夹角θ。余弦定理告诉我们，可以用下面的公式求得：

假定a向量是[x1, y1]，b向量是[x2, y2]，那么可以将余弦定理改写成下面的形式：

数学家已经证明，余弦的这种计算方法对n维向量也成立。假定A和B是两个n维向量，A是 [A1, A2, …, An] ，B是 [B1, B2, …, Bn] ，则A与B的夹角θ的余弦等于：

使用这个公式，我们就可以得到，句子A与句子B的夹角的余弦。

请到「今天看啥」查看全文

推荐文章

数据派THU · 【HKUST博士论文】增强大型语言模型的可信度：隐私与安全的视角

12 小时前

软件定义世界（SDX） · 与孙正义对话，Sam Altman正面回应DeepSeek："OpenAI投入多少，AI智能就有多强"

2 天前

数据派THU · 深入解析图神经网络：Graph Transformer的算法基础与工程实践

昨天

CDA数据分析师 · 【内推】银行初级金融数据分析师

昨天

数据派THU · 【CUHK博士论文】大型语言模型的测试与评估：正确性、非有害性与公平性

4 天前

每天学点做饭技巧 · 早餐还不知道吃什么？我都给你想好啦！

8 年前

爱健身 · 15条健身知识，认真看完相当于免费上了10节私教课

8 年前

国家人文历史 · 人物｜潜伏蒋介石身边11年的女间谍

8 年前

酱子工厂 · “13岁的妈妈”，一出场全场落泪！

7 年前

海报网 · 找茬| 杨丞琳晒七年前后肌肤对比照一毛一样？你能找出一个变化算我输！

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!