欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程资源 > 编程问答 >内容正文

编程问答

3分钟搞懂LSI原理

发布时间:2023/12/20 编程问答 42 豆豆
生活随笔 收集整理的这篇文章主要介绍了 3分钟搞懂LSI原理 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

假设原始矩阵如下:
index words:被用户搜索到的词语
Titles:文章标题

svd分解后如下:

第1个矩阵表示某个词与主题之间的相关性

第2个矩阵表示关键词与主题之间的相关性

第3个矩阵表示关键词与某个文档之间的相关性

有的同学会看到有些资料说,根据LSI可以计算文档文档之间的相似度,这个是怎么回事呢?
我们可以看到上面的表格中,每个格子里面都有一个数值,那么例如:
T1和T3(我们从上往下看),各自都是一列,对吧?
好了,每一列都构成一个向量,对吧?
好了,两个向量的夹角余弦,我们就把他当做是“余弦相似度”来衡量两个文档T1和T3的不同,
显而易见,如果,两个文档极其相似,那么余弦相似度就是cos 0=1

总结

以上是生活随笔为你收集整理的3分钟搞懂LSI原理的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。