3分钟搞懂LSI原理
生活随笔
收集整理的这篇文章主要介绍了
3分钟搞懂LSI原理
小编觉得挺不错的,现在分享给大家,帮大家做个参考.
假设原始矩阵如下:
index words:被用户搜索到的词语
Titles:文章标题
svd分解后如下:
第1个矩阵表示某个词与主题之间的相关性
第2个矩阵表示关键词与主题之间的相关性
第3个矩阵表示关键词与某个文档之间的相关性
有的同学会看到有些资料说,根据LSI可以计算文档文档之间的相似度,这个是怎么回事呢?
我们可以看到上面的表格中,每个格子里面都有一个数值,那么例如:
T1和T3(我们从上往下看),各自都是一列,对吧?
好了,每一列都构成一个向量,对吧?
好了,两个向量的夹角余弦,我们就把他当做是“余弦相似度”来衡量两个文档T1和T3的不同,
显而易见,如果,两个文档极其相似,那么余弦相似度就是cos 0=1
总结
以上是生活随笔为你收集整理的3分钟搞懂LSI原理的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: kaggle手机验证问题
- 下一篇: plsa原理