欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程资源 > 编程问答 >内容正文

编程问答

自然语言处理期末复习(6)话题模型

发布时间:2025/3/19 编程问答 45 豆豆
生活随笔 收集整理的这篇文章主要介绍了 自然语言处理期末复习(6)话题模型 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

一、LAS

1.向量空间模型通过计算文档向量间的相似度来衡量两个文档之间的相关性,常用的相似度为(夹角)余弦相似度。

2.LSA的核心在于将秩r的词项-文档矩阵C进行SVD分解,并寻求词项-文档矩阵的k秩逼近Ck 此时我们可以说,在进行潜在语义分析之前,文档被隐含表示成r维空间中的向量,而在潜在语义分析之后,文档被表示为k维空间中的向量,也就是潜在语义空间中的向量,向量的维数缩减为k维。

维数k可以被解释为隐含在文档集合中的话题数量,因此LSA可以被视作一种话题模型

3. LSA要点:

(1) 基于词(项)-文档矩阵归纳语义信息

(2) 基于维数缩减归纳语义信息

(3) 文档和词(项)被视作欧式空间中的点进行计算

二、概率话题模型

1. 混合模型(mixture model),分布表示为若干部件分布按照一定的比例进行组合。

(1) 文档是关于话题的分布, 不同文档拥有不同的话题比例p(z)。

(2) 话题是定义在词表上的概率分布p(w|z),不同的话题是定义在词表上的不同分布,与LSA不同,话题有着直观的物理解释。

话题模型是生成模型,文档是话题模型规定的概率过程的产物

(1) 对每一个文档,首先选择一个话题分布p(z)

(2) 对文档中的每一个词位,按照话题分布p(z)选择一个话题

(3) 按照话题-词分布p(w|z)选择一个词

• 在话题模型中,文档中每个词都对应着一个隐含的话题,这些隐含的话题可以通过统计推断的技术从大量的文档集合中提取得到。

2.pLSA是一种概率话题模型,LDA可视作是对pLSA的改进

– 文档视作话题的混合模型

– 话题视作词的不同分布


总结

以上是生活随笔为你收集整理的自然语言处理期末复习(6)话题模型的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。