欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程资源 > 编程问答 >内容正文

编程问答

新词发现想法

发布时间:2024/9/30 编程问答 42 豆豆
生活随笔 收集整理的这篇文章主要介绍了 新词发现想法 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

参考

http://www.matrix67.com/blog/archives/5044

http://for-ever-young.iteye.com/blog/1133136


1. 通过用户查询query发现

2. 互信息

互信息之统计模型中衡量2个随机变量X,Y之间的关联程度,而在新词的识别中则特指相邻2个词之间的关联程度。

MI(X,Y)=log2(p(X,Y)/p(X)*P(Y))

那么当『XY』未在已经训练完的词库中出现,且该互信息高于某一阀值值,那么我们就假定该词为新词。


3. 频率

当某一组连续相邻的字在新的语料库或网络日志中大量出现而未在词库中登记时,那么我们也可假定该词为新词。


4. 先分词,求分词结果组合串 出现的频率


5. matrix67 新词发现的工作很有创意

把一个新词定位为两个维度,一是内部凝结度,可以用互信息描述;二 是外面信息熵

很明显的是,如果内部凝结度越高,互信息越高

并且 如果左邻或右邻的词的种类越多,熵越大



总结

以上是生活随笔为你收集整理的新词发现想法的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。