欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程语言 > python >内容正文

python

python计算tfidf sklearn计算

发布时间:2025/4/5 python 46 豆豆
生活随笔 收集整理的这篇文章主要介绍了 python计算tfidf sklearn计算 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

利用python 计算文档的tfidf,步骤大概如下:

读入文档,对文档进行分词,每一段为一个字符串,分词用空格隔开,读入文档是一个长度为该文档段数的列表。

利用vectorizer生成词频矩阵X , 再利用tfidftransformer 生成tfidf矩阵。

代码如下:

import jieba import numpy as np from sklearn import feature_extraction from sklearn.feature_extraction.text import TfidfTransformer from sklearn.feature_extraction.text import CountVectorizertext = """ 由张一山与唐艺昕主演的新版《鹿鼎记》备受争议,魔改的剧情和夸张的演技让人无法直视。作为主演的张一山承受了大部分观众的炮火,受尽无数吐槽。而在剧中扮演韦小宝老婆之一苏荃的朱珠却在采访中直面差评、硬刚网友,为张一山洗白。尽管大家已经做好了翻拍不如原版的准备,然而还是没有想到这一版本《鹿鼎记》会如此不尽人意,开播前有多受网友期待,开播后就让人感到有多失望。张一山版《鹿鼎记》在经历了剧情魔改、演员演技浮夸这一系列重创后,最终评分惨不忍睹。原以为有“戏骨”张一山坐镇扛剧,这部剧再差也不会差到哪里去,谁曾想整部剧最大的槽点就是张一山本人。过于浮夸的演技,油腻做作的肢体语言,被网友称为“猴式演技”,还有网友无情吐槽张一山“像被鞭子抽了三年的心酸小瘦猴在努力假装快乐活泼”。而朱珠在剧中扮演的则是韦小宝的御姐老婆苏荃,性格大气沉稳、临危不惧。朱珠所饰演的苏荃其实也并没有让人眼前一亮,演技总体来说还是有些流于表面,没有让整部剧口碑力挽狂澜。或许是戏份不多的原因,朱珠在这部戏中并没有被过多讨论,网友的炮火主要还是集中在主演张一山身上。不过朱珠参演的另外一部剧《大秦赋》也同样备受争议,并且戏份过多的朱珠还受到不少吐槽。《大秦赋》这部剧算是高开低走的典型,集结了张鲁一、段奕宏、邬君梅等演技派的历史大剧,是网友们相当期待的一部剧,朱珠在剧中扮演的是一代美人赵姬。作为秦始皇嬴政的生母,赵姬戏份过于拖沓,与嫪毐的情爱纠葛缠绵不断,被网友吐槽将《大秦赋》演成了《大情妇》或者是《嫪毐传》。赵姬这个角色若是演好了定能圈大波粉丝,不过朱珠却将其演绎成了只会傻笑的“傻白甜”,美则美矣,然而没有了灵魂。这边朱珠自己已经受到吐槽不断,受访时还是为旧搭档张一山发声,与给出差评的观众正面刚。朱珠表示张一山虽然看起来古灵精怪,其实是非常成熟并且大男人的一个人,心里也是非常有数。 """word_list = text.split("\n") word_list new_word_list = [i for i in word_list if i != ""] new_word_listcorpus = [" ".join(jieba.cut(w)) for w in new_word_list] corpusvectorizer = CountVectorizer() X = vectorizer.fit_transform(corpus) word = vectorizer.get_feature_names() word freq = X.toarray() freqtransformer = TfidfTransformer() tfidf = transformer.fit_transform(X)tfidf.toarray()

 

《新程序员》:云原生和全面数字化实践50位技术专家共同创作,文字、视频、音频交互阅读

总结

以上是生活随笔为你收集整理的python计算tfidf sklearn计算的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。