欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程资源 > 编程问答 >内容正文

编程问答

jieba 结巴分词详解

发布时间:2023/12/10 编程问答 50 豆豆
生活随笔 收集整理的这篇文章主要介绍了 jieba 结巴分词详解 小编觉得挺不错的,现在分享给大家,帮大家做个参考.
  • 🔗 运行环境:python3
  • 🚩 作者:K同学啊
  • 🥇 精选专栏:《深度学习100例》
  • 🔥 推荐专栏:《新手入门深度学习》
  • 📚 极品专栏:《Matplotlib教程》
  • 📔 选自专栏:《自然语言处理NLP-实例教程》
  • 🧿 优秀专栏:《Python入门100题》

📌 结巴分词代码

import jieba# 如果你需要自定义专有名词,请加上这行代码 jieba.load_userdict('dict.txt')job_title= pd.DataFrame() job_title["title_jieba"] = df["job_title"].apply(lambda x:' '.join(jieba.cut(x))) job_title[:3]


你可能还需要📌去除停用词的代码

with open("my_stop_words.txt", "r") as f:stopwords = f.readlines()stopwords_list = [] for each in stopwords:stopwords_list.append(each.strip('\n'))def remove_stopwords(ls): # 去除停用词ls = ls.split(" ")return [word for word in ls if word not in stopwords_list]job_title['去除停用词后的数据']=job_title["title_jieba"].apply(lambda x: remove_stopwords(x)) job_title

总结

以上是生活随笔为你收集整理的jieba 结巴分词详解的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。