欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程资源 > 综合教程 >内容正文

综合教程

维基百科镜像处理

发布时间:2023/12/13 综合教程 44 生活家
生活随笔 收集整理的这篇文章主要介绍了 维基百科镜像处理 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

维基百科语料资源丰富,而维基百科又提供数据库下载,是语料资源来源的良好途径。

1. 中文维基数据下载

下载dump:https://dumps.wikimedia.org/zhwiki/latest/,维基数据主要包含以下几部分

zhwiki-latest-pages-articles.xml.bz2     词条正文
zhwiki-latest-redirect.sql 词条重定向(同义词)
zhwiki-latest-pagelinks.sql 词条页面内容外链
zhwiki-latest-page.sql 词条标题及摘要
zhwiki-latest-categorylinks.sql 词条开放分类链接

本文处理的数据是:zhwiki-latest-pages-articles.xml.bz2

2. 中文维基数据解析

下载后需要对该xml文件的压缩包作处理,所幸gensim的WikiCorpus已经预置了部分处理。几行关键的python代码如下:

input_file = "zhwiki-latest-pages-articles.xml.bz2"wiki = WikiCorpus(input_file, lemmatize=False, dictionary={}) for text in wiki.get_texts(): str_line = bytes.join(b' ', text).decode() #以下可以存入文件或数据库

总结

以上是生活随笔为你收集整理的维基百科镜像处理的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。