欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程语言 > python >内容正文

python

python判断成语_python正则表达式抓取成语网站

发布时间:2024/9/19 python 39 豆豆
生活随笔 收集整理的这篇文章主要介绍了 python判断成语_python正则表达式抓取成语网站 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

#anthor jiqunpeng

#time 20121124

import urllib

import re

def gethtml(url): #从url中读取html内容

page = urllib.urlopen(url)

html = page.read()

page.close()

return html

def getdictionary(html): #匹配成语

reg = "(.*?)"

diclist = re.compile(reg).findall(html)

return diclist

def getitemsite():#手工把每个字母开头的页面数统计下来

itemsite = {}#申明为空字典

itemsite["a"] = 3

itemsite["b"] = 21

itemsite["c"] = 19

itemsite["d"] = 18

itemsite["e"] = 2

itemsite["f"] = 14

itemsite["g"] = 13

itemsite["h"] = 15

itemsite["j"] = 23

itemsite["k"] = 6

itemsite["l"] = 15

itemsite["m"] = 12

itemsite["n"] = 5

itemsite["o"] = 1

itemsite["p"] = 6

itemsite["q"] = 16

itemsite["r"] = 8

itemsite["s"] = 26

itemsite["t"] = 12

itemsite["w"] = 13

itemsite["x"] = 16

itemsite["y"] = 35

itemsite["a"] = 21

return itemsite

if __name__== "__main__":

dicfile = open("dic.txt","w+")#保存成语的文件

domainsite = "http://chengyu.itlearner.com/list/"

itemsite = getitemsite()

for key,values in itemsite.items():

for index in range(1,values+1):

site = key +"_"+str(index)+".html"

dictionary = getdictionary(gethtml(domainsite+site))

for dic in dictionary:

dicfile.write(dic[2]+"@@cy\n")#标记为成语,分词时使用

print key+'字母成语抓取完毕'

dicfile.close()

print '全部成语抓取完毕'

总结

以上是生活随笔为你收集整理的python判断成语_python正则表达式抓取成语网站的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。