python输出出现频率最高的字母_用Python实现搜索某一网页中出现频率最高的前N个英文单词 输入: 网址,N值 输出:按出现频率由高到低排...
满意答案
好象是有一个jieba分词。国人写的,有一个小男孩的头像。挺简单,好玩。
它里有topN的算法。我把代码复制过来。你看一下。最关键的就一句话。
import sys
sys.path.append('../')
import jieba
import jieba.analyse
from optparse import OptionParser
USAGE ="usage: python extract_tags.py [file name] -k [top k]"
parser = OptionParser(USAGE)
parser.add_option("-k",dest="topK")
opt, args = parser.parse_args()
if len(args) <1:
print USAGE
#sys.exit(1)
file_name = args[0]
if opt.topK==None:
topK=10
else:
topK = int(opt.topK)
print file_name
content = open(file_name,'rb').read()
tags = jieba.analyse.extract_tags(content,topK=topK) #这一句
print ",".join(tags)
如果是英文单词就更简单了。可能几句话。我试一下看
s=open("some.txt").read()
import re
words=re.findall("(?isu)(\S+)",s)
counts={}
for w in words:
try:
counts[w]+=1
except KeyError:
counts[w]=1
items=count.items()
items.sort(key=lambda x:x[1],reverse=True)
for k,v in items:
print k,v
这样应该就可以了。
00分享举报
总结
以上是生活随笔为你收集整理的python输出出现频率最高的字母_用Python实现搜索某一网页中出现频率最高的前N个英文单词 输入: 网址,N值 输出:按出现频率由高到低排...的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: mysql添加远程登陆权限及mysql远
- 下一篇: python opencv 识别角度_O