欢迎访问 生活随笔!

生活随笔

当前位置: 首页 >

hadoop学习-stream-Top K记录

发布时间:2025/4/5 46 豆豆
生活随笔 收集整理的这篇文章主要介绍了 hadoop学习-stream-Top K记录 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

求海量数据中最大的K个记录

来源于《hadoop实战》(hadoop in action)(美 拉姆)第4.7章节有关stream的习题。

数据源:apat63_99.txt 专利描述数据集,包含专利号、专利申请年份等等信息。可从美国国家经济研究局获得,网址为http://www.nber.org/patents 

大约有290万条记录。

这里的脚本用的是python。

apat63_99.txt里面存有专利的各种信息,这里以第9列的专利特定专利声明个数作为排序的key值,将最大的K条完整记录输出。

apat63_99.txt格式:

[plain] view plain

总结

以上是生活随笔为你收集整理的hadoop学习-stream-Top K记录的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。