当前位置:
首页 >
hadoop学习-stream-Top K记录
发布时间:2025/4/5
46
豆豆
生活随笔
收集整理的这篇文章主要介绍了
hadoop学习-stream-Top K记录
小编觉得挺不错的,现在分享给大家,帮大家做个参考.
求海量数据中最大的K个记录
来源于《hadoop实战》(hadoop in action)(美 拉姆)第4.7章节有关stream的习题。
数据源:apat63_99.txt 专利描述数据集,包含专利号、专利申请年份等等信息。可从美国国家经济研究局获得,网址为http://www.nber.org/patents
大约有290万条记录。
这里的脚本用的是python。
apat63_99.txt里面存有专利的各种信息,这里以第9列的专利特定专利声明个数作为排序的key值,将最大的K条完整记录输出。
apat63_99.txt格式:
[plain] view plain总结
以上是生活随笔为你收集整理的hadoop学习-stream-Top K记录的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: Hadoop 在关机重启后,nameno
- 下一篇: hadoop学习-倒排索引