欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程资源 > 编程问答 >内容正文

编程问答

java中检测数据波动_在pyspark数据帧中检测异常值

发布时间:2023/12/15 编程问答 43 豆豆
生活随笔 收集整理的这篇文章主要介绍了 java中检测数据波动_在pyspark数据帧中检测异常值 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

据我所知,没有一个API也没有专门用于检测异常值的包,因为数据本身因应用程序而异 . 然而,有几种已知的方法都有助于识别异常值 . 让我们首先看看术语异常值的含义,它只是指超出观察范围/范围的极值 . 如何看待这些异常值的一个很好的例子是,当以直方图方式或散点图可视化数据时,它们可以强烈地影响静态并且压缩有意义的数据 . 或者它们可以被视为对数据统计汇总的强烈影响 . 例如在使用平均值或标准偏差之后 . 这肯定会产生误导,当我们使用包含异常值的训练数据时会有危险,训练将花费更长的时间,因为模型会在超出范围的值上挣扎,因此我们会得到一个不太准确的模型,结果很差或“从不收敛客观测量”,即将测试和训练的输出/得分与训练时间或某些准确度值范围进行比较 .

虽然通常将异常值作为数据中的不良实体,但它们仍然可以签署异常,并且它们的检测本身将成为发现欺诈或提高安全性的方法 .

这里有一些k自己的异常值检测方法(更多细节可以在这个好的article中找到):

极值分析,

概率统计模型,

线性模型:减少数据维度,

基于邻近的模型:主要使用聚类 .

对于代码,我建议从mapr这个好tutorial . 希望这个答案有所帮助 . 祝好运 .

总结

以上是生活随笔为你收集整理的java中检测数据波动_在pyspark数据帧中检测异常值的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。