检测不规则或所谓的大纲视图

2024-05-23 13:54:25 发布

您现在位置:Python中文网/ 问答频道 /正文

你好亲爱的男孩和女孩,我道歉,如果问题不在正确的地方(谈论正确的论坛-stackoverflow等)

我可以在半中级水平上使用python和R。。。 我一直在想这个问题:

  1. 如果我有一个数据集,我可以建立一个统计模型,那么一切都很好。我建立模型,测试它,再测试一次,做一张记分卡然后砰的一声。你知道吗
  2. 我想知道。。。有没有一种方法(理论上甚至实际上)可以检测数据中的不规则性/大纲视图,而不必使用以前的数据集(例如)来构建统计模型。我指的是一种不包括检查4亿条记录和标记IREG的方法,然后做一些有成效的事情。你知道吗

这可能吗?在给定数据集没有预设实体定义的情况下识别这样的东西?以会计记录为例。我有“x”数量的记录,我想检测任何记录,不是“自然”的数据集。有没有一种方法来编码一个系统,这样做-假设你没有以前的数据与这样的记录标记为不正常?你知道吗


Tags: 数据方法标记模型视图地方记录水平
2条回答

你的问题很广泛。最终你会要求非监督学习而不是监督学习。答案将取决于“这些记录怎么不是自然的”或者“自然”是什么意思。 如果没有更好的起点或模型,可以从聚类分析开始。如果到目前为止,大多数记录都是自然的,因为它们之间的距离很小,而有一些记录离得很远,那么聚类分析将帮助您找到这些记录。 有趣的一点是如何根据手头的每个问题来定义“距离”。你知道吗

一个明显的起点是hclust中的函数R,您将在Cluster Analysis的CRAN Task视图中找到各种高质量的包:https://cran.r-project.org/web/views/Cluster.html

在所有严肃的统计书籍中,你都会发现一句话:了解你的数据。清理和了解数据是工作的一部分(大多数时候也是最大的一部分)。因此,没有标准程序,但有一些提示:

  • 数值数据:绘制大量的曲线图,如箱线图、散点图、直方图等
  • 分类数据:进行一些统计,例如使用table

您可以在这里找到更多的技术讨论:How to remove outliers from a dataset或一些教程https://www.r-bloggers.com/identify-describe-plot-and-remove-the-outliers-from-the-dataset/

赫本

相关问题 更多 >