2024-05-23 13:54:25 发布
网友
你好亲爱的男孩和女孩,我道歉,如果问题不在正确的地方(谈论正确的论坛-stackoverflow等)
我可以在半中级水平上使用python和R。。。 我一直在想这个问题:
这可能吗?在给定数据集没有预设实体定义的情况下识别这样的东西?以会计记录为例。我有“x”数量的记录,我想检测任何记录,不是“自然”的数据集。有没有一种方法来编码一个系统,这样做-假设你没有以前的数据与这样的记录标记为不正常?你知道吗
你的问题很广泛。最终你会要求非监督学习而不是监督学习。答案将取决于“这些记录怎么不是自然的”或者“自然”是什么意思。 如果没有更好的起点或模型,可以从聚类分析开始。如果到目前为止,大多数记录都是自然的,因为它们之间的距离很小,而有一些记录离得很远,那么聚类分析将帮助您找到这些记录。 有趣的一点是如何根据手头的每个问题来定义“距离”。你知道吗
一个明显的起点是hclust中的函数R,您将在Cluster Analysis的CRAN Task视图中找到各种高质量的包:https://cran.r-project.org/web/views/Cluster.html
hclust
R
在所有严肃的统计书籍中,你都会发现一句话:了解你的数据。清理和了解数据是工作的一部分(大多数时候也是最大的一部分)。因此,没有标准程序,但有一些提示:
table
您可以在这里找到更多的技术讨论:How to remove outliers from a dataset或一些教程https://www.r-bloggers.com/identify-describe-plot-and-remove-the-outliers-from-the-dataset/
赫本
你的问题很广泛。最终你会要求非监督学习而不是监督学习。答案将取决于“这些记录怎么不是自然的”或者“自然”是什么意思。 如果没有更好的起点或模型,可以从聚类分析开始。如果到目前为止,大多数记录都是自然的,因为它们之间的距离很小,而有一些记录离得很远,那么聚类分析将帮助您找到这些记录。 有趣的一点是如何根据手头的每个问题来定义“距离”。你知道吗
一个明显的起点是
hclust
中的函数R
,您将在Cluster Analysis的CRAN Task视图中找到各种高质量的包:https://cran.r-project.org/web/views/Cluster.html在所有严肃的统计书籍中,你都会发现一句话:了解你的数据。清理和了解数据是工作的一部分(大多数时候也是最大的一部分)。因此,没有标准程序,但有一些提示:
table
您可以在这里找到更多的技术讨论:How to remove outliers from a dataset或一些教程https://www.r-bloggers.com/identify-describe-plot-and-remove-the-outliers-from-the-dataset/
赫本
相关问题 更多 >
编程相关推荐