首页 理论教育 共享抛硬币技巧-图说人工智能

共享抛硬币技巧-图说人工智能

时间:2023-11-18 理论教育 版权反馈
【摘要】:通过这个实验可以发现,手中的两枚硬币是不同的。其中,硬币A的正面朝上概率较高,硬币B的反面朝上概率较高。这种估计隐藏的量的过程就是聚类算法。在本次抛硬币的实验中,隐藏的量就是我们具体抛的是哪枚硬币。为了对此进一步解释,我们来看一个更具体的问题。这就是聚类算法,也就是为样本“贴标签”的过程。例如,一个人跳远成绩的均值是1.40 m,置信区间是±0.2 m,则此人跳远成绩的范围变化为1.38~1.42 m。

共享抛硬币技巧-图说人工智能

为了了解隐藏属性,我们来做几个抛硬币实验。

通过这个实验可以发现,手中的两枚硬币是不同的。其中,硬币A的正面朝上概率较高,硬币B的反面朝上概率较高。这是我们对数据进行统计后得到的规律。这个结果有什么用呢?现在如果出现了意外,硬币的外观完全一样,且在抛硬币的过程中忘记记录是哪次抛的结果,但需要你给出该结果是哪次抛的。

由于我们已经知道硬币A正面朝上的概率为90%,因此可以通过抛硬币的实验来判断是哪枚硬币的结果。这种估计隐藏的量的过程就是聚类算法。在本次抛硬币的实验中,隐藏的量就是我们具体抛的是哪枚硬币。

为了对此进一步解释,我们来看一个更具体的问题。请看下面的跳远成绩,至少可能由几人取得呢?(www.xing528.com)

对于数据而言(假设每个人都努力跳的情况下),由于条件不同,因此所跳距离也会有细微差距,但差距不会太大。由此可以推断,上面的跳远成绩是由3人所得。

我们来体会一下这个过程。在记录过程中,我们仅记录了跳远成绩。受到身体条件限制,每个人所能达到的极限是不同的,虽然会有小误差,但影响不大。根据这个想法,我们把上面的成绩认为是3人所得的结果。这就是聚类算法,也就是为样本“贴标签”的过程。

这里有个小的问题需要解释,就是均值和置信区间,均值是对数据平均的结果;置信区间是指超过什么范围,数据就不可信。例如,一个人跳远成绩的均值是1.40 m,置信区间是±0.2 m,则此人跳远成绩的范围变化为1.38~1.42 m。如果数据超过该区间,则说明可能并非此人的成绩。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈