首页 理论教育 特征向量与分类:利用散点图识别猫狗

特征向量与分类:利用散点图识别猫狗

时间:2023-06-21 理论教育 版权反馈
【摘要】:散点图显示的是特征空间中的点,这些点对应于:从不同的类中抽样出的已知样本。此外,一些特征测量结果可能和所做的决策无关。因此,对于这个特例,我们可以用一个二值特征来对猫和狗进行辨别。

特征向量与分类:利用散点图识别猫狗

考虑到:只使用一个测量结果无法取得很好的分类效果,我们可能会引入其他的测量结果。例如,由于猫的寿命比狗稍微长一些,我们可能会去获得这些动物的年龄,然后选择第二个阈值用来区分猫和狗。我们可以用逻辑运算(例如,与(∧)、或(∨)),将不同类型的测试结果组合在一起

使用这些数据的一个更“聪明”的方法是:假设年龄和重量是相关的。这两种测量结果可能以:重量除以年龄的方式,结合在一起;或者,使用其他一些更加复杂的方式,例如,重量除以该年龄的该种动物的平均重量。根据两种测量结果的商来进行辨别,其效果似乎比单独根据某种测量结果来进行判别要好。

我们可以通过考虑:关于重量和年龄的有标记的散点图,来进一步改进判别方法。散点图显示的是特征空间中的点,这些点对应于:从不同的类中抽样出的已知样本。随着样本数量的增加,对于某一个类来说,属于该类的点的密度将逐渐趋近于:该类的二维概率密度分布。如果幸运的话,我们可能找到一条光滑曲线,用来区分:所有被标记为“猫”的点和所有被标记为“狗”的点。但是,我们很可能做不到这一点。这种情况下,我们至少可以找到一条光滑曲线,以很小的误差,将被标记为“猫”的点和被标记为“狗”的点区分开来。

为了得到更好的分类效果,我们需要用到更多的测量结果,于是,特征空间的维数也会进一步增加。分类就是:将特征空间划分为对应于不同的类的一些区域。通常情况下,随着特征的不断加入,对分类效果的增效逐渐减弱,也就是说:新的特征测量结果常常是和已有的特征测量结果相关的,因此,新的特征测量结果几乎没有提供新的信息。这样的测量结果不能提高辨别效果。此外,一些特征测量结果可能和所做的决策无关。(www.xing528.com)

为了使用统计信息来指导我们选择决策边界,我们必须导出多元概率分布。我们也可以构造其他复杂的决策方法,但是,通常情况下,这些方法要么难以实现,要么需要更多的计算量。

当然,如果你了解动物的话,你会知道:猫具有可以伸缩的爪子,而狗没有。因此,对于这个特例,我们可以用一个二值特征(即:爪子的特点)来对猫和狗进行辨别。这告诉我们:不应该盲目地选择模式分类方法,还有,分类结果的好坏与特征的选取有关。没有什么复杂的算法可以弥补:由于选择不合适的特征所造成的缺陷。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈