首页 理论教育 了解大数据可视化的重要性

了解大数据可视化的重要性

时间:2023-06-24 理论教育 版权反馈
【摘要】:数据可视化帮助我们更好地理解数据,从中发现有意义的性质或模式。例如,通过对零售业务数据的可视化也许可以发现用户购买行为的变化趋势。然而,大数据的庞大数据量是对可视化技术的挑战。大数据通常是超高维的,而大多数可视化技术只能支持二维或三维数据。例如,假设用户希望利用k-means算法对数据进行聚类并对结果可视化。这种方法可以节省k-means算法的大量时间,并且使用户可以尽早看到可视化的结果。

了解大数据可视化的重要性

数据可视化帮助我们更好地理解数据,从中发现有意义的性质或模式。例如,通过对零售业务数据的可视化也许可以发现用户购买行为的变化趋势。然而,大数据的庞大数据量是对可视化技术的挑战。数据可视化需要实时处理,这样才能让用户与可视化界面进行交互(例如放大/缩小)。并且,在屏幕上展示大量目标也是很困难的。接下去,我们将对此问题提出一些解决方法。

第一种方法是使用降维技术降低数据的维度。大数据通常是超高维的,而大多数可视化技术只能支持二维或三维数据。有很多种数据降维的方法,例如主成分分析(PCA)、奇异值分解(SVD)。 PCA从数据中找到方差最大的方向,然后将高维数据投影到这些维度上。图1-2展示了对二维数据进行主成分分析的例子,数据被投影到直线方向上,从而从二维降到一维。

图1-2 一个主成分分析的例子(www.xing528.com)

第二种方法是将数据分类到多个簇,然后只展示每个簇的中心,而不是展示所有数据。

前两种解决方法通过大数据计算框架(例如Hadoop和MapReduce)都可以离线完成。

第三种方法发现可视化技术并不需要高精度的计算,因为通常情况下屏幕分辨率要比计算的精度低得多,Choo等由此提出了一系列解决方法[18]。方法之一是使用迭代的交互式可视化。例如,假设用户希望利用k-means算法对数据进行聚类并对结果可视化。kmeans算法采用迭代式过程,每一轮迭代各个数据点都被赋予最近的簇,然后新的簇中心被计算出来。通常做法是在整个数据集上运行k-means算法,然后进行可视化。然而,绝大部分簇的变化过程都发生在最初的几轮迭代,因而可以在k-means算法每轮迭代结束时对各个簇进行可视化,而当簇的中心不再明显改变时停止算法。这种方法可以节省k-means算法的大量时间,并且使用户可以尽早看到可视化的结果。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈