伴随着大数据技术的成熟而快速兴起的是机器学习技术,机器学习是用数据或以往的经验来优化计算机程序的性能标准,大数据为有监督的机器学习提供了所必需的训练数据,以支持智能化的文本分类、图像语义标注、视频信息提取和视觉信息标注。图书馆以往依赖编目馆员进行数据加工,需要耗费大量的人力和时间,大数据带来的各类资源成指数级增长,依赖人工的方式已经远远无法满足需要。大数据同时也带来了技术的革新,寻求智能化的方法辅助甚至逐步取代人工来进行数据加工,是图书馆界必须面对的课题。
文本自动分类、自动标注和自动补全是大数据与机器学习领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。在大数据时代如何对数据进行理解和检索成为研究人员广泛关注的问题,在推荐系统、人脸识别、图像检索等众多实际问题中有着广泛的应用。虽然收集到大量数据并不困难,但是由于各方面的原因,收集到的数据可能是缺失的、不完整的、或被干扰的。另外,数据的分类、识别和理解经常需要依赖大量的标注数据,而人工标注所有数据耗时耗力。因此,基于已有的人工标注数据,和大数据所提供的样本数据,加上机器学习的算法,成为一个必然的选择。
近年来,智能化计算成为主要的研究方向。针对图像内容语义标注的问题,机器学习能够完成内容语义关联、分类、标注和Hash映射等任务,为大规模环境下应用图像语义并提升语义分析能力提供算法支持。图像语义标注是图像内容语义分析中的重要议题,能够建立起图像内容与语义间的分类关系。
随着存储设备、计算机网络和压缩技术的发展,产生了大量的视频数据,如何有效地处理和访问这些数据,成为一个迫切需要解决的问题。视频语义标注可以根据视频所体现的内容按概念对其赋予标号,在此基础上可以实现高效的视频数据处理(如索引、检索和缩略等)。完全使用人工来实现视频标注任务,无疑可以获得相当精确的结果。然而人工标注是一项费时费力的工作,无法在大规模的数据集和概念集上应用。因此,使用机器学习方法来实现这一任务成了必然的选择。(www.xing528.com)
视觉信息语义标注受到愈来愈多的关注,成为当下的研究热点。早期的视觉信息标注是人工完成的,然而人工标注费时费力,无法完成大规模视觉信息的语义标注,这促使人们寻找新的标注技术。由于机器学习方法具有成熟的理论基础,可为语义标注提供理论支持及可能的解决方案,基于机器学习的自动语义标注已逐渐成为解决视觉信息标注问题的主流途径。
另外,众包作为一种分布式的问题解决模式,近年来被图书馆界大量应用到数据加工的工作过程中。问题发布者将问题以公开招标的方式传播给未知的解决方案提供者群体。监督机器学习需要大量的人工标注数据,众包的发展为获取人工标注数据提供了一个新的方法。众包获取人工标注数据具有廉价、快速、规模大和方便控制等优点,因此得到了机器学习研究人员的广泛关注。众包标注数据虽然很方便,但是质量会有问题。现在很多研究人员提出用重复标注的方式产生冗余的标注数据,在这个数据上用机器学习算法来过滤噪声或者估计更可靠的标签。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。