首页 理论教育 智能生成塑造视觉传播讯息

智能生成塑造视觉传播讯息

时间:2023-11-18 理论教育 版权反馈
【摘要】:除去听觉传播讯息之外,基于非监督式机器学习的模式亦被广泛用于视觉传播讯息的智能生成塑造应用实践当中。

智能生成塑造视觉传播讯息

除去听觉传播讯息(如音乐传播讯息等)之外,基于非监督式机器学习的模式亦被广泛用于视觉传播讯息(如图像传播讯息、关于时尚的传播讯息等)的智能生成塑造应用实践当中。

1.视觉传达设计传播讯息的智能生成塑造

视觉传达设计(Visual Communication Design)常常被用来塑造与图像相关的传播讯息,如海报、封面等。基于人类智能和人工智能(特别是监督式机器学习)的智能融合生成的相应图像传播讯息,无论是在学术研究还是应用实践当中都已大放异彩。诚然,与音乐作品传播讯息的智能生成塑造一样,视觉传播讯息的智能生成塑造模式同样可以分为类似的符号化流派、机器学习流派、极值优化流派和自生成流派这四大流派。

2017年《ACM多媒体计算、传播和应用学刊》(ACM Transactionson Multimedia Computing,Communications and Applications,TOMM)的尼古拉斯·吉奥加斯(Nicolas D.Georganas)最佳论文奖授予了《图文展示布局的自动化生成研究》(“Automatic Generation of Visual-Textual Presentation Layout”)[88],论文作者分别来自清华大学美术学院和微软亚洲研究院,是艺术科技融汇应用于传播的跨学科研究。论文聚焦杂志封面、海报、幻灯片等富媒体的图文展示布局问题,即,如何将图片和在其之上的可读文字进行排版搭配,既让受众获得美的享受,又能够迅速地获取受众的注意力。纯粹基于人类智能,做到极佳的图文展示布局,对于非视觉传达设计的顶尖专业人士而言是具有挑战性的。在论文建构的解决方案中,一般用户就可以依托系统自动生成具有极佳美感和传播效果的图文展示布局。如图4.3.9所示,论文建构的解决方案智能生成的图文展示布局在图中的第三列,而图中的前两列是前人建构的当时最为先进的(the state-of-the-art)解决方案,而最后一列则是由人类设计师纯粹基于人类智能手工制作的。

符号化流派和极值优化流派的理念也被融合进解决方案的建构之中。首先,论文基于将人类智能符号化流派的理念,将自上而下的审美准则和自下而上的图像特征进行整合,通过将人类智能对图像的空间布局、色彩语义、色彩和谐模型、字体情感和大小限制的要求符号化,形成了一系列的布局模板。接着,论文基于极值优化流派的理念,将图文展示布局问题转化成为一个极值优化问题,即,在自动选择的布局模板以及保证色彩和谐[89]的基础之上,将文字的侵扰、视觉空间的占用以及感知和语义信息的错配降到最低(即最小化)。最后,在用户研究(user studies)中,传播受众对解决方案智能生成的图文展示布局予以了较高的评价,该图文展示布局获得了较好的传播效果。

图4.3.9 图文展示布局的智能生成效果比较[90]

如果认为上述解决方案还仅仅是学术前沿研究做出的模型系统的话,阿里巴巴公司的智能设计实验室研发的人工智能设计师鲁班在实践应用获得的巨大成功,则充分证明了视觉传播讯息智能生成塑造模式的有效性和高效性。2016年“双11”期间,阿里巴巴公司旗下天猫电子商务平台的1.7亿张商品展示广告都是由人工智能设计师鲁班完成的。若这些平面设计图像传播讯息都由人类智能的设计师手工完成,则需要100个设计师用300年的时间才能完成(假设每张图像的设计需要耗时20分钟)。到了2017年的“双11”,鲁班完成的商品展示广告已达到4亿张。鲁班一天可以完成4 000万张图像的塑造,平均每秒8 000张。更为重要的是,这些水平(作品达到阿里巴巴中能够担纲中等设计项目主创人员的P6级别,相当于业界高级设计师的水平)之上的图像设计没有一张是相同的,而且能够根据各个用户的特征个性化地智能生成。鲁班于2018年更名为鹿班,开始为阿里巴巴旗下电子商务平台的商家用户提供一键生成、智能排版、设计拓展三大功能。鲁班的核心运行逻辑是先由将人类智能符号化建立的人工智能生成一系列候选的图像,然后再由同样将人类智能符号化建立的人工智能对这些候选图像进行判别。若候选图像未达到标准,则进行反馈迭代调整生成新的候选图像,反之则将候选图像提供给商家用户。此外,2018年的鹿班还为设计师提供了智能创作功能,可以将自己的设计作品输入系统,令其进行非监督式机器学习,不断升级智能生成图像传播讯息的塑造风格和创作模式。可以说,鲁班/鹿班传播应用实践解决方案的建构基于人类智能和人工智能的智能融合,而且融汇运用了符号化流派、机器学习流派和极值优化流派三大流派的理念,其获得塑传者和传播受众的认可也在情理之中。

2.视觉艺术传播讯息的智能生成塑造

除去视觉传达设计之外,视觉艺术亦是智能生成视觉传播讯息的重要塑造领域。基于深度生成模型的视觉风格迁移(style transfer)[91]是应用实践中的典型成功案例。所谓视觉风格迁移,指的是将源视觉传播讯息(如毕加索的一幅画)的风格特征和塑造模式,转移应用到目标视觉传播讯息(如用户拍摄的一张照片),改变其原先的风格特征和塑造模式。图4.3.10上方第一行是源视觉传播讯息(五张世界名画),而图4.3.10左侧第一列是目标视觉传播讯息(人像、大桥、花园三张照片)。对于任意一张照片而言,可以通过将不同的名画风格迁移过来的方法,形成新的视觉效果。以人像照片为例(即,图4.3.10上方第二行),通过分别迁移五张世界名画的风格,即可以生成五种不同效果的新人像照片。

图4.3.10 视觉风格迁移塑造模式[92]

视觉风格迁移的塑造模式基于卷积神经网络(Convolutional Neural Network,CNN)计算机仿生隐喻,通过对不同的名画分别进行非监督式机器学习,建立深度生成模型,再运用该模型对人像、大桥、花园等照片进行修改,智能生成全新的视觉效果。可以说,视觉风格迁移的塑造模式既有对传统的尊重(即对名画风格的学习),又有将其融汇应用于新目标对象形成融合视觉效果的创新,是尊重传统和开拓创新的“深度融合”。而此模式基于的亦是典型的机器流派理念。

上述模式已在视觉传播讯息的智能生成塑造实践当中发挥了作用:Prisma、Aristo、Poker、Philm、Fabby、Versa等诸多app获得了传播受众的普遍喜爱。Prisma基于视觉风格迁移塑造模式[93],将用户拍摄的照片和视频转化成为具有著名艺术家(如梵高)风格的艺术作品;360相机推出的Poker与Prisma的原理相似,亦包含中世纪拜占庭琉璃和日本浮世绘等诸多风格。其专门针对中国用户对自拍的需求,在人像处理上比Prisma有了较大的优化。此外,Poker还在处理时间上(平均只要几秒钟)大大超越了Prisma。2016年全球第二大非英语搜索引擎Mail.ru推出的Artisto则专注视频传播讯息的视觉风格迁移,其自身自带了21种不同的风格滤镜,如毕加索的《蓝色梦》(Blue Dream)的风格、里约奥运会的视觉识别(Visual Identity)风格等,可以对10秒的短视频进行重塑;黑咔相机团队推出的Philm与Artisto的原理相似,但却可以处理超过30秒的短视频。其用户人数已超过1.2亿,日均活跃用户人数达到600万。

3.时尚设计传播讯息的智能生成塑造

除去视觉传达设计和视觉艺术之外,非监督式机器学习对视觉传播讯息的智能生成塑造亦与占全球的GDP 2%的时尚领域相交织。而其交叉的抓手是时装照片这一传播讯息的数字化降维编码形成低维数字向量,以及将此低维数字向量无损升维解码还原成为原先的时装照片。这一数字化降维编码以及无损升维解码恰恰是通过基于非监督式机器学习建构深度生成模型完成的。而形成的低维数字向量携带的信息可以完整地重现原先的时装照片,是其的全面表征。基于低维数字向量,塑传者既可以对时装的设计进行智能判别研究,亦可以对其进行智能生成实践。

西摩塞拉(Simoserra)和石川(Ishikawa[94])将时装照片的传播讯息进行了数字化降维编码,形成了128维的低维向量。换而言之,每张时装照片都转化成为了由128个数字组成的向量。图4.3.11展示了四张照片各自转化成为相应的128维低维向量的结果。在获得这些可以表征时装照片的低维向量之后,研究者即可对其收集的时尚自媒体上发布的共计14.4万张时装照片进行可视化聚类智能判别研究。其将每张时装照片的128维低维向量依托t-SNE技术继续降维,形成2维向量。每张时装照片即转化成为了二维平面上的横纵坐标。按照此坐标将每张时装照片放置到二维平面上,具有相似视觉语义(即在时装设计上具有相似度)的时装照片将靠近,形成聚类(clusters)。如图4.3.12所示,依托此智能判别的方法,研究者即可以在视觉上对所有的时装照片观察,研究相关的聚类的特征。

图4.3.11 时装照片传播讯息的数字化降维编码[95](www.xing528.com)

李(Lee[96])等亦采用了类似的方法对在Polyvore这一服装在线搭配网站上采集的、超过30万套的流行服装搭配(包含53 460件上装、43 180件下装、31 199件外搭、77 981双鞋子、30 852件裙子共计23万件不重复的流行网点单品)照片的传播讯息进行基于非监督式机器学习的数字化降维编码,形成1024维的低维向量。再依托t-SNE技术继续将这些1024维的低维向量继续降维至二维平面坐标,进而进行可视化聚类智能判别。图4.3.13相应的时装设计被成功聚类,如左上角的正装风格、左下角的摇滚风格、右上角的居家风格、右下角的休闲运动风格。

图4.3.12 时装照片传播讯息的可视化聚类智能判别示例一[97]

贾科梅蒂(Giacometti)和科伊(Coy[98])采用相同模式,对2017年春季伦敦时装周(London Fashion Week Spring 2017)的超过3 000张T台(runway)照片(来自67个设计师品牌)进行非监督式机器学习,建立深度生成模型,将每一张T台照片数字化降维编码形成低维向量,再运用t-SNE技术继续将其降维成为二维坐标,平铺到二维平面上。图4.3.14展示了此可视化聚类。图中的圆点表征着相应的T台照片,而图中的方框则点明了照片对应的设计师品牌。从图中可以发现,诸如左上角的范瑟丝(Versus),左下角的保拉·阿卡苏(Bora Aksu)、马克斯·阿尔梅达(Marques Almelda)、朱莉安·麦克唐纳(Julien McDonald)等设计师品牌离其他的设计师品牌都有一定的距离,意味着其设计风格的独特性。

图4.3.13 时装照片传播讯息的可视化聚类智能判别示例二[99]

贾科梅蒂(Giacometti)和科伊(Coy[100])同时展示了,除去上述将时装照片传播讯息数字化降维编码形成的低维向量再降维,进行二维平面上的可视化聚类之外的诸多智能判别可能性。例如,潮流监测(trending detection)和品牌识别(brand identity)。对于潮流监测而言,通过在建构的低维向量集合中找寻经常出现的低维向量的取值,即可发现在时装设计中时常重复出现的设计模式,即潮流。这一潮流监测的智能判别既可以针对单一设计师品牌内部的设计模式的演变进行,也可以针对多个设计师品牌之间设计模式的借鉴开展。对于品牌识别而言,通过在单一设计师品牌内部的低维向量集合中计算,以低维向量之间的差距的大小来表征品牌的设计模式的多样程度,即品牌的内聚度(cohesion)。经过研究者对伦敦时装周进行智能判别,发现西蒙娜·罗莎(Simone Rocha)、罗伯特·伍德(Roberts Wood)、雪伦·沃可布(Sharon Wauchob)等设计师品牌的内聚度非常高,设计模式变化不大。而艾德琳·李(Edeline Lee)、埃米利奥·德拉莫雷纳(Emilio de la Morena)等设计师品牌的内聚度则非常低,意味着其设计模式十分丰富多样。

图4.3.14 时装照片传播讯息的可视化聚类智能判别示例三[101]

如果说,基于非监督式机器学习,将图像传播讯息进行数字化降维编码形成低维数字向量,有助于进行智能判别研究,那么,将此低维数字向量无损升维解码还原形成相应的图像传播讯息,则可以形成多种智能生成模式,并运用于塑造应用实践当中。这些模式包含随机生成、加减生成、平均生成、融合生成等。从本质上说,将图像传播讯息进行数字化降维编码后,所有对向量进行的描述性分析方法都可以用来做判别研究。而低维向量作为图像传播讯息的数字化,更是令基于计算机的智能判别方法有了抓手。例如,对图像传播讯息既可以进行上述可视化聚类智能判别,也可以脱离降维可视化,运用非监督式机器学习,直接对其进行聚类研究。而将低维向量无损升维解码还原,形成相应的图像传播讯息,则建立了从数字向量到图像传播讯息的映射。通过对数字向量的修改,并将这种修改基于建立的映射转化为图像传播讯息,则可以创造全新的传播讯息,即形成视觉传播讯息的智能生成塑造。

所谓图像传播讯息的随机生成模式,即利用计算机智能随机生成低维向量,再基于非监督式机器学习建立由低维向量到图像传播讯息的映射,进行无损升维解码还原,形成全新的图像传播讯息。图4.3.15[102]展示了这一模式的应用。图中全部的T台照片(时装设计)皆是基于随机低维向量自动生成的,在原先的3 000张T台照片当中并不存在。但由于运用非监督式机器学习建立了从低维向量到T台照片的映射,新的随机向量可以生成全新的T台照片(时装设计)。基于人类智能的设计师,可以受到这些基于人工智能随机生成的时装设计的启发,以智能融合塑造全新的时装设计。

图4.3.15 图像传播讯息随机生成模式示例[103]

所谓图像传播讯息的加减生成模式,即将相应的多个低维向量进行加减运算,再基于非监督式机器学习建立由低维向量到图像传播讯息的映射,进行无损升维解码还原,形成图像传播讯息特征的加和与删减。图4.3.16[104]展示了这一模式的应用。从第一行看,具有花纹的裤子所对应的低维向量,减去无花纹裤子对应的低维向量,即得到了表征花纹的低维向量。再将它与表征裙子的低维向量相加,便得到了表征带花纹的裙子的低维向量。最后,基于从低维向量到图像传播讯息的映射,即通过无损升维解码还原,得到了带花纹的裙子形象。从第二行看,具有摇滚风格的上衣所对应的低维向量,减去无摇滚风格的上衣所对应的低维向量,即得到了表征摇滚风格的低维向量,再将它与表征裤子的低维向量相加,便得到了表征摇滚风格的裤子的低维向量。最后,基于从低维向量到图像传播讯息的映射,即通过无损升维解码还原,得到了具备摇滚风格的裤子形象。从第三行看,具备摇滚风格的夹克所对应的低维向量,减去无摇滚风格的夹克所对应的低维向量,同样得到了表征摇滚风格的低维向量,再将它与表征一般靴子的低维向量相加,便得到了表征摇滚风格的靴子的低维向量。最后,基于从低维向量到图像传播讯息的映射,即通过无损升维解码还原,得到了具备摇滚风格的靴子形象。

图4.3.16 图像传播讯息加减生成模式示例[105]

所谓图像传播讯息的平均生成模式,即将相应的多个原始图像传播讯息对应的低维向量进行求取平均低维向量的运算,再基于非监督式机器学习建立从低维向量到图像传播讯息的映射,进行无损升维解码还原,形成均衡带有多个原始图像传播讯息特征的全新图像传播讯息。图4.3.17[106]展示了这一模式的应用。当中的每一张图片都是将每个设计师品牌的全部T台照片所对应的低维向量求平均后(即获得平均低维向量),再无损升维解码还原形成的、带有该设计师品牌的平均风格的T台照片。换而言之,每个设计师品牌的全部设计风格浓缩在了单一T台照片当中。基于人类智能的设计师,可以受到这些基于人工智能随机生成的时装设计的启发,以智能融合塑造出能够表征该设计品牌平均风格的时装设计。

图4.3.17 图像传播讯息平均生成模式示例[107]

所谓图像传播讯息的融合生成模式,即求取两个原始图像传播讯息对应的低维向量的中间值向量,再基于非监督式机器学习建立从低维向量到图像传播讯息的映射,进行无损升维解码还原,形成融合两个原始图像传播讯息特征的全新图像传播讯息。图4.3.18[108]展示了这一模式的应用。图中的左图和右图即是原始的图像传播讯息,而中间图即是两者设计风格的融合,是通过将表征左图的低维向量和表征右图的低维向量相融合(求取中间值向量),再进行无损升维解码还原得到的。基于人类智能的设计师,可以受到这些基于人工智能随机生成的时装设计的启发,以智能融合塑造出融汇两种设计风格的全新时装设计。

图4.3.18 图像传播讯息融合生成模式示例[109]

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈