首页 理论教育 智能生成塑造听觉传播:新塑传导论

智能生成塑造听觉传播:新塑传导论

时间:2023-11-18 理论教育 版权反馈
【摘要】:Song From PI项目的核心在于充分识别解构和重构运用过往取得良好传播效果的流行音乐传播讯息的作曲编曲模式,其智能生成的流行音乐传播讯息既有过往流行音乐传播讯息的优秀基因,又有重构带来的全新滋味。早在计算机产生之前,音乐传播讯息的智能生成塑造就尝试着将自动化智能融入。原始的音乐传播讯息智能生成系统被用来塑造华尔兹音乐。

智能生成塑造听觉传播:新塑传导论

音乐传播讯息的智能生成塑造毫无疑问是较为风生水起的领域。多伦多大学的楚航(Hang Chu)、拉克尔·乌尔塔森(Raquel Urtasun)和桑贾·菲德勒(Sanja Fidler)团队[73]基于多层的循环神经网络(Recurrent Neural Networks,RNN)计算机仿生隐喻进行了流行音乐传播讯息的智能生成塑造(即,Song From PI项目)。通过对过往的流行音乐传播讯息进行机器学习,将其内容的模式编码进多层的神经网络中。再基于此神经网络智能生成新的流行音乐传播讯息。神经网络的底层负责智能生成旋律,而高层负责生成鼓点和和弦进行(chord progression)。图4.3.1展示了其智能生成的流行音乐乐谱。最上面一行为歌曲的旋律,中间一行为歌曲的和弦进行,最下面一行为歌曲的鼓点。Song From PI项目的核心在于充分识别解构和重构运用过往取得良好传播效果的流行音乐传播讯息的作曲编曲模式,其智能生成的流行音乐传播讯息既有过往流行音乐传播讯息的优秀基因,又有重构带来的全新滋味。这一过程恰和基于人类智能的传统音乐创作人的创作流程相类似:音乐创作人的创作模式往往受前辈音乐人的影响,而基于对过往作品的学习,他能融汇贯通地创作出全新的自我作品。Song From PI项目智能生成的流行音乐传播讯息的传播效果在传播受众实验当中获得了证实。

图4.3.1 Song From PI智能生成的流行音乐乐谱[74]

从本质上说,音乐传播讯息的智能生成塑造是一种将人类智能(包括作曲人、编曲人的智能)和自动化智能(包括计算机智能、人工智能)进行智能融合后进行的塑造。早在计算机产生之前,音乐传播讯息的智能生成塑造就尝试着将自动化智能融入。这当中较为经典的例子便是著名的莫扎特音乐骰子游戏(德文为Musikalisches Würfelspiel,意为音乐骰子游戏)。莫扎特音乐骰子游戏基于骰子的点数,将预先创作好的音乐片段进行随机排列组合,以自动化生成音乐传播讯息。音乐片段的创作(如图4.3.2所示)以及整个随机系统的音乐生成规则的设置(如表4.3.1所示)都由人类智能(即莫扎特)进行创意塑造,音乐片段的随机排列组合则由自动化智能(即掷骰子的点数)进行随机塑造。这一音乐骰子游戏及其生成的作品在18世纪的欧洲风行,20世纪的作曲家罗伯特·沙维尔·罗德里格兹(Robert Xavier Rodriguez)(1946年出生)更是基于此创作了经典的弦乐协奏曲,这也在一个侧面彰显了智能融合生成塑造的音乐传播讯息取得了良好的传播效果。

图4.3.2 莫扎特音乐骰子游戏预先创作的176个音乐片段

表4.3.1 经典莫扎特音乐骰子游戏的音乐随机生成规则

莫扎特音乐骰子游戏于柏林的莫扎特出版社尼古拉斯·西姆洛克(Nikolaus Simrock)于1792年出版。原始的音乐传播讯息智能生成系统被用来塑造华尔兹音乐。音乐传播讯息由16个片段(小节)组成,每个片段都有11个预先创作的音乐片段的选项,每个片段的选项确定由掷两个骰子的点数之和来确定。而掷两个骰子的点数之和的范围为2至12,恰恰是11个可能选项。以第1小节的音乐生成为例,若两个骰子的点数分别为1和2,则两个骰子的点数之和为3。在表4.3.1中即找到第1列(即小节数为1)、第3行(即两个骰子的点数之和为3)的单元格的内容数字(即32)。随后,在图4.3.2中找到第32小节这一预先创作的音乐片段,即可将其作为新的音乐作品传播讯息的第1小节的内容。将两个骰子连续掷15下,按照同样的方法,可以继续确定新的音乐作品传播讯息剩余15小节的内容,最终组合成为一首新的华尔兹乐曲。

经典的莫扎特音乐骰子游戏在理论上能够智能生成11的16次方(即,45949729863572161)个不同的音乐传播讯息作品。若要追求音乐作品每一个组成部分的独特性,则意味着每一小节的每一个选项都不同。即,需要预先创作16小节乘以11个选项共计176个小节的音乐片段。这也正是图4.3.2所示的176个小节。但若音乐作品当中需要追求一定的重复,以增强传播受众对此作品的辨识度的记忆度,那么便不需要创作全部的176个小节。莫扎特音乐骰子游戏的原始版本基于1787年莫扎特的K.516f手稿,而后在1993年施瓦纳(Schwanauer)和莱维特(Levitt[75])于麻省理工学院出版社出版的《音乐的机器模型》一书中进行了详尽讨论。

两年后,维也纳大学的约翰·庄(John Chuang)更是利用动态网站技术,依托加州大学伯克利分校(UC Berkley)的新音乐及声音科技研究中心(Center for New Music and Audio Technologies)的计算资源,将莫扎特音乐骰子游戏进行了在线化(http://sunsite.univie.ac.at/Mozart/dice/)。用户可以直接运用该动态网站生成相应的华尔兹乐曲,并下载该曲目的MIDI文档和乐谱。在约翰·庄的建构中,除去上述用于生成小步舞曲(Minuet)华尔兹的经典莫扎特音乐骰子游戏之外,还新增了用于生成三声中部(Trio)华尔兹的新组成部件。其中包含了96小节预先创作好的三声中部音乐片段。在新建构中,一枚骰子被用来确定16小节小步舞曲华尔兹之后的16小节三声中部华尔兹的内容(即乐曲传播讯息的17至32小节内容)。以17小节为例,若掷该枚骰子的点数为6,则找到表4.3.2当中第17列(即第17小节)、第6行(即掷骰子点数为6)的单元格内容的数字18,再在96小节预先创作好的三声中部音乐片段中找到18对应的小节片段,将其作为乐曲传播讯息的第17小节的内容。再将该枚骰子连续掷15次,则可以依次确定剩余的第18小节至第32小节的内容。约翰·庄的建构在经典莫扎特音乐骰子游戏上增加了更多的可能性,从原先11的16次方个不同的音乐传播讯息作品直接上升到11的16次方乘以6的16次方(即1.3乘以10的29次方)的可能性,彻底打破了纯粹基于人类智能的音乐创作者(作曲人和编曲人)的创作瓶颈(writer's block)。

表4.3.2 当代莫扎特音乐骰子游戏的音乐随机生成规则

上述莫扎特音乐骰子游戏可以说是一个极为简单的基于人类智能和自动化智能的智能融合生成塑造音乐传播讯息作品的实例。而随着计算机的诞生,该领域亦发生了翻天覆地的变化。20世纪50年代,计算机音乐(computer music)正式诞生。其与由乡农倡议召开的、创立人工智能研究领域的达特茅斯工作坊几乎同时出现。可以说,从一开始计算机音乐与人工智能就相互交织。而其智能生成的相应音乐传播讯息作品亦形成了多种流派,如布莱恩·伊诺(Brian Eno)于1996年建构的生成音乐(generative music)[76]、巴特兰(Buttram)于2003年建构的非线性音乐(non-linear music)[77]和法内尔(Farnell)于2007年建构的过程音乐(procedural music)[78]等。但无论其如何发展,基于人类智能与计算机智能(继往经典的自动化智能,后来以非监督式机器学习为代表的人工智能)的智能融合是其核心塑造理念。诚然,对于音乐作品传播讯息而言,纯粹基于人类智能是经典的方法模式。而纯粹基于计算机智能,不依赖任何人类的创意输入也能生成相应的音乐作品传播讯息。例如,基于元胞自动机(cellular automata)的计算机仿生隐喻可以建构相应的分形(fractal)自相似(self-similarity)音乐。但唯有智能融合才能真正共同发挥人类智能和计算机智能的各自优势,融汇形成合力,塑造出全新的、受传播受众欢迎的、达成相应传播效果目标需求的音乐作品传播讯息。

在计算机音乐、人工智能发展的萌芽时期(1956年),来自伊利诺伊大学香槟分校(University of Illinois Urbana-Champaign,UIUC)的希勒(Hiller)和萨克森(Isaacson[79])就开始将人类智能进行符号化建立规则系统,并运用马尔科夫链的计算机智能,智能融合地生成音乐作品传播讯息——《伊利亚克组曲》(Illiac Suite)弦乐四重奏。而伊利亚克(Illiac)恰是当时香槟分校超级计算机Illinois Automatic Computer的简称。《伊利亚克组曲》的智能融合创作采用了如下的核心流程:首先由计算机按照设定好的生成规则,生成备选的音符,再让计算机按照设定好的判别规则,判别该音符是否应该被加入组曲当中。这里的生成规则基于马尔科夫链模型,生成的是受到有限控制的随机音符。而这里的判别规则则是按照作曲的经典和声复调规则建立。可以说,生成规则和判别规则的建构都是基于人类智能。《伊利亚克组曲》的成功在应用实践层面首次证实了音乐传播讯息智能生成塑造的可行性。也正是《伊利亚克组曲》的星星之火,点亮了后来计算机音乐高速发展的黄金时代。1974年,第一届国际计算机音乐大会(International Computer Music Conference,ICMC)召开。作为计算机音乐塑造传播领域内最大、影响力最为深远的大会,国际计算机音乐大会至今已连续举办了43届。

在实践应用层面进行音乐作品传播讯息的智能生成塑造,从具有可行性到具备强大竞争力却花费了近25年的时间。这与当时基于人工神经网络计算机仿生隐喻的机器学习科技还未成熟,以及时值“人工智能寒冬”,有着一定的关系。在1981年,著名作曲家兼计算机科学家、加州大学圣塔克鲁兹分校荣休教授戴维·科普(David Cope)创造出音乐智能实验(Experiments in Musical Intelligence,EMI)系统[80]。该系统随后展示于1987年的国际计算机音乐大会。Cope创造该系统的初衷只是为了破解其作曲家瓶颈(composer's block),即在其创作思路枯竭之时提供新的音乐创作动机。Cope希望EMI能够依托计算机智能识别其过往和当下正在创作的音乐作品传播讯息的风格和创作模式,并提供源源不断的新音符、新小节。却不想,该系统直接通过了音乐作品传播讯息智能生成塑造的图灵测试,能够充分模仿其学习的音乐材料的风格和创作模式,智能生成难以为传播受众分辨的全新音乐作品传播讯息,仿佛是被学习的音乐创作人自己基于人类智能塑造出来的一样。

EMI的基本原理,是通过分析某一音乐塑传者的过往作品,然后建构一个增强过渡网络(Augmented Transition Network,ATN)。该网络是一种有限状态自动机(finite state automaton),能够解析复杂语言,而音乐正是一种人类共同的语言。EMI随后运用模式匹配算法将过往作品当中的音乐片段进行抽取,随后基于ATN重新合成全新的音乐作品传播讯息。

EMI(音Emmy,艾米)的功能效用在应用实践中得到了充分检验:1997年,以专著《哥德尔、艾舍尔、巴赫》(Godel,Escher,Bach)获得普利策奖的印第安纳大学伯明顿分校(Indiana University in Bloomington)认知科学比较文学教授道格拉斯·霍夫施塔特(Douglas Hofstadter)[81],在他长大的斯坦福大学校园中举办了一场人工智能作曲研讨会。霍夫施塔特专门邀请来自俄勒冈大学的钢琴家威妮弗雷德·克纳(Winifred Kerner)演奏了三首钢琴曲。一首是巴赫(Johann Sebastian Bach)的经典作品,一首是EMI模仿巴赫的创作风格和模式塑造的音乐作品,一首是威妮弗雷德的丈夫、俄勒冈大学的音乐理论学家史蒂夫·拉森(Steve Larson)塑造的音乐作品。结果,现场听众将史蒂夫·拉森基于人类智能塑造的音乐作品传播讯息当作计算机塑造的作品,而将EMI基于计算机智能塑造的作品当作巴赫本人的作品。这次研讨会的演出,在本质上即进行了EMI的图灵测试,传播受众已经无法分辨其塑造出来的音乐作品是否真正来自巴赫这一塑传者。

事实上,从计算机音乐的当前进展来看,计算机智能(特别是以非监督式机器学习为代表的人工智能)已经完全能够胜任模仿某一位或同时模仿某几位音乐创作者的风格和创作模式进行工作,并可以作为辅助与人类智能相融合,形成全新的创作风格,投入对音乐作品传播讯息塑造的应用实践之中:2017年巴黎索尼实验室Flow Machine发行了两支歌曲《Daddy's Car》和《The Ballad of Mr.Shadow》。前者是模仿披头士乐队(The Beatles)的风格,而后者则是将两位著名爵士音乐人Duke Ellington和George Gershwin的创作模式进行了融合,产生了全新的音乐作品传播讯息。

Flow Machine的科研团队负责人、音乐流媒体传播媒介Spotify人工智能研究部分负责人弗朗索瓦·帕切特(Francois Pachet)对Flow Machine进行了解析:Flow Machine先基于人工智能,模仿前人音乐风格生成相应的音乐片段,再基于人类智能(音乐创作人)对其进行判别,若音乐创作人对生成的结果不满意,则以其判别作为反馈,让系统进行迭代生成新的音乐,如此不断循环进化,Flow Machine得以基于人类智能与人工智能的智能融合塑造受到传播受众(音乐创作人)欢迎的音乐作品传播讯息。Flow Machine所采用的塑造模式毫无疑问是本书在先前点明的生成判别反馈迭代(GDFI)循环进化模式。而在应用实践当中,其发行的两支歌曲都由音乐人波瓦讷·卡雷(Benoit Carre)提供基于人类智能的判别和反馈。

对于普通传播受众(非音乐创作人)而言,则可以根据个人的音乐喜好,在Flow Machine超过1.3万首的经典歌曲库当中进行选择。系统将把受众所选的歌曲作为学习的目标对象,对其中的旋律、节奏、和弦的模式进行模式识别和机器学习,再将基于学习到的创作模式,智能生成全新的音乐作品传播讯息。这些作品源自受众根据自己的品味挑选的过往歌曲“原材料”,具有天然的适应传播受众、达成目标传播效果需求的“基因”。

纵观计算机音乐的发展,特别是对音乐作品传播讯息的智能生成塑造,主要分为四大流派。

一是将人类智能,特别是音乐创作的经典模式进行符号化,形成各种形式系统(formal systems),自动化生成音乐作品传播讯息,可被称作符号化流派。

二是基于机器学习,特别是非监督式机器学习,对过往的音乐作品进行模式识别,以期习得当中包含灵感在内的音乐创作模式,再运用习得的创作模式智能生成全新的音乐作品传播讯息,可被称作机器学习流派。

三是基于极值优化,以生成、判别、反馈、迭代的GDFI循环进化模式不断对音乐作品传播讯息进行重构升级,使其越来越适应目标传播受众的需求,可被称作极值优化流派。(www.xing528.com)

四是基于具有自生成能力的数学模型,纯粹以计算机智能的自我运行,生成音乐作品传播讯息,可被称作自生成流派。

从传播效果的角度对上述四大流派进行解析可以发现,第一大流派(符号化流派)和第二大流派(机器学习流派)皆基于对音乐塑传者过往的人类智能经验的参考,认为根据塑传者过往的成功经验塑造出的音乐作品传播讯息,也能够在未来获得传播受众的喜爱;第三大流派(极值优化流派)则从传播受众的需求出发,追求音乐作品传播讯息朝着适应传播受众的方向不断进化,坚持的是从传播应用实践的目标需求“倒逼”传播讯息生成的理念;第四大流派(自生成流派)则坚信具有自生成能力的数学模型因具有宇宙中普遍存在的通行的数学美(如分形的自相似特征),所以基于这一美的模式生成的音乐作品传播讯息,应该也能够为传播受众所喜爱。这四大流派的三大理念取向自然带来不同的音乐作品传播讯息的智能生成塑造解决方案。但传播的应用实践却往往不是纯粹坚持某一流派,而是进行流派之间的混搭(mashup),进而形成融汇各派优势的解决方案。例如,上述Flow Machine就是综合了机器学习流派和极值优化流派的理念和方法论进行音乐作品传播讯息的智能生成塑造。

而除去第四大流派(自生成流派)之外,其他三大计算机音乐流派都需要人类智能与人工智能的智能融合,这在音乐作品传播讯息智能生成塑造的应用实践中非常明显。2008年正在微软研究院(位于微软华盛顿州雷德蒙总部)实习的华盛顿大学计算机系博士研究生伊恩·西蒙(Ian Simon)与时任微软研究院首席研究员(Principal Researcher)的丹·莫里斯(Dan Morris)和萨米勒·巴苏(Sumit Basu[82])一并发布了MySong智能和弦编配平台。而建构MySong的Ian Simon更是历经了近年计算机音乐业界的发展变迁。从华盛顿大学毕业攻读计算机博士及毕业之后,西蒙遍历了微软的MySong项目,斯坦福大学音乐及声学计算机研究中心(Center for Computer Research in Music and Acoustics)王戈(Ge Wang)终身教授的Smule公司的创业,以及基于深度机器学习的谷歌公司的Magenta新媒体艺术塑造项目。

MySong后来被微软公司开发形成Songsmith软件。该平台依托人类智能,接收用户哼唱的旋律,然后基于对过往广泛受到传播受众欢迎的、经典歌曲的和弦,编配过往经验的机器学习(人工智能),为哼唱的旋律自动编配合适的和弦进行。在形成最终的歌曲传播讯息时,用户的人类智能还被用来调节歌曲的情绪(由图4.3.3中左下角的Happy滑块控制)以及多变度(由图4.3.3中左下角的Jazzy滑块控制)。Happy滑块越向右,歌曲的情绪越欢快,反之越悲伤。Jazzy滑块越向右,歌曲的和弦编配越具有爵士音乐创作体系的高自由度,反之越刻板。取得巨大成功的Songsmith智能和弦编配平台基于的是计算机音乐第二大流派——机器学习流派的理念,更毫无疑问地在音乐作品传播讯息的智能生成塑造中进行了人类智能与人工智能的智能融合,获得了融汇两者优势的塑造合力。

图4.3.3  Songsmith智能和弦编配平台

上述四大流派原本的发展速度原先较为平均。但随着基于人工神经网络计算机仿生隐喻的深度学习的迅猛发展,特别是深度生成模型这一非监督式机器学习所能达成的令人惊叹的效果,导致了机器学习流派的大爆发。从本质上说,深度生成模型基于非监督式机器学习,对过往的音乐作品传播讯息进行无损还原的降维数字化编码。即,经过降维获得的数字编码在经过升维之后又能无损还原成为原先的音乐作品。编码和解码的建构一旦完备,解析其内在含义和围绕其建构各式音乐作品传播讯息智能生成塑造解决方案皆变得畅通。道格拉斯·艾克(Douglas Eck)是这一流派的重要推手之一。其与施米德胡伯(Schmidhuber)于2002年[83]创造性地在循环神经网络(Recurrent Neural Network,RNN)这一计算机仿生隐喻当中加入长短期记忆模块(Long Short Term Memory,LSTM),使其一举获得了进行蓝调即兴(improvisation)创作的能力。2011年,已经获得终身教授(tenured)的艾克被谷歌公司挖走,离开了蒙特利尔大学(University of Montreal),随后即在谷歌大脑开创了Magenta新媒体艺术研究团队。

Magenta是谷歌大脑(Google Brain)中研究基于机器学习创作音乐和艺术的项目,其主旨就是运用深度机器学习的算法智能生成歌曲、图像、绘画等各种艺术作品传播讯息。此外,该项目同时也为艺术家和音乐家建构智能工具和接口,以使他们利用项目团队提供的各种深度生成模型进行智能融合创作。其深度生成模型的实现平台是谷歌的TensorFlow深度机器学习平台。其全部模型和工具的代码都在GitHub上开源。

Magenta团队成员安娜·黄(Cheng-Zhi Anna Huang)博士师从哈佛大学智能交互系统研究组(Intelligent Interactive Systems Group)的日什托夫·加若斯(Krzysztof Gajos)教授,在加入Magenta团队之前,其和弦涟漪(ChordRipple)项目[84]智能生成的和弦进行亦被传播受众所喜欢。ChordRipple允许音乐塑传者输入由一个或多个和弦组成的和弦进行(chord progression),随后为其提供替换当前和弦进行中的和弦,以及在当前和弦进行之后添加新的和弦的各种选项。其选项的生成正是基于word2vec对滚石杂志评选的500首主打(Rolling Stone Top 500 Hits)[85]当中的200首摇滚歌曲的和弦编配进行非监督式机器学习,进而建构深度生成模型。在加入Magenta之后,Huang基于这一新媒体艺术深度学习平台,建构了自动生成对位复调音乐作品传播讯息的解决方案[86]。如图4.3.4,第一步用户可以先输入由CMaj7和Emin7两个和弦组成的和弦进行;第二步ChordRipple平台对该和弦进行提供诸多修改的可能性,如在原和弦进行之后可以增加Dmin7、Dmin、D7、Eb/Bb、Gmin等和弦,又如将原先和弦进行的第一个和弦CMaj7替换成为Dmin9或F#dim和弦等;图中的第三步,用户选择了在原先和弦进行之后增加Dmin7和弦,形成CMaj7→Emin7→Dmin7的新和弦进行;而在图中第四步,用户选择了将新的和弦进行中的Emin7和弦替换为Bmin7和弦,再次更新了和弦进行。ChordRipple采用的亦是计算机音乐的机器学习流派,对过往成功经验(即,滚石杂志评选的主打歌曲中的经典和弦进行)的非监督式机器学习,进而指引新的音乐作品传播讯息(即,新的和弦进行)的智能生成塑造。

图4.3.4  ChordRipple和弦推荐系统[87]

Magenta团队成员西蒙在加入后,亦建构出Performance RNN项目(见图4.3.5),其基于TensorFlow平台,对Yamaha e-Piano Competition数据集(包含1 400名左右的钢琴家的演奏的MIDI记录)进行非监督式机器学习,建构深度生成模型,传播受众可以直接访问该网站享受其自动化实时智能生成的全新钢琴演奏音乐。同时,传播受众还可以对该系统进行相关的参数调节,如调节音乐作品传播讯息的调式(即,图4.3.5中的C Major,F Major,D Minor等调式按钮),以及调式其中的构成音在音乐作品传播讯息中所占比例等。可以说,Performance RNN项目同样基于计算机音乐的机器学习流派的理念,对过往成功经验(即,1 400名左右钢琴家的演奏)进行非监督式机器学习,再指引新的音乐作品传播讯息(即,新的自动化钢琴演奏)的智能生成塑造。

图4.3.5 Perf ormance RNN钢琴自动智能生成演奏系统

在音乐作品传播讯息的塑造当中,呼唤回答(callresponse)是十分经典的创作模式。一方(如一种乐器)先演奏(或演唱)一小段音乐,作为呼唤(call)的音乐动机(music motive);另一方紧接着演奏(或演唱)另一小段相同时长的音乐,作为对先前对方提出的音乐动机的呼唤的回答(response)。这一段回答的音乐既要有与先前呼唤的音乐相似,又要有自己的创新。随后,原先的一方继续演奏新的一小段音乐,作为新的呼唤的音乐动机;而另一方则紧接着演奏新的一小段相同时长的音乐作为新的回答。如此循环往复,双方共同推进音乐作品传播讯息的演化发展。Magenta的人工智能双重奏(A.I.Duet)恰恰是尝试建立人类智能音乐塑传者与人工智能音乐塑传者之间的呼唤

回答模式。在系统中,用户基于人类智能可以演奏一小段音乐(如图4.3.6的上半部分的音符)。随后,A.I.Duet人工智能系统迅速对人类演奏的这一小段音乐进行非监督式机器学习,进而实时生成并自动演奏一小段与先前用户演奏的音乐片段相类似但又有不同的音乐片段(如图4.3.6的下半部分的音符)。用户仍然可以继续进行演奏呼唤,而A.I.Duet人工智能系统将继续进行演奏回应。这样即形成了人类智能与人工智能循环往复的呼唤回答的音乐作品传播讯息。可以说,A.I.Duet也是基于计算机音乐的机器学习流派的理念,对过往经验(即,人类智能用户的演奏呼唤)进行非监督式机器学习,再指引新的音乐作品传播讯息(即,人工智能的演奏回应)的智能生成塑造。

图4.3.6 A.I.Duet的人类智能与人工智能的音乐呼唤—回答模式

Magenta对音乐作品传播讯息的智能生成塑造并不仅仅集中在音乐的创作(即作曲、编曲)环节,对音乐的演奏、演唱环节亦十分重视,NSynth音色融合系统就是其中的代表。NSynth是神经网络合成器(Neural Synthesizer)的简称,其基于研发出阿尔法围棋的深度心智(DeepMind)团队的WaveNet深度生成模型,对超过30万种乐器的音色进行了非监督式机器学习。随后,使用者可以将任意两种乐器的音色按照一定比例进行融合,智能生成出全新的、可用于演奏的音色。如图4.3.7所示,当前用户选择了笛子(flute)和电吉他(electric guitar)两种乐器的音色。两个音色选择框下方的滑块可以确定两种乐器音色各自所占的比例。在图4.3.7中,电吉他的音色占了更大的比例。随后,用户即可以直接运用该系统智能生成的新音色进行演奏。NSynth生成的音色不仅受到音乐塑传者的欢迎,更受到了音乐传播受众的喜爱。因此,Magenta团队对这一音色融合系统进行了硬件化。NSynth Super硬件合成器能够生成超过10万种全新的音色。如图4.3.8所示,与NSynth软件只能进行两种乐器音色之间的融合不同,NSynth Super硬件可以进行四种乐器音色的融合,分别由四个角的旋钮来选择。而用户可以在触摸屏中选择四种音色的相对比例。可以说,NSynth虽然不是针对音乐创作环节,但其建构与ChordRipple、Performance RNN、A.I.Duet一样皆属于计算机音乐的机器学习流派,通过对过往成功经验(超过30万种乐器的音色)的非监督式机器学习,指引新的音乐作品传播讯息(即,新的融合音色)的智能生成塑造。

图4.3.7 NSynth音色融合系统建构

图4.3.8 NSynth Super音色融合系统的硬件化

作为Megenta的负责人,艾克在接受著名天使投资公司Y Combinator采访时,亦对其团队坚持运用机器学习流派的理念,进行音乐作品传播讯息的智能生成塑造进行了反思。艾克认为,运用非监督式机器学习的深度生成模型并非是为了完全的模仿过往经典的音乐作品传播讯息,而是要抓住并运用过往作品的精髓,进行新的音乐作品传播讯息的智能生成塑造。以LSTM(RNN)为代表,一些深度生成模型恰恰因为其记忆功能的有限使得其不能够亦步亦趋地模仿过往音乐作品,而是必须要抓住其精髓。换而言之,基于非监督式机器学习建立的短记忆深度生成模型,描述的是过往音乐作品的关键和平均特征。如同哲学中柏拉图式的猫(Platonic cat)一般,非监督式机器学习并不是抓住了某一只猫的具体形态(即,某一个旋律或某一个和弦),而是描绘了大多数猫共有的关键形象特点(即,过往音乐作品的创作模式)。艾克同时将自己所坚持的机器学习流派与符号化流派和极值优化流派进行了对比,他并不认同符号化流派当中基于人类智能人为地设定音乐创作的规则,认为真正的创作模式就存在于过往的作品当中,只要运用计算机智能去学习即可。这一观点颇有道家道法自然”的滋味。而艾克同时亦认为,极值优化流派可以与机器学习流派形成互补。

如果说谷歌公司的Magenta对音乐作品传播讯息的智能生成塑造还带有着一些研究色彩的话,以Jukedeck、AIVA、Amper为代表的音乐智能生成塑造初创公司所取得的巨大成功却从应用实践的角度证实了机器学习流派(特别是基于非监督式机器学习的深度生成模型)的巨大价值。Jukedeck是基于伦敦的初创企业,为传统视觉传播讯息塑造者、传统听觉传播讯息塑造者和新媒体艺术传播讯息塑造者分别提供音乐智能生成塑造服务。Jukedeck为传统视觉传播讯息塑造者服务,视频塑传使用者只需指明所需配乐的长度、节奏、高潮点,Jukedeck即可以为之提供包括经典钢琴、日本流行、电影和未来贝斯等不同风格的且拥有版权的音乐。Jukedeck为传统听觉传播讯息塑造者(即音乐作曲人、编曲人、制作人)提供了相应的基于音频和基于MIDI的音乐智能生成工具。Jukedeck为新媒体艺术传播讯息塑造者提供的则是一套应用编程接口(Application Program Interface,API),令其具有自动大规模生成具有专业水平的定制音乐的能力。2018年,Jukedeck与韩国音乐公司Enterarts合作,将其人工智能与韩流音乐作曲人、编曲人、制作人的人类智能合作,以智能融合生成音乐作品传播讯息。这些单曲由韩流团体(包括SPICA、Produce 101、Highteen)在2月27日的首尔蓝色广场音乐厅(Blue Square Concert Hall)演出。通过iTunes音乐商店以及韩国的诸多音乐流媒体服务提供商(MelOn、Naver Music、MNET、Genie、Bugs、Soribada等)的传播,这些音乐作品传播讯息获得了极好的反响。收到传播受众正向反馈的Jukedeck公司更是决定持续此人工智能与人类智能的智能融合生成塑造音乐作品传播讯息的模式,继续推出三张韩流迷你专辑。2016年AIVA(Artificial Intelligence Virtual Artist)公司在伦敦和卢森堡两地同时成立,基于非监督式机器学习智能生成古典音乐作品,为影视、广告、游戏的配乐塑造提供服务。其智能生成塑造了《创世纪》(Genesis)专辑,共计24首古典音乐作品,成为全球第一个具有著作版权的人工智能作曲家。基于纽约的Amper音乐公司在2017年与歌手Taryn Southern合作发布了《我是人工智能》(I AM Al)专辑,其主打歌曲《Break Free》成为有史以来第一支正式发行的基于人工智能创作的歌曲。其旋律与歌词由Southern完成,而编曲(包括和弦编排、配器等)和制作由Amper音乐完成。其MV由谷歌的深度睡眠(Deep Dream)平台智能生成。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈