硬件耳朵：探索人工内耳技术的成功之路

更新时间：2025-01-11 工作计划版权反馈

【摘要】：如图1.5.5所示，人的耳朵分为外耳、中耳和内耳三部分。声音造成的空气振动，由耳廓收集，经过外耳道，使鼓膜振动。图1.5.5 耳朵的构造2）中耳的构造和机能。长期的追踪观察表明，接受人工内耳治疗的人群中，停用的少，升学并受到大学教育的人多。而“声音感觉故障”则是内耳及更高层次的神经系统等出现了异常，不论声音振动增幅如何加大，听觉也没有改善。人工内耳成功的原因人工内耳是20世纪医疗领域的一个奇迹。

（1）耳朵的构造和机能

1）外耳的构造和机能。如图1.5.5所示，人的耳朵分为外耳、中耳和内耳三部分。

声音造成的空气振动，由耳廓收集，经过外耳道，使鼓膜振动。外耳道的直径为7mm，长为25mm，呈圆管状，内部末端形成鼓膜，因此，外耳道可以看成是“共鸣管”，其共鸣的振动频率在3kHz左右。共鸣的结果，与最初耳廓收集的声音大小相比，传到鼓膜的振动增幅达12dB，外耳的这个特性，使人对频率为3kHz左右的声音特别敏感，实际上人的语言频率正是集中在3kHz左右，人的语言在这个敏感的频道里交流，是外耳发达的结果，还是人的语言发达的结果？这是一个“先有鸡还是先有鸡蛋”的问题，在生物学上常会遇到。

图1.5.5 耳朵的构造

2）中耳的构造和机能。中耳有三个耳小骨，即锤骨、钻骨和马镫骨。鼓膜的振动传到内耳的椭圆窗口，此时声音的频率已大大增加：鼓膜和马镫骨底部的面积之比约为17，三个耳小骨使声音振动频率增大1.3倍左右，相乘效果增大达22倍之多。如果没有这个声音振动频率增幅器，那么它就不可能从低阻抗的空气把振动传递到高阻抗的蜗牛内液，就是说，中耳是“阻抗变换器”。

那为什么会形成中耳这样复杂的构造呢？实际上，鱼类只有内耳。从进化论的角度来看，我们的祖先是在海洋生存阶段里形成了有毛细胞和内耳之后才登上陆地的。在水中，即使没有中耳，蜗牛管基底膜也可以实现充分的振动。就是说，进化的程序里，没有形成新的传感器机构，而是利用已经存在的内耳。

3）生物是继承蜕变设计。这里想强调指出，为了实现新的机能，几乎没有从无到有的新器官，而都是考虑如何利用已有的器官，逐渐地更新和改良，因此，生物的构造进化基本上是连续改良的更新换代设计，是一种逐渐蜕变的设计。在生物进化的过程中，改良进化的系统一旦失败，那么这种生物系统就会灭亡，活下来的是没有改良的生物，又开始试行新的改良进化，终归有一天会出现成功的改良，达到最合适的优化结果。这就是适者生存。

（2）人工内耳

1）人造内耳机能研究开发的历史。人造内耳的研究开发是从1960年左右开始的，最初的人工内耳并不太好，直到20世纪90年代，由于刺激方法的奏效，人工内耳的性能才得到飞跃式的提高。1995年美国国立卫生研究所（NIH）在报告书中总结，装用人工内耳的大多数人认为，只要重视文法，而不依赖发音口型判断，就可以有效地听懂文章，承认了人工内耳的显著有效性。至今，已经有20多万的听力障碍者适应了使用人工内耳。日本于1985年实施了首例人工内耳埋植手术，那时候购买人工内耳和做手术的费用非常贵，价格高达400万日元（约合20万人民币）。到了1994年，随着医疗保险制度的完善，人工内耳纳入社会保障，负担费用大大减少了。

人工内耳是最成功的神经设备，装有人工内耳的儿童，和普通的健康儿童一起上学受教育的范例并不少见。长期的追踪观察表明，接受人工内耳治疗的人群中，停用的少，升学并受到大学教育的人多。

2）听觉障碍的原因。和精密机械系统会产生故障一样，听觉系统也会出现两种主要的故障，一是“声音传导故障”，二是“声音感觉故障”。

例如，耳内分泌的耳垢积堵，鼓膜穿孔，体外异物进入，中耳炎化脓感染等，都可能导致鼓膜和耳小骨不能够正常传递声音，使听觉恶化，“声音传导故障”就出现了。而“声音感觉故障”则是内耳及更高层次的神经系统等出现了异常，不论声音振动增幅如何加大，听觉也没有改善。

如果是“声音传导故障”，则可用外科的治疗或使用助听器将声音扩大，向内耳传递充分的振动就可以恢复听觉了；甚至严重的患者还可在中耳处人工移植用压电石墨做成的元件，直接振动耳小骨以恢复听觉。如果是“声音感觉故障”就比较麻烦，例如不少老年人听觉迟钝，那是由蜗牛管基底部（高音部）的有毛细胞损伤或者减少造成的。

3）用电气刺激来恢复听觉。对于有毛细胞损伤或者减少的“声音感觉故障”患者，可采用人工内耳治疗，在蜗牛管插入电极阵列，直接用电流刺激听觉神经，根据蜗牛管的频率特性，从基底部的前端低音域到后部狭窄硬基底高音域，排布电气刺激电极。

图1.5.6所示为人工内耳，它由微型话筒、演讲处理器、经过皮层的收发报机和电极阵列组成。从微型话筒传来的声音，在演讲处理器上按频率进行分解，再施加刺激电流到特定的电极阵列上。目前，主要的电极阵列（澳大利亚Rich rare公司制造）有22个，插入蜗牛管中长约20mm的范围内。结实而柔软的电极使用0.1～1.5mA的脉冲电流，刺激的频率为每电极1000脉冲/s。用于电气刺激的能量和信息，通过线圈电磁波经过皮质传至电极部。

4）残存听力灵活使用的“混合型听觉”。残存听力适用型人工内耳于2010年得到了先进医疗技术的承认。

图1.5.6 人工内耳的构造

把蜗牛管前端有毛细胞残存的低音域听力和用电气刺激感受高音域听力结合，形成所谓“混合型听觉”，在原理上是可行的。虽然蜗牛管的螺旋体有2.5转，但前端中空区域狭窄，人工内耳的电极阵列只能插入蜗牛管的1.5转处，因此，人工内耳对于低音域声音的感知鞭长莫及，但对高音域听力的恢复却是有用的。这说明人的听觉能力实际上还是由人脑复杂的信息处理能力掌控的，残存的听力和人工电气刺激的恢复听觉，并不是只有简单的神经刺激就能奏效的。

（3）人工内耳成功的原因人工内耳是20世纪医疗领域的一个奇迹。如果说直接刺激听觉神经，那么产生听觉这件事情并不是不可思议的。但是，能够产生听觉和传达能够进行语言交流的听觉有很大的差别。健康人的听神经有30000支之多，而人工内耳只用22个电极就实现了语言交流，人工内耳的奇迹中，一定存在着重要的原因。

考察一下人工内耳以外的神经设备吧，听的知觉，即使用电气刺激脑干和大脑听觉区皮质也能够生成，但是这仅仅是听的知觉而已，并没有像人工内耳那样能够达到语言沟通的程度。例如，在用电气刺激听觉区大脑皮质层时，有时会听到熟人的声音和音乐的声音，光靠电气刺激并不能把正确的信息送达大脑，也不能把大脑的情报存储取出。过去就进行过用电气刺激来产生视觉的研究，对视网膜、视神经、视觉皮质的刺激，会产生光的感觉，把这种感觉称为“眼闪光”，和闭上眼睛后在眼皮上对眼球施压的感觉有些类似，当然，即使是这样的光的感觉，对于那些完全失去视觉的患者来说，毫无疑问也是有用的。但是，与人工内耳比较起来，却有天壤之别。

1）利用语言信息的冗长性。人工内耳所要求的机能在于实现语言沟通的需求，这是最优先的功能，而人工内耳恰恰满足了这个要求。

作为语言情报，本身具有极其冗长的特性，利用这个特性，就有可能从不完全的声音信息中解读出重要的信息线索出来。举一个易懂的例子：电话的声音信号频率不到3kHz，但是语言已够明白了。就是说，语言沟通并不需要3kHz以上的信号。反之，如果只把3kHz以上的信号取出来用，会是什么结果呢？事实上，尽管有些难度，但还是能听出一些内容来。就是说，即使是3kHz以上的信号，也还没有失去语言情报的功能。我们只需要确保一定带域幅度的语言能够被听到，就是说，语言的音域冗长。进一步，在频谱上降低分解能力去试行声音效果，只要抓住了关键的声音总还是能够听懂一些内容，正是由于语言具有这样的冗长特性，在人工内耳传达语言时，仅用22个电极就能够代替30000支听神经了。

人在说话的时候，靠的是喉头组织及嗓门的空气振动和构成声音的器官一起共振而发音，是由口和舌头的动作来调整的一种完全硬件控制的方式，受到这样的先天功能制约，人的语言构成的各种频率发音并不能完全独立变化，这样的分析也许是弄清语言发音的入门钥匙。

2）由错误的听觉而产生连续听觉的效果在于人脑的预测功能。人脑有预测的功能，思维的智力自动地把声音不完全的信号完善化和连续化。例如“P—”的单纯发音，从中间隔开，插入200ms左右的无音部分，当然，我们感到“P—”的单纯发音中途出现停止，但是，如果将停止的无音部分换成一个杂音符替换后，感觉到如图1.5.7a所示的间断音会变成图1.5.7b所示的连续音，也就是说，人脑把“P—”纯发音的间断部分自动地预测并补充，形成图1.5.7c所示的两个发音，一个是原来的连续的“P—”单纯发音，一个是后来加上的杂音符，这样听觉系统的效果等同于恢复了“P—”单纯连续发音的效果，利用这个原理，有助于语言听觉的恢复。例如，无线话筒的电磁波传递不好时，声音从中途断掉的可能性是有的，说些什么听不懂；但是，如果把空白的无音部分换成一个杂音符补充上去后，尽管语言的信息量并没有增加，但是原来说话的发音自动补充连续起来变得容易听懂了。也就是说，即使是复杂的语言，人脑只要能够预测到其文法走向，就能够把缺损的语言空白情报自动补充完整。

(www.xing528.com)

图1.5.7 连续听觉效果

虽然这样的人脑预测机能非常强大，然而，对于传到人工内耳的声波，如果只有无音部分，当然人脑会强烈地感到听不到语音符号。插入的杂音符的存在，提示人脑预测可能出现的语音信号，而预测是有必要条件的，这个界限首先在于作用时间，大概在200ms左右，在这个时间尺度上，人脑就能进行信息的处理了。例如，在动画片电影里的发音口形动作和配音有不同步的时候，或者在虚拟现实的实验室里人的视觉和触觉反馈信息有脱节的时候，只要其错开的时间差在200ms以内，那么人的感觉并不明显。然而，如果出现200ms以上的错位时间差，人脑就无能为力了，预测和错位感觉的统一频率在5Hz左右。

当然，所谓预测，必须有过去的经验，才能推测推理未来。不懂英语的人，当然无法产生英语的连续听觉效果。也许，外界的信息一旦进入人脑，就会出现信息确认的动作，这种确认必须要有人脑原来存储的资料系统，或者说，有智慧经验的人脑有选择最接近合理的外界信息解释答案的功能。人脑的经验资料的积累，始于幼儿时期，10～12岁之前的人，学习语言的能力特别强大。至于所谓绝对声音感觉的记忆，一旦超过4岁，就没有学习能力了。

幼儿和少年儿童在装上人工内耳以后，尽管由于电极阵列只能进入耳朵蜗牛管的一部分，从原理上来说没办法听到低音域的声音，但是，他们却能够和健康人一样去学习音乐，这有点违反常识，可是，由于儿童的脑处于经验资料积累的强大临界年龄之前，存储资料系统的能力强大而迅速，很快就适应了人工内耳听觉系统的生活。

在纸上谈论听觉的问题，读者大概会感到枯燥乏味，而人脑的预测功能，并不仅仅反映在听觉上，也反映在其他感觉上，下面观察一下视觉的预测机能。

3）视觉预测的类似性。看了图1.5.8a所示的模样后你有什么样的联想呢？看了图1.5.8b所示的视觉信息后就完整了。其实，这两张图里所包含的语言情报并没有变化。但是，看到这两张图的感受是不同的。看了图1.5.8a，由于在各个黑片断图形之外全是空白一片，视觉上强烈感受到：“没有更多的信息了”。而看了图1.5.8b之后，感觉到：“这里说不定还隐藏着更多的信息呢”，人脑在任意地预测。

图1.5.8 视觉的补充机能

上述内容，是连续听觉效果的视觉版。

再请看图1.5.9，看第一眼之后，几乎所有读者都会说：“呵，是蒙娜丽莎！”，其实，错了，这是一个长了胡子的蒙娜丽莎。由于读者把片段的信息输进眼里，与脑内的资料基础进行比较，产生了错误的预测。当我们再仔细看图1.5.9之后，大家会感觉看错了：“这个世界上还有假的蒙娜丽莎呢！”在思考的瞬间，脑内的基础资料获得了更新。

图1.5.9 蒙娜丽莎？

4）感觉上的惯性思维。基于经验的感觉预测功能，就类似于人们的生活习惯一样，又像物质运动一样，存在一定的惯性。这样的预测思维惯性，有时往往会扭曲了正确的感觉。图1.5.10a所示为有名的米拉·里亚错视图，为什么箭头向外的直线显得较短呢？如果看不懂的话，请参阅图1.5.10b，即使是同样长度的东西，离自己较近的感觉长些，较远的看起来短些，最远的东西会缩成一个点，人的实际视觉感觉符合透视原理图。这样的视觉习惯用在图1.5.10a上，就会形成一种错觉，扭曲了实际的视网膜上的成像视觉，这就是人脑感觉上的惯性思维所致。

还可以举一个例子，图1.5.11a所示的圆形图形看上去是凸出来还是凹下去的呢？感觉上应当是白色的是凸出来，而黑色的是凹下去的。这是因为人们已经习惯于看到白天的景色，阳光从上面照下来，物体的下部呈黑色。但是再看图1.5.11b时，则全凭自己的主观判断了，光源可以自己假设是来自左边还是右边，从而得出的视觉感受也不一样。

图1.5.10 远近的感觉

a）米拉·里亚错视图 b）请想象门与旁边的柱子的远近感

图1.5.11 是圆凸起还是圆形凹坑？

5）脑的信息处理模式。过去人们对于脑如何处理信息，曾经考虑过图1.5.12所示阶层化的模型。就是说，在“低层次”上，将视觉信息的形状、大小、色彩等因素进行分解，然后再在“高层次”上进行归纳后，与脑内资料库进行对照，认识事物的经纬脉络。但是，这样的信息处理模型，完全没有反映出人脑在解剖学上的真实构造。试分析一下“低层次”领域的信息输出输入的关系，结论如图1.5.12所示。信息没有理由一边倒式地单方向从“低层次”领域转到“高层次”领域；反而，来自“高层次”领域的信息输入占压倒性优势。

图1.5.12 人脑阶层化的信息处理模型

简单介绍一些例子。视觉信息经过视网膜转换成神经信号之后，进入脑干的外侧膝状体一旦被中继，就成了大脑皮质的一次元视觉感受。检查进入外侧膝状体的信息内容，就会发现，实际上来自视网膜的并不多，只占20%左右，而来自一次元视觉感受的信息占据80%之多。同样，即使在一次元视觉感受域，来自外侧膝状体的输入仅有20%，而来自比一次元视觉感受领域更为高次元的视觉感受领域的信息量占到80%。在一次元视觉领域处理的信息量之中，视网膜的占比为20%×20%，仅为4%而已。也就是说，在一次元视觉领域中处理的信息，来自外界的信息量不过只有4%而已，剩下的96%全部是人脑内的信息（图1.5.13）。有意识的感觉在人脑高次元领域里一旦发生，就会对内部信息越来越起到支配的作用，我们如何能够相信我们的视觉感觉呢，莫非我们生活在妄想之中吗？前文所说的蒙娜丽莎的画像，完全是因为此处的人脑高层次领域的活动支配了低层次领域的活动，才会有了蒙娜丽莎的错觉。

从低层次领域进入高层次领域的信号提升叫作升层，从高层次领域到低层次领域的信息降落叫作降息。降息输入较之升层输入在解剖学上的强势特性，支持着人脑的强有力的预测功能，解剖学上的这个特性，不仅在视觉上有，在听觉和其他感觉上也是如此。

图1.5.13 人脑几乎不需要视觉信息

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

工作思路

策划书

留守儿童

关工委

内部审计

爱国卫生

业务员

信息技术

教研员

心理教育

居委会

社区学校

公司安全

部门月度

区安全

公司工会

乡镇基层

劳动保障

经理年度

内科年度

教学个人

前台个人

个人月度

配班个人

硬件耳朵：探索人工内耳技术的成功之路

相关推荐

硬件耳朵：探索人工内耳技术的成功之路

有关精密机械工程学的文章

相关推荐