还在20世纪的时候,研究者们普遍认为,传统意义上的RNA有2种形式:一种是可以合成蛋白质的编码RNA,另一种是发挥结构作用的非编码RNA。随后,小RNA(miRNA、piRNA)和lncRNA(long non-coding RNA,长链非编码RNA)的发现,开启了非编码RNA研究的全新领域。
事情的发展本来很正常,新的领域在开启,人们的认知在增加。然而现在,研究者们貌似兜了个圈子又回到原点,因为他们发现,某些长链非编码RNA能够产生具有生物学功能的小肽。
其实早在2002年,非编码RNA可以编码蛋白质的现象已经初露端倪。当时,德国马普植物育种研究所的工作人员发现一个679nt(核苷)的长非编码RNA中含有2个短开放阅读框[1](short open reading frame,sORF),这2个sORF分别编码长12aa(氨基酸)和24aa的小肽,发挥生物学功能。同样,在2007年,来自日本的科学家影山(Y.Kageyama)在研究果蝇胚胎中的一种lncRNA时,意外发现这种lncRNA可以编码4个小肽、3个11肽和一个32肽,同样具有生物学功能。
从2007年至今的短短十一二年间,陆续不断地有lncRNA被“正名”(由于含有能编码小肽的sORF被重新划分为mRNA),比如斑马鱼胚胎中的toddler、骨骼肌中的myoregulin、心脏细胞中的DWORF等。
随着越来越多隐藏的小肽被发现,人们不禁要问,还有多少小肽没被发现呢?有几十种、上百种吗?事实上,这个数据可能会更加庞大,因为sORF被忽视的现象由来已久。导致这个现象最直接的原因,就是寻找ORF的算法问题,大多数的ORF算法临界值是300nt,这不可避免地会漏掉那些可能编码小肽的sORF。另外,用标准的蛋白质谱法鉴定小肽也是有问题的,小肽们早就跑出凝胶去了。还有,ORF越短,在小鼠、果蝇等模式生物的常规突变筛选中越难被选中,就越难被鉴定。大概总结一下原因就是,针对常规编码RNA的那套方法,在sORF的研究中是完全失效的,人们需要新的方法来鉴定未知的sORF。(www.xing528.com)
直到2011年,经过科学家们的不懈努力,一种被称作核糖体图谱(ribosome profiling)的方法经过改进,解决了这一难题。这种方法能够翻译所有的ORF,不论长的还是短的。来自美国加州大学的魏斯曼(S.M.Weissman)等利用这种方法证实,在已知的编码区外存在大量的翻译,证明这是一项里程碑式的发现。但是,这种方法也有一定的假阳性。为了反映真正翻译的核糖体图谱,研究者们随后又加入了诸如被称作核糖体释放分数(ribosome release score)等的参数,使得预测的结果更加可信。
2015年门舍尔特(G.Menschaert)等建立了一个sORF数据库,其中已经包含小鼠、果蝇、人类中总共266 342个sORF。当然,随着研究的深入,新的算法和参数会不断更新,这一数值可以进一步过滤缩小。不过这一切都表明,关于ORF的算法问题尽管还有待成熟,但已经趋于得到解决。
剩下的就是对新鉴定小肽的分子和遗传功能进行研究了,但是科学家们迄今还没有找到有效的方法,能够快速地解析这些小肽的作用机理。相信果蝇作为最强有力的模式生物,能够在这个过程中发挥重要作用。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。