本文作者:小红猪小分队
译者:Lewind
校对:lannyj
作者:海伦·皮尔彻
原文:Genes from nowhere: Orphans with a surprising story
【图片出处:www.geneticliteracyproject.org】
在我们的基因当中,很多都没有明显与之近似的亲缘基因,也找不到它们的进化历史。那么,这些基因到底是从哪儿来的呢?
无家可归是件很糟的事。孤儿们往往无人关爱,变得与大众格格不入。他们不得不费尽心力去融入社会,克服重重困难,才能发挥自己的潜能。从亚里士多德到史蒂夫·乔布斯,那些获得成功的孤儿有时也能改变世界。
谁又曾想过,我们的DNA竟然也可以在这样一出孤儿苦情戏中扮演主角。当生物学家进行基因组测序的时候,他们发现每个物种之中都有将近三分之一的基因无父无母,无兄无弟。而且,这些“孤儿基因”之中也并非都是无足轻重之辈,有几个甚至还在人脑进化中发挥了作用。
但是,它们到底是从哪来的呢?这些没有明显祖先的基因简直就像是从石头缝里蹦出来的。当然,你知道这是不可能的。每个人都以为,只要我们对这些基因进行更深入的研究,就能发现它们家族的秘密。可事实并非如此,甚至恰恰相反。
一直以来,当我们发现了一个新基因的时候,生物学家都要去探寻它的起源。在生命诞生之初,最早的一批基因肯定是偶然产生的。有一件事情几乎是确定的:生命起源于RNA世界。也就是说,那时的基因不仅仅是制造酶的图纸——它们本身也是酶,可以引导化学反应的发生。如果这种随机过程偶然搞出来一段RNA,能够进行自我复制,那么自然选择一定会很快发挥作用,把它保留下来。
然而,随着活细胞的进化出现,事情变得更复杂了。基因成为了一段DNA,成为了一个蛋白质的编码。要想制造一个蛋白质,必须首先为它的编码DNA制造一个RNA拷贝。而要完成这件工作,“DNA开关”是必不可少的。实际上,DNA开关本身也是一小段DNA,位于编码蛋白质的DNA序列旁边。它似乎是在说:“快来为这段DNA制造一个RNA拷贝!”接下来,这段RNA还要被送去制造蛋白质的工厂才行。在比较复杂的细胞中,这一工作需要更多附加序列的参与。它们好像是在说:“把我送出细胞核”或者“从这儿开始制造蛋白质”。
如此看来,一段垃圾DNA通过随机突变成为一个新基因的可能性实在是微乎其微。正如法国生物学家弗朗索瓦·雅各布在35年前写下的那句名言所说:“由氨基酸从零开始随机组合成为一个具有功能的蛋白质,这种可能性实际上等于零。”
实际上,早在上世纪七十年代,人们就意识到:基因的意外拷贝可能造就一个新的基因,成为另一个基因大家族的起源。这就像是动物的一个分支物种最终演化成为在进化上具有亲缘关系的众多物种一样。基因在复制的时候不小心多出一个重复的拷贝,这是很常见的事情。多余的拷贝往往又会丢失掉;但也有些时候,这些拷贝会与原基因发挥同样的功能;又或者,会发生变化,从而分化出新的功能。
就拿一种叫做视蛋白的感光色素来说吧。我们的眼睛之中有不同种类的视蛋白。它们不仅彼此具有亲缘关系,而且与所有其它动物的视蛋白同样具有亲缘关系,从水母到昆虫,无一例外。在动物界发现的数千种不同的视蛋白基因全都是通过基因重复进化而来的。它们都源自7亿年前的同一个祖先基因。
大多数的基因都从属于某个家族,其中的基因成员彼此相似,并能够回溯到数亿年前的某个共同祖先。但是,当酵母的基因组在15年前测序完成的时候,人们发现其中约三分之一的基因似乎不属于任何一个家族。于是,“孤儿基因”这个说法被用于描述这些独立的基因,以及那些成员很少,彼此高度相似,且没有已知亲缘基因的基因家族。
“如果你看到一个基因,却找不到它的亲缘基因,那你心中一定会产生疑问。”在宾西法尼亚州立大学研究复杂性状进化的肯·韦斯(Ken Weiss)说道。有些人提出,孤儿基因就像现存的矛尾鱼那样,相当于基因进化中留下的活化石,是某个古老基因家族唯一幸存的成员。另一些人则认为,孤儿基因没有什么特别的,不过是普通的基因,只是其家族成员还没有被发现而已。毕竟,当时全基因组测序的工作才刚刚起步。
孤儿基因如此之多
但是随着越来越多的生物完成了全基因组测序,基因呈家族式的存在方式似乎并非是普遍的规律,反而更像是特例。从蚊子到人,从蛔虫到大鼠,迄今为止所有进行了基因组测序的物种中,都发现了孤儿基因,而且数量越来越多。
孤儿基因的研究目前才刚刚起步。我们对于其中的大多数基因仍然一无所知。那些我们有所了解的孤儿基因也是一团乱麻,毫无头绪。其中有一些与DNA的组织和修复有关,或者控制着其它基因的活性。而昆虫的一种孤儿基因flightin则编码了一个振翅肌的蛋白质,用于辅助飞行。就在去年,芝加哥大学的龙漫远教授和他的团队发表的一项研究成果表明,两个在进化上非常年轻的昆虫孤儿基因帮助果蝇形成了它们的觅食行为。
【想进一步了解龙老师?可点击这里】
在珊瑚、水母和水螅中,孤儿基因主导了刺丝细胞的发育。这是一种十分精密的结构,能够把刺丝囊中的毒液发射出去,让猎物失去知觉。在一种生活在淡水中的水螅体内,孤儿基因控制着口部周围进食触手的发育。而在北鳕体内,一种具有抗冻功能的孤儿基因能让这种鱼存活于刺骨寒冷的北冰洋之中。
但是不太可能……
奇怪的是,孤儿基因常常是在睾丸和大脑中获得表达。最近,有人甚至提出一个大胆的假设,说孤儿基因对于进化史上最大的奇迹——人脑的进化也做出了重要贡献。2011年,龙漫远教授和他的同事们在人类、黑猩猩和红毛猩猩的基因组中鉴定出了198个在脑前额叶皮质区表达的孤儿基因。大脑的这个区域与高级认知能力有着紧密的联系。在这些孤儿基因当中,有54个是人类所特有的。从进化的角度来看,这些基因非常年轻,存在时间不超过2500万年。而它们出现的时间似乎与灵长类的这个脑区获得发展的时间恰好相符。龙漫远教授表示:“这就意味着,这些新基因与脑的进化是有关联的。”
然而,持不同观点的人认为:大多数基因,无论新旧与否,都在某种程度上参与了脑的发展,而这种联系未必就是因果关系。但是龙漫远教授引用了近期的一项动物研究来支持自己的理论。在这项工作中,一个人类的孤儿基因SRGAP2C被引入到发育中的小鼠的神经细胞里进行表达。结果,这些小鼠并没有直接长出更大的脑,然而的确在神经细胞末梢长出了更密集的树突。这种微小的突出结构使得神经细胞能够与邻近的神经细胞进行联系。龙漫远教授认为,神经细胞之间更多的连接可能会增加运算能力。因此,这些新近进化出来的人类基因有可能帮助形成了人类的大脑。位于德国普伦的马克思·普朗克进化生物学研究所的遗传学家迪特哈德·陶兹(Diethard Tautz)表示:“我认为我们过去低估了孤儿基因。”
但是,它们究竟是从哪儿来的呢?2003年,陶兹和同事提出:孤儿基因仍旧是来源于基因重复,但之后经历了快速进化,丧失了与原始基因之间的任何相似之处。而且他们的确握有一些证据,似乎能够支持这一理论。这些证据表明,在果蝇中,孤儿基因的进化速度比非孤儿基因快了三倍。
这么一来,孤儿基因又被重新归入了原有的模型之中,即新基因源于老基因的意外重复。然而,后续的研究指出,这只能解释一小部分孤儿基因的起源。也就是说,这个过程当然重要,但还不是故事的全部。“这个理论在当时看起来很有道理,”陶兹说,“因为其它理论看起来都不太可能是真的。”
有其它理论吗?当时唯一的其它可能就是,基因真的可以从零进化而来,来自于非编码DNA的随机序列。这个想法长久以来都被认为是无稽之谈,因为从一段非编码DNA到一个编码有功能的蛋白产物的基因,其间存在着一条巨大的鸿沟,长久以来都被认为是无法跨越的。但是,大自然可不是按照教科书来运作的。从几年前开始,越来越多的证据涌现出来,证明酵母、大米、小鼠、以及果蝇之中都存在从零开始创造出来的全新基因。紧接着在2009年,爱尔兰都柏林大学的大卫·诺尔斯(David Knowles)和奥依菲·麦克莱萨特(Aoife McLysaght)证明了人类自身也有三个孤儿基因的确是从零进化而来的。
他们发现,在其它灵长类动物身上也能找到与这些孤儿基因几乎相同的DNA序列。只不过这些序列在那些动物的基因组中还只是非编码DNA。这意味着,这些孤儿基因一定是在人类与黑猩猩在进化上分道扬镳之后才出现的。他们还发现,这些孤儿基因在多种人体组织中都会转录为RNA,再进一步表达为蛋白质,但它们确切的功能目前还不得而知。
2011年,另一个研究组又找到了60个从零开始创造出来的人类孤儿基因。麦克莱萨特认为这有点儿太多了。她相信,全新基因的形成只是偶然现象。
然而,另一些研究者却渐渐认为,这种现象可能会常见到令人吃惊的地步。西班牙巴塞罗那市政基金医学研究所的M.马尔·阿尔巴(M. Mar Albà)和马卡丽娜·托尔-里耶拉(Macarena Toll-Riera)针对270个灵长类孤儿基因进行的一项研究发现,这些基因中只有四分之一可以被解释为基因重复之后的快速进化(参见《分子生物学与进化》第26卷第603页)。而其余大约60%的孤儿基因似乎都是全新的。“从零开始的进化无疑是一种强大的力量——一直在不断地产生着新基因,”陶兹说,“看起来有可能大多数的孤儿基因都是通过从零开始的进化产生的。”
但是,这怎么可能呢?诺尔斯和麦克莱萨特发现,他们找到的孤儿基因往往紧挨在已经存在的旧有基因旁边,甚至会有轻微的重叠。这样一来,孤儿基因或许就能“借用”旧有基因的控制开关了。与此类似,阿尔巴和托尔-里耶拉发现,270个灵长类孤儿基因之中有一半都从一种叫做“可移位因子”的基因元件之中获取了一些序列。而可移位因子就像是基因中的寄生虫,可以在基因组中到处乱窜。此外,人类基因组“基因元件百科全书”(ENCODE)研究计划在年初发表的结果显示,我们的DNA中塞满了数百万个可以当作基因开关使用的短序列,而一个开关可以与许多基因相互作用。
所有这些研究都表明,非编码DNA要想获得一个给自己制作RNA拷贝的开关并非难事。实际上,ENCODE计划发现,多达80%的DNA都会被拷贝成为RNA,至少也是偶尔为之。有人主张所有这些RNA都是有功能的,而另一种观点则认为:这些拷贝活动大多数只是无意义的背景噪音——垃圾DNA转录为RNA完全是惯常之事。
原基因
果真如此的话,我们基本上每时每刻都在进行着成千上万的潜在新基因的合成实验。而加利福尼亚大学圣地亚哥分校的安妮-鲁克山德拉·卡乌尼斯(Anne-Ruxandra Carvunis)证明,至少在酵母里,事实的确如此。去年,她的团队分析了酵母基因组中108000个可能编码蛋白质的未知短序列(参见《自然》第487卷第370页)。其中有超过1000个与细胞中的蛋白质工厂发生了相互作用,说明它们当时正在被表达为蛋白质。“这可能只不过是冰山一角。”卡乌尼斯说道。
她的发现说明,酵母细胞中的蛋白质工厂不断创造着全新的蛋白质,并让它们有机会接受“测试”。她推测,同样的事情在所有复杂的生物体内都在发生着。卡乌尼斯认为,在非编码DNA和彻底成熟的基因之间,还充斥着从短到长,各式各样的“原基因”。它们中的大多数编码出来的蛋白质是无用或者有害的,于是不会被选择。因此,绝大多数的原基因早晚会重新变回非编码DNA。但是少数中性的,甚至是有用的原基因,有时会被保留下来,渐渐开始积聚有益的突变。经过数百万年的自然选择,它们就能成为一个真正的基因了——这就是孤儿基因诞生的过程。
所有这些研究有助于解释为什么孤儿基因经常在睾丸中获得表达。在大多数细胞中,DNA是紧密排列的,降低了制作RNA拷贝的机率。然而在某些未成熟的精子细胞中,DNA的结构更加开放,更易于让原基因拷贝成为RNA。随着时间的积累,这些基因才渐渐开始在其它组织中表达,并进化出全新的功能来。
关于蛋白质特性的新发现也让基因从零进化而来的理论变得更可信了。以前人们认为蛋白质必须要折叠成为一种精巧而精确的三维空间结构,才能正常发挥其功能。但是现在看来,很多蛋白都以一种固有的无规则卷曲状态存在着,并且在成千上万种可能的构象状态之间快速变换,同时还能完好地保持其功能。大约一半的人体蛋白质都有至少一大段固有的无规则卷曲片段,而10%的人体蛋白干脆从头到尾都是无规则卷曲的。
位于布鲁塞尔的弗兰德斯生物技术研究所的彼得·汤姆帕(Peter Tompa)专门研究蛋白质的固有无规则卷曲。他推测,新出现的孤儿基因所编码的很可能就是无规则卷曲的蛋白质,因为这种蛋白质比折叠好的蛋白质更容易生产。而无规则卷曲的蛋白质通常都在细胞信号转导和调节之中发挥作用。“如果孤儿基因最终被发现具备有调控功能,我一点也不会感到惊讶。”汤姆帕说道。
或许,这也可以解释为什么孤儿基因会很快变得极为重要。2010年,龙漫远教授的研究组应用RNA干扰的方法关闭了果蝇在进化上的老旧基因和新基因。他们发现,包括孤儿基因在内的新基因对于生命的重要性与老基因完全一样(参见《科学》第330卷第1682页)。“这与教科书上写的是相互矛盾的。书上说编码重要功能的基因早在远古时代就已经形成了。”龙漫远说道。
关于孤儿基因,还有很多未知的东西等待着我们去研究。不过人们已经开始去追寻它们的祖先来源了。对于大多数孤儿基因来说,我们之所以找不到它们所属的家族,似乎就因为它们本就没有自己的家族。孤儿基因萌芽之初的原始DNA是可以被回溯到的,但是作为真正的基因,孤儿基因就是它们各自家族中的最初成员。从这个意义上来说,“孤儿”这个词用得并不合适。或许,它们应当被称作“匹诺曹基因”——本来不是基因,却被机遇和自然选择的力量塑造为正常的,活生生的基因。
关于本文
海伦·皮尔彻是一位来自英国的自由科学作家。