恐龙是只鸡?

by 新知客 on 8月 12, 2009

《新知客》记者 刘夏

在霸王龙化石中找到的蛋白质,跟在鸡身上找到最为相似。如果这个结论能够经受数据公开的考验,不仅能证明恐龙和鸡本是一家,连“侏罗纪公园”的建立也指日可待。

不只约翰•阿萨拉(John Asara)一人会对MOR2598的蛋白质成分感到好奇。其他的好奇者中,一些人等着确定恐龙和小鸡的关系,还有的人在等着看笑话。
MOR2598是一块鸭嘴龙骨化石的编号,这只鸭嘴龙大约死于8千万年前。早在两年前,阿萨拉这位质谱分析专家就曾同一位古生物学家玛丽•施魏策尔(Mary Schweitzer)合作,针对一块编号为MOR1125的霸王龙股骨化石得出结论:它里面所含的蛋白,同鸡的胶原蛋白质相似。这篇论文发表于《科学》杂志,但却因为生物学实验过程当中数据的严谨性不足招致非议。
这次,两人转向针对MOR2598做起同样的工作。他们锲而不舍的态度,比起科学研究本身来,更像是在追求某种证明。

–恐龙骨里的鸡胶原–
2009年5月,新的论文发表于《科学》杂志,证明的结果是:与MOR2598中所提取的胶原蛋白最接近的,正是之前被怀疑数据有问题的霸王龙化石MOR1125中提炼出的蛋白。这等于重申了恐龙与鸟类有亲缘关系的结论,让当初另外两位科学家提出的关于恐龙蛋白遭到实验室污染的质疑再次成为科学界关注的焦点。
2008年秋季,西雅图弗雷德哈钦森癌症研究中心的马丁•麦克托什(Martin McIntosh)和计算生物学家马修•菲茨吉(Matthew Fitzgibbon)根据阿萨拉所公布的MOR1125研究数据进行再次运算,发现了鸵鸟的血红蛋白肽。两人因此怀疑阿萨拉的霸王龙的实验是在被鸵鸟分子污染的环境中进行的:“实验可能使用了一些带有鸵鸟蛋白的试管或者滴管。这样一来,发现的霸王龙蛋白当然可以同鸡匹配——因为那本来就来自另一只鸟”。
阿萨拉对此辩解说,麦克托什所指的血红蛋白肽其实可以同30多种鸟类相匹配,“他之所以单挑鸵鸟来说事,大概是因为知道我曾做过相关研究。”况且,鸵鸟和霸王龙的实验相隔一年有半,其间还进行过其他1500多例质谱分析,实验结果中都未曾出现任何鸵鸟血红蛋白。
学界并不是无端地对阿萨拉的结论抱有怀疑,实际上,恐龙和小鸡暧昧不清的亲缘在古生物学界总不乏劲爆的消息。早在130年前,达尔文“进化论”的拥趸之一赫胥黎就提出鸟类是由恐龙进化而来的观点,这个推论惊世骇俗,但一直缺少分子生物学上的证据支持。人们还从来没有得到过任何来自恐龙的真正蛋白样本,1994年,一篇后来臭名昭著的论文声称已经恢复了恐龙的DNA,结果表明只是一场实验室污染。因此,当2007年4月阿萨拉和施魏策尔的论文发表时,学界疯狂了。
阿萨拉利用一种酶来对这种灰色粉末进行试验,然后放入一台洗衣机大小的质谱仪当中。1小时后,样本的分子成分以数据形式显示出来。他随即在论文中宣布:“利用质谱仪检测,我们在MOR1125的骨头碎片当中发现了7个保存完好的蛋白质片段。其中,5段片段所含的胶原蛋白同鸟类特别是鸡的蛋白相匹配。”
这一发现立即成为新闻头条。首先,这是科学家第一次在分子水平对恐龙和鸡的亲缘关系做出肯定的答复。其次,更进一步来说,这也首次证明了化石中的蛋白能够存活上千万年。一些媒体忍不住开始描绘科幻故事中的情节,英国《卫报》称:“这项研究暗示,有朝一日科学家将克隆出恐龙,重现侏罗纪公园。”
但在短短16个月内出现了三个质疑的声音,其中两个来自《科学》杂志。许多研究者开始对阿萨拉的数据产生疑问,并怀疑胶原蛋白是否真能完好无损地存活至今。马里兰大学生物信息学和计算生物学中心主任史蒂芬•莎尔兹伯格(Steven Salzberg)表示:“如果你得出了非同寻常的结论,首先我们必须要看到非同寻常的证据”。
面对众多质疑,阿萨拉也勉强承认,其中有一个蛋白质片段的统计数据,用来当作证明他们的发现的证据,“确实不够有力”。作为最激烈的质疑者,加州大学圣地亚哥计算生物学家帕维•帕夫纳(Pavel Pevzner)对其余的六个蛋白质片段也不信任,强烈要求阿萨拉公布所有数据。他将阿萨拉比成一个观看猴子敲打键盘的小男孩:“猴子无意中打出了七个单词,于是,他就发表了一篇文章《瞧,我的猴子会拼写》!”

–“蛋白质”词典–
帕夫纳的怀疑基于阿萨拉的蛋白质检测。蛋白质是一种含有氨基酸链的普通分子。这些氨基酸通常以字母命名,比如P代表脯氨酸,G代表甘氨酸,等等。某个生物体的“蛋白质组”是指该生物体所含有蛋白质的集合,就如同一本由单词(蛋白质)和字母(氨基酸)组成的词典。想象一本6千8百万年前的词典,里面有成千上万个字母,组成了不同长度的字母串。这些字母串最后组成的文章,就是MOR1125这个霸王龙蛋白标本。而质谱仪在其中的作用是读出这些字母串,再同词典上的单词相对照。
当所有字母被认定和排序后,就可以去不同物种的蛋白质词典中翻查了。因为霸王龙蛋白质还没有经过此类排序,也便没有自己的“词典”,阿萨拉不得不在现代动物数据库当中寻找与霸王龙蛋白最为匹配的蛋白序列。
阿萨拉在原始文件中声称,他们可以确定MOR1125当中的7个多肽,其中5个与鸡胶原蛋白非常接近,其次是青蛙和蝾螈。这暗示着,比起现代的爬行动物和两栖动物,霸王龙同鸟类关系更近——正如古生物学家所料。
但帕夫纳发现,论文中只引用了7段质谱数据。那些无法与数据库匹配的数以万计的“垃圾”质谱数据却不见踪影。没有它们,这7段质谱的测出是否出于纯粹的偶然便无法知晓。帕夫纳认为,阿萨拉的发现“也许只是伪造的数据,随机混杂在其他字母当中”。
 为此帕夫纳另著一篇文章对其进行批判,发表在2008年8月的《科学》杂志上。这篇文章抨击阿萨拉的计算没有任何统计学意义,并且再次要求公布剩下的“垃圾”质谱数据。

–不被公开的“垃圾数据”–
阿萨拉坚持将自己置于整场战斗的对立面,拒绝出示质谱检测数据。他抱怨,研究人员是在依靠出版物来保持其学术资金和地位。在还有潜在发现未被揭示前,就公布质谱数据,意味着自己的科研成果让他人白捞。
但帕夫纳顽固地维护自己作为“计算生物学家”的立场。他认为,实验数据的公开是为了保证学术严谨,在“计算生物学”研究兴起的今天尤其应当如此。
近年,由于生物学的数据量和复杂性,大规模计算模拟技术正逐渐代替观察和实验,来应付14个月就会翻一番的基因研究数据。根据美国国家卫生研究所(NIH)的定义,计算生物学是“一门开发和应用数据分析及理论的方法、数学建模和计算机仿真技术,用于生物学、行为学和社会群体系统的研究的学科”。利用质谱仪对蛋白质成分进行测定就属于计算生物学的内容范畴。可以说,计算生物学已经成为生物学研究中的基本方法,在新的生物学发现前面,数据的正确与否、是否具有统计学意义,比以往任何时期都具有决定性的作用。
“在一些基础生物学领域,比如DNA测序,几乎找不到一定需要生物学家要来完成的工作,”帕夫纳说,“只要会计算就够了。”他本人也曾专门开发过针对质谱研究中蛋白质的解码算法。因此,当他受《科学》之托,对阿萨拉的论文进行出版前的审查工作时,就敢下断言:“论文作者对运算其实一窍不通。”
现在,阿萨拉对待数据的轻率态度更令帕夫纳愤怒,因此他强烈要求阿萨拉公开全部实验数据:“让质谱仪来看看,猴子是否真会拼写。”
事实上,真的有许多“猴子”被证明其实是文盲。学术造假将技术问题延伸至伦理领域,其中以韩国“首席科学家”、“克隆之父”黄禹锡的造假事件最为轰动。2005年5月,黄禹锡宣布成功利用11名不同疾病患者身上的体细胞克隆出早期胚胎。后来被证明论文数据属于故意捏造。
 2008年的秋季,阿萨拉终于让步,向帕夫纳提供了在线备份。这样,他的所有48216个质谱数据便毫无保留地摊开在网络上。而正是通过对这些质谱结果的再运算,麦克托什在两周内就得出了实验室被鸵鸟分子污染的怀疑。
鉴于这种怀疑,阿萨拉在鸭嘴龙化石MOR2598的蛋白质实验过程中,按照帕夫纳的要求,在一开始挖掘就利用无菌设备,进行了严格的无菌操作,最后得出了与之前一样的结论。尽管在“恐龙与鸡的关系”这个论题上,阿萨拉捍卫了自己的数据真实,但在更广泛的意义上,让任何人都有权对实验过程进行重复,帕夫纳的坚持从头至尾都是正确的。

原文刊载于《新知客》2009年8月号

Leave your comment

Required.

Required. Not published.

If you have one.