Search

一個設計用來查找論文的軟體,意外掀開「醫學文獻剽竊」黑幕 - The News Lens 關鍵評論網

friesfresh.blogspot.com

撰文:嘉納(Harold“Skip”Garner)|翻譯:王怡文

1994年,我找到了事業第二春。我原本是美國通用原子公司內部智庫的物理學家兼工程師,負責解答來自公司任何部門的困難問題。多年來,我處理過各式各樣的案子,例如冷融合和無人偵察機。但是在1990年代初,我經常和生物學家及遺傳學家合作,他們向我提出他們研究中需要哪些很酷的新科技,再由我研發出來。

就在那時,我聽說了一個稱為人類基因組計畫的新研究題目,目標是解譯人類染色體內大約30億個DNA鹼基對(鹼基序列),令我為之著迷。我剛好讀到Scientific American的一篇文章,文章中提到有些關鍵技術尚未研發成功,有待物理學家和工程師實現。

於是我轉任到美國德州大學西南醫學中心當教授,和科學合作夥伴(一位遺傳學家)一起建立人類基因組計畫中,最早的研究中心之一。

那裡的一切都很不一樣。我同事滿口都是另一種語言──醫學,而我講的是物理學。在物理學中,公式幾乎掌控一切;在醫學中,卻沒有通用的公式,只有許多觀察結果、一些片段的了解以及多得驚人的術語。我不斷參加研討會,並抄下一串又一串從未聽過的詞彙,再花好幾個小時去查清楚。我必須隨身攜帶一本醫學辭典,才能研讀科學論文。

我幾乎無法讀懂任何一段文字,在屢遭挫折的情況下,我決定研發軟體來解決困擾。我想要一個搜尋引擎,輸入一大段文字,就會回傳可供進一步閱讀的參考文獻、文獻摘要以及論文,好讓我趕上手邊醫學研究的最新進展。

這是個艱難的研發課題,當時網頁的搜尋引擎才剛起步,用來找城裡最棒的料理沒太大問題,但無法消化一段包含多個有相關概念的文字,更別說要指點我閱讀相關資料。

我帶著幾位學生與博士後研究員,開始研究文本分析;我們一同研發了一套軟體,名為「電子文本搜尋比對工具」(electronic Text Basic Local Alignment Search Tool, eTBLAST),概念來自搜尋DNA或蛋白質序列資料庫用的軟體「生物序列搜尋比對工具」(BLAST)。

通常在BLAST上的查詢是輸入一串100~400個DNA鹼基序列,然後軟體就會回傳包含相同編碼的較長序列。而在eTBLAST上的查詢則是輸入一段或一頁文字,通常包含100個以上的單字。

設計搜尋協定比設計軟體來找一串字母更難,因為搜尋引擎不能只做字面比對,還得認得同義字、縮寫字以及替代用語,也得考慮字詞順序。在查詢一段文字之後,eTBLAST會回報從資料庫裡找到且排序過的「命中」清單,以及查詢文字與所找到摘要的相似度。

我們最常用來搜尋的資料庫是Medline,它的管理機構是隸屬於美國國家衛生研究院(NIH)的國家醫學圖書館,收藏了醫學領域裡所有的生物學研究,包括數千種同儕審閱期刊、數百萬篇研究論文的標題與摘要。

在Medline上有一個可用關鍵字查詢的搜尋引擎,因此只要輸入幾個關鍵字,例如乳癌基因(breast cancer gene),就會找到不少結果,而且常附有全文連結。但是我才剛轉行研究醫學,對於很多研究該從何下手都毫無頭緒。

eTBLAST的初期版本,光是從Medline比對幾百個單字的段落就得花數小時,但確實管用。我透過eTBLAST開始讀懂科學論文,逐段掌握內容要點;我可以把某位研究生的論文丟進去,快速得知相關文獻。我和研究夥伴甚至和Google公司談過,要把軟體賣給他們,可惜他們回覆說這並不適合該公司的商業模式。

後來事情有了奇怪的轉變。好幾次,我發現學生提案裡的文字,和其他未註明受引用論文裡的文字一樣。因此這些學生接受了道德教育課程,而我則改變了我職業生涯的研究主題:有多少專業醫學文獻涉及抄襲?

似曾相識

當我著手探索醫學文獻剽竊的這個新研究主題時,先進行了匿名問卷調查。我在最新的調查結果中發現,1.4%的研究人員承認自己的研究涉及抄襲。但這個數字的精確度取決於回覆問卷者的誠實度,我們可以用eTBLAST查看他們是否所言屬實。

我們找了許多學生以及效能夠強大的電腦,接著從Medline裡隨機選擇論文摘要,再使用eTBLAST查詢。eTBLAST把欲查詢的摘要比對整個Medline,尋找相似內容,然後回傳命中清單,每筆結果都附有相似度分數。受查詢的摘要本身永遠在清單最頂端,相似度為100%,第二筆結果相似度通常在個位數到30%之間,但是我們偶爾會發現第二、甚至第三筆的相似度逼近100%。

sm148-48
Photo Credit: 科學人雜誌

執行過幾千筆查詢之後,我們發現大約5%查詢結果的相似度高得可疑。隨後,我們再檢查那些摘要,以確定軟體找到的是人們也會認為相似的內容,然後我們再針對這些可疑摘要的論文,進行全文比對。

不久,我們就開始找到符合剽竊的案例,不只是重複了一些話,而是整篇照抄;這真是令人失望,甚至震驚。當然我們知道問卷顯示有1.4%的研究人員承認抄襲,但看到抄襲的論文一篇篇列出來又是另一回事。特別是對學生而言,這個過程很刺激,他們覺得自己好像在打擊犯罪,某種意義上的確如此。

下一步是提升計算與分析的規模。為求徹底,我們從Medline裡的每筆文獻,截取足夠長度的文字執行相似度搜尋。當時文獻將近900萬筆,平均每筆300字,再乘以900萬次比對。這項任務花了數個月,消耗了我們實驗室裡可觀的計算資源。查詢結果出現後,我們再次檢查它們,並把所有高度相似的結果放在一個叫「似曾相識」的資料庫裡。

似曾相識資料庫開始累積一對對高度相似的Medline摘要,總共大約有八萬對相似度至少56%的摘要。這些高度相似的摘要大多有很充份的理由,例如舊論文的更新或會議摘要,但其他的就很可疑了。

我們把論文投稿到《自然》,這篇論文中包含抄襲頻率以及重複發表(又稱為自我抄襲)的資料、似曾相識資料庫的內容細節和一些初步案例。編輯接受了,但是由於我們指控某些摘要涉及抄襲,期刊所屬的律師團卻把這篇論文撕毀了。

律師擁有絕佳的論點:唯獨編輯或倫理委員會成員才有權判定是否剽竊;我們只能呈現事實──任兩篇科學文獻中的文字重複量或相似度。最後在律師的認可下,我們修改了這篇論文,並且只呈現事實。

當這一篇論文在《自然》刊出來時,後果一發不可收拾。期刊編輯都很頭痛,因為這給他們帶來額外工作。原論文的編輯為了保護版權,堅持那些涉及抄襲的論文必須撤銷,當然讓那些「二手論文」的出版業者很難堪。

許多科學家都生氣了,因為我們的結果似乎暴露出同儕審閱的缺陷,但是大家不得不承認,這是一個重要且嚴重的問題:科學家和臨床工作者都是依據他們讀到的文獻做出重大決策,如果這些決策所依據的都是有問題的研究,那代表什麼?

最後,我們判定0.1%的專業論文很明顯是抄襲其他人的成果(我們只舉證幾乎完全相同的論文,必定還有更多例子是抄襲部份段落,但由於軟體只搜尋摘要,查不出後者)。大約1%是自我抄襲,同一位作者的成果可出現在多達五種期刊上,而且經常是一字不差。這個比率看似不高,但想想看,每年大約有60萬篇醫學論文發表!

不久我們就注意到,發表流程改變了,期刊編輯開始使用eTBLAST檢查投稿論文。而我也改變了,轉換了我的生涯方向,並把「倫理研究者」加進我的工作經歷裡。

本文獲《科學人雜誌》、《科學人粉絲團》授權刊登,原文刊載於此

責任編輯:朱家儀
核稿編輯:翁世航


我們生活中的每一分每一秒,都由無數的選擇組成。這些選擇不只影響人類生活樣貌,甚至還影響到整個地球環境與其他物種。例如選擇自備環保吸管,就能減少一點塑膠微粒進入海洋的機會;或者選擇搭乘大眾交通工具,能減少汽車排放的廢氣。

生活中充斥著大量的商業製品,我們可能會因資訊量不足而聽信業者的片面說詞,或看著標籤上琳瑯滿目的成分卻不知其意義,更不曉得該從何查證事實。如果有一個清楚簡單、又有公正性的分辨方法,想必會帶來很大的幫助。

食安守門員幫你把關各種添加物

美國環境工作組織(Environmental Working Group,簡稱EWG)是一間非營利的民間組織,20年來致力於推廣「安淨」的生活方式,專門研究對環境和健康有害的種種化學物質,並將這些知識有效地傳達給消費者。他們整理了非常龐大的資料庫,遵循一套嚴謹、專業,且清楚易懂的分級方式,針對大多數的消費用品、食品與化妝品進行研究和檢測,並將結果放在官網上,讓所有消費者可以很清楚地獲得資訊。

進到EWG網站搜尋商品名稱,只要幾秒鐘就能獲得產品內容的分析,以及對環境與人體影響的綜合評比分數。分級標準從1分到10分,同時顯示綠燈、橘燈和紅燈三種警示,分數越低、越接近綠燈,表示這項商品就越安全。

EWG在今年(2020年)也出了一份最乾淨食物的報告,根據他們的統計和研究,有機並不代表安全,也不能保證無農藥殘留;相對的,一些以傳統方式種植的農作物,反而沒有農藥殘留。蟬聯多年最乾淨蔬果的酪梨今年依然穩坐冠軍,酪梨厚厚的皮可以防止農藥滲入,是一款可以直接食用的乾淨食物。

當然市售的加工食物也有相當龐大的評比資料庫,除了洋芋片、糖果、汽水這類無需評比你也知道應該少吃的零食外,許多看似健康的穀片、燕麥棒,也存在著對人體健康有疑慮的添加物。當清楚了解食品成份後,我們就能盡量避免選擇應減少食用的商品。

螢幕快照_2020-07-07_下午4_15_49(2)
Photo Credits:EWG
身體保養同樣不需要過多添加物

擦在身上的保養品,和吃進肚子裡的食品一樣,能夠維持自然純淨,減去不必要的添加物,自然就能讓人散發出健康光彩。針對保養品,EWG當然也有自己的一套規範,而且標準比起其他認證更嚴格。就跟食品一樣,只要在EWG的評比網站中輸入產品名稱,就可以很快分辨這項保養品是否安全。評比的標準包括:整體危險性(Overall Hazard)、癌症(Cancer)、發育與生殖毒性(developmental & reproductive toxicity)、過敏與免疫毒性(Allergies & immunotoxicity)、使用限制(Use restrictions)等,每一項產品對人體和環境的影響,都能一目了然地立刻掌握。

既然我們已經知道EWG的評比方式是多麼嚴苛而且細緻,我們就可以理解要取得EWG的認證有多不簡單。條件包括:

  1. 該產品在EWG’s Skin Deep®資料庫中,必須為獲得綠燈的安全產品
  2. 該產品不得添加任何在EWG規範中表示為有刺激性、對人體或環境有毒的成份
  3. 該產品標示必須確實寫出所有成份
  4. 該產品的製造過程,必須符合美國食品藥物管理局(FDA)所制定的優良製造程序
  5. 該產品的原料必須取自透明公開的管道

當一項產品千辛萬苦獲得EWG認證之後,品牌還必須支付EWG產品申請檢驗費、資料維護費、EWG教育費等。每銷售一瓶,還需另付銷售額的1.5%,用於回饋EWG組織發展用基金,讓每一位地球公民都可以繼續使用EWG來保障自己的安淨生活,也讓EWG可以繼續擴充資料庫,使之更完善。

96834327_1275525099322742_45749539076288
Photo Credits:童顏有機
做出選擇,迎接安淨生活

除了對肌膚好、對地球環境與其他物種也很友善,作為台灣第一家取得EWG認證的保養品品牌「童顏有機」,就是可以讓你安心、讓肌膚安淨的日常保養夥伴。童顏有機秉持對土地的熱愛,和對天然有機的堅持,一切用心都為了做出可以讓你安心使用、安淨保養的產品。

更了解童顏有機的安淨堅持


Let's block ads! (Why?)




July 21, 2020 at 11:00AM
https://ift.tt/2E4OMYP

一個設計用來查找論文的軟體,意外掀開「醫學文獻剽竊」黑幕 - The News Lens 關鍵評論網

https://ift.tt/3fA4SHl


Bagikan Berita Ini

0 Response to "一個設計用來查找論文的軟體,意外掀開「醫學文獻剽竊」黑幕 - The News Lens 關鍵評論網"

Post a Comment

Powered by Blogger.