我們擅長(cháng)商業(yè)策略與用戶(hù)體驗的完美結合。
歡迎瀏覽我們的案例。
學(xué)生告訴我,每年這個(gè)時(shí)候都會(huì )集中收到類(lèi)似郵件,大概是因為畢業(yè)生要準備畢業(yè)論文了。
我忙問(wèn)學(xué)生,這種情況持續多久了?他們告訴我有一段時(shí)間了,但近年來(lái)愈演愈烈,幾乎成了套路和風(fēng)氣。比如這幾天一些學(xué)生還被同一個(gè)qq匿名郵件以每天三封的頻率持續騷擾。
圖1 匿名想要源代碼或具體實(shí)現的郵件例子。
雖然我相信世界上幾乎沒(méi)有人可以保證自己的研究成果是100%正確,但向學(xué)生們和合作者強調學(xué)術(shù)倫理道德和底線(xiàn),是我一貫的做法。因此,盡管可能會(huì )有一些瑕疵,但我相信他們的研究成果是經(jīng)得起學(xué)術(shù)推敲的。
為了讓學(xué)生免于這些無(wú)聊干擾、專(zhuān)心致志科研,我立即表示:對于這種匿名騷擾的郵件,拒絕回復并直接拉黑發(fā)送方。
沒(méi)想到,稍晚時(shí)候,我竟然又收到了匿名者郵件,他帶著(zhù)威脅地聲稱(chēng)——文章有著(zhù)疑點(diǎn),“非常有禮貌” 地詢(xún)問(wèn)了我的學(xué)生,卻被拉黑了(見(jiàn)圖2)。
圖2 匿名威脅發(fā)我的郵件截圖(文章信息、發(fā)送方和文章作者信息已經(jīng)做處理)
我認真讀完這份郵件,并沒(méi)有找到他們敘述的任何有關(guān)我們文章的疑點(diǎn),但就是要詳細的實(shí)現。
我感覺(jué)匿名者似乎缺乏基本的知識和文獻背景。從郵件猜測,匿名發(fā)送人大概是大學(xué)生或低年級的研究生,郵件中的一些疑惑本應在研究前,由其指導老師所教的基礎知識和基本的文獻閱讀就能解答。
當然,最使我吃驚的是,郵件所透露出來(lái)的貌似隱約但直截了當的威脅。
為此,我向海內外的朋友們了解了一下情況,發(fā)現很多人也收到了類(lèi)似的郵件,甚至有幾位朋友說(shuō),他們天天都有收到此類(lèi)郵件,讓我不要大驚小怪。
這些來(lái)自實(shí)名 “伸手黨” 或匿名 “威脅黨” 的郵件,讓我十分悲憤——深度學(xué)習時(shí)代的人工智能研究怎么出了這種亂象?
01 寫(xiě)不如逼,逼不成恐嚇
我們知道,深度學(xué)習模型的復現和重用需要人力研發(fā)與計算設備的投入。我們實(shí)驗室為了搭建相應的軟硬件環(huán)境,花費了數以?xún)|計的經(jīng)費。即便如此,我們自己的復現結果,有時(shí)也不盡人意。
自己編程寫(xiě)復現代碼困難重重,有些人便來(lái)找捷徑了——直接向作者要源碼和具體實(shí)現。
實(shí)名要的,一般會(huì )說(shuō)看了文章但是復現難度大,所以要代碼或者實(shí)現細節??捎行┤艘姆绞揭菜坪跆欢Y貌、太懶了——甚至于在郵件里連作者的名字和文章題目都寫(xiě)錯了,絲毫沒(méi)有看出對方是看過(guò)該文章的。
匿名要的,因為擔心作者舉報,通常不會(huì )用實(shí)際單位郵箱而用社會(huì )上的通用郵箱發(fā)送。這些匿名郵件不會(huì )表露出要代碼或者要實(shí)現細節的目的和用途,而是在言辭上拐彎抹角地逼問(wèn)恐嚇,例如指責疑點(diǎn)很多、將舉報論文作者等等??梢坏┳髡邔⒋a或者實(shí)現細節回復匿名者,并詢(xún)問(wèn)對方發(fā)現的具體疑點(diǎn)后,往往就沒(méi)有下文了。
拿到作者的源碼,用于學(xué)術(shù)研究當屬正常,但瞞著(zhù)作者直接將其商用的,也不在少數。例如,著(zhù)名目標檢測算法YOLO的作者 Joseph Redmon 宣布,將停止一切計算機研究,原因是自己的開(kāi)源算法在未經(jīng)過(guò)他同意的情況下,已經(jīng)被其他人用于引發(fā)軍事沖突和侵犯隱私的系統里。
更可恥的是,有了作者的源碼,卻沒(méi)有運行出作者的結果,那便繼續逼問(wèn)作者。
可氣的是,有些人根本不花氣力去了解論文和具體的實(shí)驗步驟及其所必須的軟硬件實(shí)驗環(huán)境,出現過(guò)許多可笑的情況。
一位朋友曾告訴我,僅僅因為匿名者自己的軟件版本與作者不同而導致程序報錯,就去 “討伐” 作者;當作者好心相助后,匿名者竟然連程序報錯日志是什么都不知道。
還有一位朋友告訴我,在他認真回復之后,匿名者仍然再問(wèn)稍有基本知識就知道是相同問(wèn)題的問(wèn)題,一旦沒(méi)有及時(shí)回復,那就天天、過(guò)幾小時(shí)甚至幾分鐘后發(fā)一封,被迫成為了 “義務(wù)” 指導老師,而且是 “保姆型” 的。無(wú)奈之下,朋友把數據、代碼與模型封裝成一個(gè)Docker作為回復,匿名者竟然回問(wèn)朋友Docker如何安裝和使用?真是當老師不夠,“保姆” 才行!
更有甚者,匿名者被一個(gè)作者拉黑后,就威脅其他合作者或作者單位的其他人。這樣不成功,再換個(gè) “馬甲” 甚至幾個(gè) “馬甲”,把這個(gè)過(guò)程再來(lái)一遍。例如,一位朋友告訴我,他的團隊收到過(guò)來(lái)自不同匿名者的郵件,這些郵件除了郵件地址之外,郵件內容竟然一字不差!
總之,這些人沒(méi)有底線(xiàn)、目的只有一個(gè):交出代碼!
了解了這些情況,讓我極度悲哀。面對這種郵件,為何有人沒(méi)錯卻把代碼給了匿名者?為何匿名者又連錯誤的代碼都要?與朋友討論完后,我的認識是這樣的:
● 如果文章的算法沒(méi)有問(wèn)題,交出代碼,一是真心幫助,這本就是學(xué)術(shù)界的傳統;二是息事寧人,由于深度學(xué)習文章往往需要多人合作,作者一長(cháng)串,有些作者深度參加,有些作者較少參與,并不是所有作者對其結果有著(zhù)同樣的信心和定力,這就為匿名者提供了各個(gè)擊破的機會(huì )。
● 如果文章有問(wèn)題,出乎我意料之外,錯誤的代碼有時(shí)也有價(jià)值,而且是正確的價(jià)值。比如,可以用它們 “交差”,完成KPI甚至是畢業(yè)、升職;還可以進(jìn)一步地分析并修正這些代碼,大大縮短開(kāi)發(fā)周期。
在與朋友的交談中,讓我感覺(jué)這種 “寫(xiě)不如逼、逼不成就威嚇” 的現象在一些高校學(xué)生以及企業(yè)的實(shí)習生中,愈演愈烈、泛濫成災,開(kāi)始從 “潛規則” 向不健康的 “亞文化” 發(fā)展。
如此發(fā)展下去,不但不能解決深度學(xué)習模型的可復現性問(wèn)題,而且讓人擔心商用深度學(xué)習系統的可用性和可靠性。特別是,更讓人擔心對于年輕人在文化和精神層面上的損害。
02 難以復用的深度學(xué)習困境
深度學(xué)習改變了人工智能的面貌,這是一個(gè)巨大的進(jìn)步。一個(gè)新的、規?;囊源髷祿退惴楹诵牡男袠I(yè)革命方興未艾,而其關(guān)鍵就是深度學(xué)習模型。學(xué)術(shù)圈與企業(yè)界的研究重點(diǎn)已經(jīng)轉入深度學(xué)習模型的設計與應用,其第一步往往就是復現和復用他人的工作。
在傳統的機器學(xué)習時(shí)代,理論算法與實(shí)現步驟基本上是等價(jià)的,因為其步驟都是確定的,所以大部分算法都是可以被近似或者完美復現。但在深度學(xué)習時(shí)代,深度網(wǎng)絡(luò )從本質(zhì)上就是大規模參數的隨機尋優(yōu)問(wèn)題,而且包含著(zhù)很多隨機步驟。
因此,在作者不開(kāi)源的情況下,特別是不明確軟硬環(huán)境的情況下,復現者得不到作者聲稱(chēng)結果的現象就會(huì )變得正常和普遍。
雖然計算機學(xué)科開(kāi)源的風(fēng)氣越來(lái)越好,可重復性問(wèn)題得到了很大的改善,但是,在為數不少的情況下,即使作者將源代碼和數據都發(fā)布在論文中,其他機器學(xué)習研究人員仍然很難復現其結果。
例如,去年4月3日,圖靈獎得主楊立昆(Yann LeCun)在其推特上公開(kāi)質(zhì)疑谷歌大腦的論文無(wú)法復現,而且表示即使是NLP的一些頂級研究人員也無(wú)法復現谷歌大腦的語(yǔ)言模型 Transformer-XL 所得到的結果。
其實(shí),同一問(wèn)題在不同的軟硬實(shí)驗條件下,兩個(gè)或三個(gè)研究小組得到相同研究結論,但與原作者差距較大的是常見(jiàn)的。另外,可能由于軟硬環(huán)境的升級,即使是同一作者不同時(shí)期實(shí)現的同一算法,算法的效果也會(huì )差別巨大,這是我在文獻檢索時(shí)親自經(jīng)歷的一件事。
個(gè)人認為,一般來(lái)說(shuō),造成深度學(xué)習難以復現的原因主要由算法水平和硬件水平兩方面導致:
● 從算法水平上講,比如論文作者可能會(huì )從多組不同的實(shí)驗環(huán)境中挑選出最好的結果,以達到最好的水平;或者使用一些技巧,例如,數據集的劃分、針對數據集來(lái)調整機器學(xué)習模型的參數、在一個(gè)較大的私有數據集進(jìn)行預訓練等等,以提升實(shí)驗結果。
● 從硬件水平上講,由于不同的CPU和不同的GPU計算能力的差異,在不同的硬件平臺上訓練不同類(lèi)型的深度網(wǎng)絡(luò )時(shí),不同的深度學(xué)習模型會(huì )有不同的特性和運行性能。一些研究人員與普通研究者相比,有著(zhù)難以匹敵的超級算力(超級計算、超大規模云計算等等)。
此外,由于金融、醫學(xué)、能源等領(lǐng)域有著(zhù)技術(shù)和數據隱私的特殊性,這些領(lǐng)域的深度學(xué)習算法的數據、代碼和模型大多是不能公開(kāi)的,是極度保密的。和有些公司合作的論文,有時(shí)公司要求技術(shù)的保密,不能公開(kāi)數據、代碼和模型。
綜上,目前的算法訓練技巧、軟硬件實(shí)驗環(huán)境和軟硬件實(shí)驗條件成為了深度學(xué)習模型的關(guān)鍵技術(shù)的一部分。由于知識產(chǎn)權和其他不得已的保密因素的影響,作者不愿分享和不能分享的現象也變得日益普遍,這就造成了一個(gè)難以復現、難以復用的深度學(xué)習困境。
最后,深度學(xué)習的不可解釋性也是造成目前困境的原因之一。從理論上,我們無(wú)法要求一個(gè)不可解釋性的模型總是給出一個(gè)可以解釋的結果。
客觀(guān)上,投機分子抓住了深度學(xué)習的這一特點(diǎn),一批人造假欺騙換取名利、一批人威逼恫嚇掠取成果,從正反兩個(gè)方面,殃及廣大無(wú)辜的科研工作者。
03 破局的可能之路——聯(lián)邦智能與聯(lián)邦生態(tài)
由于各方面原因造成的數據、代碼與模型的孤島問(wèn)題限制了深度學(xué)習模型的復現與應用;與此同時(shí),社會(huì )對于數據隱私保護與知識產(chǎn)權保護的愈加重視,相關(guān)監管措施逐步出臺,導致數據的收集與技術(shù)的分享變得更加困難。
面對當前深度學(xué)習的困境,一味地讓作者開(kāi)源并不能徹底地解決問(wèn)題。而且,數據的價(jià)值源于其孤島性,知識產(chǎn)權的價(jià)值在于其可保護性,那么有沒(méi)有更好的解決設想或者解決方案?
一方面,我們要大力發(fā)展開(kāi)源平臺和托管中心等現有手段,但是要改變這些組織間相互獨立、各自為營(yíng)的現狀。運用以以太坊DAO等為代表的加密管理技術(shù),將各個(gè)開(kāi)源與托管組織間的深度學(xué)習的數據、代碼與模型進(jìn)行協(xié)同管理,以協(xié)同發(fā)揮 “組織智能” 的優(yōu)勢,突破DNN、GNN等算法中心論思維。最終,上 “真道”,真就是可信,可靠、可用、良效(Effective and Efficient);道就是分布自主有序組織化, 形成人類(lèi)智能(Human Intelligence)、人工智能(Artificial Intelligence)、組織智能(Organizational Intelligence)相互協(xié)作的好(HAO)智能,以解決深度學(xué)習的困境。
另一方面,許多朋友都知道,我的希望是構建聯(lián)邦生態(tài)來(lái)解決這一問(wèn)題(詳見(jiàn)《聯(lián)邦生態(tài):從聯(lián)邦數據到聯(lián)邦智能》,智能科學(xué)與技術(shù)學(xué)報, 2020, vol.2,no.4, pp.305-313)。
我們設想的聯(lián)邦生態(tài)指在分布式的聯(lián)邦節點(diǎn)間,以基于區塊鏈的聯(lián)邦安全、聯(lián)邦共識、聯(lián)邦激勵、聯(lián)邦合約為支撐技術(shù),以聯(lián)邦數據、聯(lián)邦控制、聯(lián)邦服務(wù)、聯(lián)邦管理為核心內容的面向隱私保護和數據安全、技術(shù)和資源協(xié)同管理的統一整體。
聯(lián)邦生態(tài)以數據和算子交換時(shí)的隱私可控為前提,通過(guò)聯(lián)邦控制實(shí)現數據聯(lián)邦化,通過(guò)聯(lián)邦管理實(shí)現服務(wù)聯(lián)邦化,借助人工智能和大數據技術(shù)實(shí)現聯(lián)邦智能,驅動(dòng)整個(gè)產(chǎn)業(yè)和服務(wù)生態(tài)的創(chuàng )新和進(jìn)步。在一定程度上,聯(lián)邦學(xué)習為我們提供了一個(gè)初步的案例。
我希望聯(lián)邦智能與聯(lián)邦生態(tài)以及其他智能手段是破除深度學(xué)習困局的可能之道,推動(dòng)智能系統研發(fā)的更加深入與普及,使其早日具有廣泛造福于人類(lèi)社會(huì )的可靠性與合法性。
04 應對有理有節,絕不屈從
話(huà)說(shuō)回來(lái),在我們學(xué)術(shù)生活中,學(xué)術(shù)交流扮演著(zhù)極其重要的角色,我們必須捍衛其純正性。這種匿名逼問(wèn)、騷擾威脅的行為不但損害了學(xué)術(shù)交流,而且實(shí)際上是保護了真正的學(xué)術(shù)作弊行為。若是大行其道,那就沒(méi)有了正常的學(xué)術(shù)生活。為此,我們必須有禮有節、絕不屈從于這種行為!
面對這種匿名、污蔑、騷擾、威脅行為,我特地為實(shí)驗室暫時(shí)制定下了如下規則——無(wú)理由要源代碼和數據集的一律不回,多次發(fā)送并騷擾的,請直接拉黑發(fā)送方;郵件應該由通訊作者統一回復;其他作者收到關(guān)于自己文章的問(wèn)題的郵件告知對方,問(wèn)題應由通訊作者回答;通訊作者應該核對郵件發(fā)送方,確認是否匿名、是否是騷擾,是否是單位郵箱發(fā)送,若是學(xué)生,是否抄送其導師的單位郵箱,是否有脅迫威脅言論?通訊作者應根據上述情況進(jìn)行相應處理,并將結果上報實(shí)驗室。
希望這 “約法三章” 可以幫助我們的學(xué)生遠離匿名逼問(wèn)、騷擾威脅,回歸到正常的學(xué)術(shù)生活。
作者簡(jiǎn)介
王飛躍,中國科學(xué)院自動(dòng)化研究所研究員、博士生導師,復雜系統管理與控制國家重點(diǎn)實(shí)驗室主任。
小米應用商店發(fā)布消息稱(chēng) 持續開(kāi)展“APP 侵害用戶(hù)權益治理”系列行動(dòng) 11:37:04
騰訊云與CSIG成立政企業(yè)務(wù)線(xiàn) 加速數字技術(shù)在實(shí)體經(jīng)濟中的落地和應用 11:34:49
樂(lè )視回應還有400多人 期待新的朋友加入 11:29:25
亞馬遜表示 公司正在將其智能購物車(chē)擴展到馬薩諸塞州的一家全食店 10:18:04
三星在元宇宙平臺推出游戲 玩家可收集原材料制作三星產(chǎn)品 09:57:29
特斯拉加州San Mateo裁減229名員工 永久關(guān)閉該地區分公司 09:53:13