欧美一级日韩一级|欧美亚洲国产精品久久高清|久久久久久久久网站|精品国产一区二区三区19|欧美性受xxxx狂喷水

Internet Develppment
互聯(lián)網(wǎng)開(kāi)發(fā)& 推廣服務(wù)提供商

我們擅長(cháng)商業(yè)策略與用戶(hù)體驗的完美結合。

歡迎瀏覽我們的案例。

首頁(yè) > 新聞中心 > 新聞動(dòng)態(tài) > 正文

Twitter已將部分源代碼正式開(kāi)源 包括在用戶(hù)時(shí)間線(xiàn)中推薦推文的算法

發(fā)布時(shí)間:2023-04-03 09:28:24來(lái)源:infoq


圖片來(lái)自網(wǎng)絡(luò )/侵刪
  馬斯克開(kāi)源 Twitter 推薦算法代碼

  3 月 31 日,正如馬斯克一再承諾的那樣,Twitter 已將其部分源代碼正式開(kāi)源,其中包括在用戶(hù)時(shí)間線(xiàn)中推薦推文的算法。目前,該項目在 GitHub 已收獲 10k+ 個(gè) Star。

  馬斯克在 Twitter 上表示此次發(fā)布的是“大部分推薦算法”,其余的算法也將陸續開(kāi)放。他還提到,希望“獨立的第三方能夠以合理的準確性確定 Twitter 可能向用戶(hù)展示的內容”。在關(guān)于算法發(fā)布的 Space 討論中,他說(shuō)此次開(kāi)源計劃是想讓 Twitter 成為“互聯(lián)網(wǎng)上最透明的系統”,并讓它像最知名也最成功的開(kāi)源項目 Linux 一樣健壯。“總體目標,就是讓繼續支持 Twitter 的用戶(hù)們最大程度享受這里。”

  Twitter 官網(wǎng)博客詳細介紹了算法在確定 For You 時(shí)間線(xiàn)所顯示的推文時(shí),會(huì )具體參考哪些內容并如何對其進(jìn)行排名和過(guò)濾。

  從博文來(lái)看,推薦管線(xiàn)由三個(gè)主要階段組成。

  首先,它會(huì )收集“來(lái)自不同推來(lái)源的最佳推文”,之后使用“機器學(xué)習模型”對各推文進(jìn)行排名。最后,它會(huì )過(guò)濾掉來(lái)自已屏蔽用戶(hù)的推文、已經(jīng)看過(guò)的推文或者在工作時(shí)間不宜觀(guān)看的內容,最后將結果顯示在時(shí)間線(xiàn)上。

  文中還進(jìn)一步對過(guò)程中的具體步驟做出解釋。

  例如,第一步大約會(huì )查看 1500 條推文,目標是讓 For You 時(shí)間線(xiàn)中約 50% 的推文來(lái)自已關(guān)注的用戶(hù)(即「人際網(wǎng)絡(luò )內」),50% 的推文來(lái)自“尚未關(guān)注的「人際網(wǎng)絡(luò )外」賬戶(hù)”。排名則“參與積極性進(jìn)行優(yōu)化(例如點(diǎn)贊、轉發(fā)和回復)”,最后一步則努力保證用戶(hù)不會(huì )看到同一個(gè)人的過(guò)多推文。

  誠然,代碼透明(用戶(hù)能夠看到系統到底在以怎樣的機制為時(shí)間線(xiàn)選擇推文)和代碼開(kāi)源(允許社區提交自己的代碼作為備選,也可在其他項目中使用 Twitter 算法)并不完全是一碼事。雖然馬斯克反復提到要開(kāi)源,但如果 Twitter 想要言而有信,就必須滿(mǎn)足后者的標準。換言之,Twitter 需要建立新的治理系統,決定批準哪些 PR、關(guān)注哪些用戶(hù)提出的問(wèn)題,以及如何阻止惡意人士出于個(gè)人目的而破壞代碼。

  目前來(lái)看,Twitter 正在為此而努力。GitHub 上的自述文件提到,“我們邀請社區在 GitHub 上提交問(wèn)題和 PR,為推薦算法的改進(jìn)提出建議。”但文件還寫(xiě)道,Twitter 仍在構建“用于建議管理并將變更同步至內部代碼倉庫的工具”。馬斯克領(lǐng)導下的 Twitter 曾經(jīng)做出過(guò)不少承諾,但并沒(méi)能堅持下來(lái),所以恐怕要到其實(shí)際接收社區代碼之后才能確定這是否屬實(shí)。

  馬斯克的開(kāi)源承諾

  此前,馬斯克曾多次表示將開(kāi)源 Twitter 算法。

  2022 年 3 月,馬斯克曾在 Twitter 發(fā)起一項調查,詢(xún)問(wèn)用戶(hù)對該平臺算法開(kāi)源的看法。他寫(xiě)到:“我擔心 Twitter 算法中實(shí)際存在的偏見(jiàn)會(huì )產(chǎn)生重大影響,我們怎么知道背后到底發(fā)生了什么?”馬斯克認為,我們對 Twitter 這個(gè)公共平臺的信任程度越高,文明的風(fēng)險就越小。

  2022 年 5 月,馬斯克曾與 Twitter 聯(lián)合創(chuàng )始人兼前 CEO Jack Dorsey 就該平臺的算法問(wèn)題發(fā)生過(guò)爭執。馬斯克表示,“算法正在以你們意識不到的方式操縱你們……我不是說(shuō)算法有惡意,但它的確在猜測你想看什么內容,這樣就會(huì )無(wú)意間操縱/放大你的觀(guān)點(diǎn),而你卻完全沒(méi)有意識到正在發(fā)生什么。”

  2022 年 10 月接管 Twitter 后,馬斯克關(guān)于開(kāi)源 Twitter 算法的想法也沒(méi)有發(fā)生改變。

  2023 年 2 月 21 日,馬斯克稱(chēng)將于下周對 Twitter 算法進(jìn)行開(kāi)源。當時(shí)一位 Twitter 用戶(hù)表示,如果 Twitter 能夠開(kāi)源算法,他們將會(huì )“真心折服”。馬斯克回應道:“當我們下周開(kāi)源算法時(shí),一開(kāi)始請做好失望的準備,但之后將會(huì )快速改善。”

  不過(guò)遺憾的是,馬斯克并未兌現“下周開(kāi)源”的承諾。直到 3 月 18 日,馬斯克再次發(fā)聲:“Twitter 將于 3 月 31 日開(kāi)源所有用于推文推薦的代碼。”

  馬斯克表示:“我們的‘算法’過(guò)于復雜且內部未完全理解。人們會(huì )發(fā)現很多愚蠢的事情,但我們會(huì )在發(fā)現問(wèn)題后立即修補。我們正在開(kāi)發(fā)一種簡(jiǎn)化的方法來(lái)提供更具吸引力的推文,但這項工作仍在進(jìn)行中,這也將是開(kāi)源的。提供代碼透明度一開(kāi)始可能會(huì )令人尷尬,但它應該會(huì )讓推薦質(zhì)量快速提高。最重要的是,我們希望贏(yíng)得您的信任。”

  不過(guò)尷尬的是,據美聯(lián)社當地時(shí)間 3 月 26 日報道,一份法律文件顯示,推特公司的部分源代碼遭泄露,被發(fā)布在開(kāi)源編程及代碼托管網(wǎng)站 GitHub 上。為防止該事件對其服務(wù)產(chǎn)生潛在的破壞性損失,Twitter 已經(jīng)采取了法律行動(dòng),GitHub 遵從通知并刪除了被泄露的代碼。

  DMCA 通知顯示,這次泄露的源代碼是 Twitter 平臺和內部工具的私有源代碼,嚴重侵犯了 Twitter 的版權。具體的倉庫地址是:https://github.com/FreeSpeechEnthusiast/PublicSpace。該帳號的名字 “FreeSpeechEnthusiast”,這顯然是對馬斯克的攻擊,畢竟他曾自稱(chēng) “言論自由絕對主義者”。

  現在,馬斯克終于如愿開(kāi)源 Twitter 算法,但他的決斷也面臨著(zhù)強烈的反對之聲。用戶(hù)們對自己 For You 頁(yè)面中經(jīng)常顯示馬斯克的推文表示不滿(mǎn),而馬斯克的支持者們則擔心自己在社區中的參與度正在降低。他辯解稱(chēng),新的推薦算法希望“最大限度削減”負面和仇恨內容,但之前無(wú)法訪(fǎng)問(wèn)這些代碼的外部分析師對這種說(shuō)法并不買(mǎi)賬。

  此外,Twitter 還可能面臨來(lái)自開(kāi)源社區的競爭壓力。Mastodon 是一個(gè)去中心化社交網(wǎng)絡(luò ),目前在特定圈子里正越來(lái)越受歡迎。Twitte r 公司聯(lián)合創(chuàng )始人 Jack Dorsey 則正在支持另一個(gè)名為 Bluesky 的類(lèi)似開(kāi)源項目。

  Twitter 推薦算法的底層工作機制

  像 Twitter 這樣復雜的系統,開(kāi)源算法并非易事。開(kāi)源作者 Travis Fischer 曾在一篇文章中分析道,Twitter 的推薦算法是由一個(gè)個(gè)性化推薦系統提供的,用于預測用戶(hù)最有可能與哪些推文和用戶(hù)互動(dòng)。關(guān)于這個(gè)推薦系統,最重要的兩部分是:

  用來(lái)訓練 ML 模型的基礎數據,即 Twitter 的大規模專(zhuān)有網(wǎng)絡(luò )圖;

  在確定相關(guān)性時(shí)考慮的排名信息。

  大規模專(zhuān)有網(wǎng)絡(luò )圖

  像 Twitter 這樣的社交網(wǎng)絡(luò )就是超大圖的實(shí)例,節點(diǎn)是用戶(hù)和推文的模型,邊則是回復、轉發(fā)和喜歡等互動(dòng)的模型。

  Twitter 動(dòng)態(tài)網(wǎng)絡(luò )圖的可視化,作者是 Michael Bronstein,來(lái)自 Twitter 的 Graph ML 部門(mén)(2020)。

  Twitter 的核心商業(yè)價(jià)值有很大一部分來(lái)自于這個(gè)龐大的由用戶(hù)、推文和互動(dòng)構成的基礎數據集。用戶(hù)登錄、查看推文、點(diǎn)擊推文、查看用戶(hù)資料、發(fā)布推文、回復推文等,在 Twitter 上的每一次互動(dòng)都會(huì )被記錄到內部數據庫。

  從 Twitter 的公共 API 獲得的數據只是 Twitter 內部跟蹤數據中的一小部分。這一點(diǎn)很重要,因為 Twitter 的內部推薦算法可以獲得所有這些豐富的互動(dòng)數據,而任何開(kāi)源工作都可能僅能使用一個(gè)有限的數據集。

  排名信息

  2017 年,Twitter 的研究人員曾在一篇名為《在 Twitter 時(shí)間線(xiàn)上使用大規模深度學(xué)習》的文章中提到,為了預測某條推文是否會(huì )吸引用戶(hù),Twitter 的模型考慮了以下幾個(gè)要點(diǎn):

  推文本身:它的新近度,存在的媒體卡(圖像或視頻),總互動(dòng)數(如轉發(fā)和喜歡的數量)。

  推文作者:用戶(hù)過(guò)去與這個(gè)作者的互動(dòng),用戶(hù)與他們聯(lián)系的強度,用戶(hù)關(guān)系的起源。

  用戶(hù):用戶(hù)在過(guò)去覺(jué)得有吸引力的推文,用戶(hù)使用推特的頻率和程度。研究人員表示,“我們考慮的特征及其各種互動(dòng)的清單在不斷增加,為我們的模型提供了更多存在細微差別的行為模式。”

  這些 2017 年的排名信息描述可能有點(diǎn)過(guò)時(shí),但這些核心信息在今天仍然與 Twitter 高度相關(guān)。因為這份清單很可能已經(jīng)推廣到幾十甚至幾百個(gè)重點(diǎn)機器學(xué)習模型,它們支撐著(zhù) Twitter 的算法。

  一個(gè)深度學(xué)習模型的可視化,用于確定一個(gè)用戶(hù)在未來(lái)關(guān)注另一個(gè)用戶(hù)的可能性。這個(gè)模型代表了 Twitter 內部各種推薦系統的一小部分。

  Travis Fischer 認為,將 Twitter 推薦算法開(kāi)源難免會(huì )遇到一些重大的工程挑戰。

  比如,Twitter 的網(wǎng)絡(luò )圖非常龐大,包含數以?xún)|計的節點(diǎn)和數十億的邊。Twitter 的實(shí)時(shí)性帶來(lái)了另一個(gè)獨特的挑戰:用戶(hù)希望 Twitter 盡可能地接近實(shí)時(shí),這意味著(zhù)底層網(wǎng)絡(luò )圖是高度動(dòng)態(tài)的,延遲成為一個(gè)真實(shí)的用戶(hù)體驗問(wèn)題。此外,還有可靠性、安全與隱私方面的挑戰。

  但無(wú)論如何,馬斯克還是兌現了他的開(kāi)源承諾,Twitter 推薦算法開(kāi)源也標志著(zhù),這類(lèi)平臺的透明度正在邁出關(guān)鍵一步。
 ?。?a href="http://www.chemdevice.net">碼上科技)

最新資訊
? 2018 河北碼上網(wǎng)絡(luò )科技有限公司 版權所有 冀ICP備18021892號-1   
? 2018 河北碼上科技有限公司 版權所有.
欧美一级日韩一级|欧美亚洲国产精品久久高清|久久久久久久久网站|精品国产一区二区三区19|欧美性受xxxx狂喷水