我們擅長(cháng)商業(yè)策略與用戶(hù)體驗的完美結合。
歡迎瀏覽我們的案例。
OpenAI研究員演示,強化微調后的o1 mini測試通過(guò)率甚至比正式版o1高24%,比未強化微調的o1 mini提高了82%。
OpenAI連續12天“王炸”的第二彈來(lái)了。不同于第一日聚焦人工智能(AI)模型,第二日的王炸專(zhuān)注于服務(wù)企業(yè)等組織的一款新功能,雖然看起來(lái)不太側重于普通消費者,但據介紹它甚至可以簡(jiǎn)易版推理模型o1 mini的效果超過(guò)本周四發(fā)布的正式版o1、即所謂滿(mǎn)血o1。
美東時(shí)間12月6日周五,OpenAI在社交媒體X公布第二日活動(dòng)的主題是新功能“強化微調”(Reinforcement Fine-Tuning)。這個(gè)主題是指,企業(yè)組織將能夠通過(guò)“強化微調”微調o1 mini,滿(mǎn)足他們的特定需求。
OpenAI的研究員稱(chēng),強化微調并不是單單教模型模型輸出,它的運作方式是,當模型發(fā)現一個(gè)問(wèn)題的時(shí)候,研究者給模型空間區仔細思考這個(gè)問(wèn)題,然后評估模型給出的最終解答,運用強化學(xué)習,研究者可以強化產(chǎn)生正確答案的思路,抑制產(chǎn)生錯誤答案的思路,只需要“幾十個(gè)例子”(a few dozen examples)、甚至12個(gè)例子,模型就能以有效的新方式學(xué)習特定領(lǐng)域的推理。
通過(guò)強化學(xué)習,用戶(hù)可以用大模型在特定數據上訓練其他模型。這對于涉及到大量數據的復雜領(lǐng)域或需要專(zhuān)家領(lǐng)域知識的新研究非常有用。研究者舉例稱(chēng),最近和湯森路透合作,運用強化微調微調o1 mini,讓充當法務(wù)助理,幫助他們的法律專(zhuān)業(yè)人士完成大部分分析工作流。
OpenAI稱(chēng),OpenAI的定制模型平臺將支持強化學(xué)習,強化學(xué)習也是OpenAI內部用于訓練自家前沿模型的技術(shù),如GPT-4o和o1系列模型。在OpenAi的內測中,強化微調已經(jīng)在生物化學(xué)、安全、法律和醫療保健領(lǐng)域取得成功。OpenAI計劃,2025年初讓強化微調面向公眾發(fā)布,目前已對企業(yè)、大學(xué)和研究院開(kāi)放申請測試通道。
伯克利大學(xué)罕見(jiàn)遺傳病研究員 Justin Reese參與了OpenAI本周五對o1 mini模型的現場(chǎng)演示。演示中,研究者試圖從樣本數據池中獲取可能導致疾病的模型 ID 基因。
研究員展示了一個(gè)評估表,下圖可見(jiàn),第一行是本周四OpenAI發(fā)布的正式版o1測評表現,第二行是o1 mini的測評結果 ,第三行結果來(lái)自經(jīng)過(guò)最終強化微調的o1 mini。研究員進(jìn)行了三類(lèi)評估,其中,top @1是測試模型給出的正確答案出現在列表最前列中的概率,top@5是正確答案出現在前五列的概率,top@max是答案出現在所有正確答案列表的概率。
如圖所示,正式版o1的測試通過(guò)率為25%,o1 mini為17%,而強化微調后的o1 mini竟然達到31%,超過(guò)了正式版o1,比正式版o1的測評結果高24%,而且相比未強化微調前,微調后的結果提高了82.3%?!?/p>
OpenAI王炸第二彈強化微調:12個(gè)例子搞定專(zhuān)業(yè)學(xué)習推理,Altman稱(chēng)為今年最大驚喜 09:59:33
OpenAI推出強化微調,CEO稱(chēng)是今年最大驚喜之一 09:57:10
2024年中國航天新亮點(diǎn) 衛星互聯(lián)網(wǎng)建造拉開(kāi)大幕 09:50:32
算力網(wǎng)絡(luò )為新興產(chǎn)業(yè)賦能增力 09:54:07
消息稱(chēng)榮耀平板 V9 本月發(fā)布,預計搭載天璣 8350 處理器 09:51:48
分析師稱(chēng)蘋(píng)果Home Hub或2025年底發(fā)布 自帶屏幕 09:45:22