很可惜 T 。T 您現(xiàn)在還不是作者身份,不能自主發(fā)稿哦~
如有投稿需求,請把文章發(fā)送到郵箱tougao@appcpx.com,一經錄用會有專人和您聯(lián)系
咨詢如何成為春羽作者請聯(lián)系:鳥哥筆記小羽毛(ngbjxym)
來源:親愛的數(shù)據
大模型火了,大模型的套路也火了。
套路一:
但凡有點科技含量的公司,
沒個大模型都對不起“市值”和“估值”。
面子誰不要?
那用開源。
套路二:
說早有布局,
卻無論文,
無數(shù)據,
無“卡”,
無歷史進展,
套路三:
為了“大”而“大”。
譚老師我和騰訊AI科學家深聊:
廣義線性模型的時代,騰訊廣告也曾追求過參數(shù)量大。
然而,這種模型學習能力很一般。
如果只是模型的參數(shù)總量高,參與計算的參數(shù)量卻很少,
這樣的“大模型”,沒意思。
騰訊在AI這塊不算“激進派”,但大模型沒玩套路。
騰訊廣告將兩個大模型用到了廣告業(yè)務。
參數(shù)都是千億級別。
既然是兩個,分工多說兩句。
廣告大模型提升了廣告系統(tǒng)的運算能力,
騰訊混元大模型提升了廣告系統(tǒng)的理解和生成能力。
我們先聊廣告大模型,再聊混元大模型。
先聊聊,廣告競爭的本質。
從“從前”講起,
百貨商店櫥窗里的塑料假人,是展示,也是廣告。
后來,美國人研究如何用計算的方法求解廣告中的各類問題。
將一部分的計算策略交給機器學習。
早期,廣告對機器學習模型的要求,哪怕能力弱一點,算得快一點就可以了。
比如,給一條男士沖浪花褲衩打個廣告。
廣告系統(tǒng)有三層:
召回,粗排,精排。
每層邊選,邊匹配。
廣告系統(tǒng)里的模型,有些像漏斗。
先粗排,
模型發(fā)現(xiàn):這條花褲衩男的喜歡,女的無感。
再精排,
模型發(fā)現(xiàn)花褲權不是所有男性都喜歡,顏色騷氣,
大約20歲左右的精神小伙喜歡。
模型必須做到越往下,越匹配,
還為廣告主節(jié)約廣告費。
匹配這個動詞很重要。
譚老師也想把漫畫“匹配”給喜歡自己作品的讀者,
性格不合的那種,確認不了眼神。
拿譚老師常看的視頻號來說,
廣告系統(tǒng)會猜我對視頻的興趣,從而推薦視頻,
猜我對商品的興趣,從而展示廣告。
手機下滑一下,
大約9毫秒,
就得猜到這個瞬間我最有可能的喜好。
這里的猜,就是計算。
模型抓規(guī)律很擅長,頭部規(guī)律好抓,長尾則很麻煩。
偏偏騰訊廣告有很多長尾問題。
偏偏用戶數(shù)量大,
偏偏廣告數(shù)量大。
而且廣告匹配的要求是,不僅要準,還要快。
一句“商機轉瞬即逝”,放在這里非常合適。
譚老師剛買一支手機,
廣告出手慢了,買前沒看到,買后不想看。
“商機轉瞬即逝”,慢了,就輸了。
這就是廣告競爭的本質。
2014年,騰訊廣告平臺實時在線技術完成。
2015年,深度學習技術完成。
這兩個“完成”,都指的是全量上線。
在大模型技術爆發(fā)前的世代里,
沒有什么比騰訊廣告在2016年“實時在線學習+深度學習”全量上線完成更重要了。
團隊的結論是:
廣告平臺應該是在更大范圍的產品線,
在更長的數(shù)據鏈路上,全面釋放模型的威力,
模型做大,不是目的,而是手段。
于是,把模型往大了做。
于是,數(shù)據鏈路拉長。
2020年前后,質變發(fā)生了,騰訊廣告整個技術思路的轉變了。
在騰訊公司副總裁蔣杰的帶領下,團隊看清了技術方向,
前浪大儲備,后浪打硬仗。
狂飆技術,不是自嗨,而是商業(yè)需求。
技術朝著有需求的方向推進,終于抵達“大模型界碑”。
2021年10月,發(fā)起技術攻堅,
(騰訊員工的說法是:
作為內部發(fā)起的革新型項目,
對內稱呼為“下一代廣告系統(tǒng)”。)
項目包括廣告大模型,混元大模型,
一共集結了800余名跨BG團隊的同學。
毫無疑問,誰能打破技術難度的瓶頸,誰就是頭部科技企業(yè),
再加一個條件,越早越好。
繕甲厲兵,酣戰(zhàn)颯然,黃龍痛飲。
勁射火力點。
干得行不行,看看指標吧。
全套指標涉及商業(yè)機密,我們抽取其中一個技術指標:
“大規(guī)模技術突破之前,精排時延的閾值是70毫秒,突破之后拉到200毫秒,將近3倍左右。”
給廣告系統(tǒng)配套大模型,底層軟件也是另一境界的考驗。
訓練這么大的模型,存儲,計算,通訊翻倍,甚至量級的提升,這塊工程團隊下了很大力氣。
為了做好底層工作,甚至把部分關鍵架構重新寫了一遍。
把以前好的想法融合進去,大幅增強它的伸縮性、容錯能力,支持千億大模型訓練。
這一把,中國科技公司將大規(guī)模工程技術做到極致。
方案依然還是這么一個方案,只不過模型規(guī)模,整個系統(tǒng)能力等等,不可同日而語了。
騰訊公司副總裁蔣杰帶領騰訊廣告團隊,制定出一套自上而下,全局最優(yōu)的推進路徑,將多個技術團隊與業(yè)務協(xié)同,帶隊完成了下一代廣告系統(tǒng)建設。
廣告大模型怎么用?
將資源聚焦于精排,排序能力更好,點擊率與轉化率絕對值估準。
精排預估準,提升全鏈的運算推薦效率。
廣告大模型能為廣告主提供什么“特殊服務”?
因為廣告系統(tǒng)的運算能力可以支撐多個小模型同時運行,所以,廣告主可以在系統(tǒng)上與騰訊廣告再共建小模型,做出更多從廣告主業(yè)務出發(fā)的推薦匹配,提升匹配效率。
有的人,練了屠龍術,結果發(fā)現(xiàn)沒有龍。
騰訊廣告系統(tǒng)“有龍”,所以“屠龍”,
且練成兩大屠龍術:
廣告大模型和混元大模型。
廣告的復雜環(huán)境,也讓騰訊混元得到充分打磨。
團隊內部對騰訊混元大模型不斷自審式發(fā)問:
第一重難關:如何把技術搞出來。
第二重難關:這是真實業(yè)務場景所需要的技術嗎?如何落地?
巧不巧,騰訊混元是多模態(tài)的,騰訊廣告內容天然也是多模態(tài)的。
在這個巧合的背后,騰訊混元從出生開始,就是為“用在哪里”設計的,而不是“套路”。
廣告內容是什么?
是廣告標題、文字、圖片、視頻等。
簡單說,騰訊混元先做“億點”廣告內容的閱讀理解,做完,再將“答案”喂給廣告大模型。
據譚老師觀察,
以廣告大模型提升廣告和用戶的匹配準確率,
以騰訊混元大模型理解、生成廣告內容,包括素材和創(chuàng)意。
小道消息,騰訊混元已經將這項生成能力,用于廣告投放前的準備階段:
“素材創(chuàng)作”“商品合成”“游戲出圖”。
(學霸選讀)
雖然廣告大模型已經很大了(有千億參數(shù)),想用一個大模型把所有的場景都學好,沒有那么容易。
騰訊廣告大模型核心負責人薛偉博士告訴我,
比如,模型會產生場景之間的負面影響“我學不好,你也甭想學好”。
這種現(xiàn)象叫“負遷移”。廣告大模型中,薛偉博士用到了“公共塔”技術。
公共塔,樣子像塔,其實是大模型內部獨立子網絡。
廣告模型大,內部子網絡豐富,還有商品(Item)塔,用戶(User)塔。這類子網絡專門學習特征的共性,降低場景之間的干擾。
不同場景參數(shù)不同,推薦汽車,不能把推薦手機的參數(shù)也算一遍。
大模型的出現(xiàn),讓算法設計空間變大,讓設計的余地更大,有機會用算法的思想充分釋放大模型的價值。
好馬配好鞍,
好產品配好廣告。
1997年,蘋果手機“非同凡想”廣告里面有這樣一句話:
那些瘋狂到以為自己能夠改變世界的人呢,才能真正改變世界。
要我說,這樣爽感的廣告,再多來幾個。
(完)
本文為作者獨立觀點,不代表鳥哥筆記立場,未經允許不得轉載。
《鳥哥筆記版權及免責申明》 如對文章、圖片、字體等版權有疑問,請點擊 反饋舉報
我們致力于提供一個高質量內容的交流平臺。為落實國家互聯(lián)網信息辦公室“依法管網、依法辦網、依法上網”的要求,為完善跟帖評論自律管理,為了保護用戶創(chuàng)造的內容、維護開放、真實、專業(yè)的平臺氛圍,我們團隊將依據本公約中的條款對注冊用戶和發(fā)布在本平臺的內容進行管理。平臺鼓勵用戶創(chuàng)作、發(fā)布優(yōu)質內容,同時也將采取必要措施管理違法、侵權或有其他不良影響的網絡信息。
一、根據《網絡信息內容生態(tài)治理規(guī)定》《中華人民共和國未成年人保護法》等法律法規(guī),對以下違法、不良信息或存在危害的行為進行處理。
1. 違反法律法規(guī)的信息,主要表現(xiàn)為:
1)反對憲法所確定的基本原則;
2)危害國家安全,泄露國家秘密,顛覆國家政權,破壞國家統(tǒng)一,損害國家榮譽和利益;
3)侮辱、濫用英烈形象,歪曲、丑化、褻瀆、否定英雄烈士事跡和精神,以侮辱、誹謗或者其他方式侵害英雄烈士的姓名、肖像、名譽、榮譽;
4)宣揚恐怖主義、極端主義或者煽動實施恐怖活動、極端主義活動;
5)煽動民族仇恨、民族歧視,破壞民族團結;
6)破壞國家宗教政策,宣揚邪教和封建迷信;
7)散布謠言,擾亂社會秩序,破壞社會穩(wěn)定;
8)宣揚淫穢、色情、賭博、暴力、兇殺、恐怖或者教唆犯罪;
9)煽動非法集會、結社、游行、示威、聚眾擾亂社會秩序;
10)侮辱或者誹謗他人,侵害他人名譽、隱私和其他合法權益;
11)通過網絡以文字、圖片、音視頻等形式,對未成年人實施侮辱、誹謗、威脅或者惡意損害未成年人形象進行網絡欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法規(guī)禁止的其他內容;
2. 不友善:不尊重用戶及其所貢獻內容的信息或行為。主要表現(xiàn)為:
1)輕蔑:貶低、輕視他人及其勞動成果;
2)誹謗:捏造、散布虛假事實,損害他人名譽;
3)嘲諷:以比喻、夸張、侮辱性的手法對他人或其行為進行揭露或描述,以此來激怒他人;
4)挑釁:以不友好的方式激怒他人,意圖使對方對自己的言論作出回應,蓄意制造事端;
5)羞辱:貶低他人的能力、行為、生理或身份特征,讓對方難堪;
6)謾罵:以不文明的語言對他人進行負面評價;
7)歧視:煽動人群歧視、地域歧視等,針對他人的民族、種族、宗教、性取向、性別、年齡、地域、生理特征等身份或者歸類的攻擊;
8)威脅:許諾以不良的后果來迫使他人服從自己的意志;
3. 發(fā)布垃圾廣告信息:以推廣曝光為目的,發(fā)布影響用戶體驗、擾亂本網站秩序的內容,或進行相關行為。主要表現(xiàn)為:
1)多次發(fā)布包含售賣產品、提供服務、宣傳推廣內容的垃圾廣告。包括但不限于以下幾種形式:
2)單個帳號多次發(fā)布包含垃圾廣告的內容;
3)多個廣告帳號互相配合發(fā)布、傳播包含垃圾廣告的內容;
4)多次發(fā)布包含欺騙性外鏈的內容,如未注明的淘寶客鏈接、跳轉網站等,誘騙用戶點擊鏈接
5)發(fā)布大量包含推廣鏈接、產品、品牌等內容獲取搜索引擎中的不正當曝光;
6)購買或出售帳號之間虛假地互動,發(fā)布干擾網站秩序的推廣內容及相關交易。
7)發(fā)布包含欺騙性的惡意營銷內容,如通過偽造經歷、冒充他人等方式進行惡意營銷;
8)使用特殊符號、圖片等方式規(guī)避垃圾廣告內容審核的廣告內容。
4. 色情低俗信息,主要表現(xiàn)為:
1)包含自己或他人性經驗的細節(jié)描述或露骨的感受描述;
2)涉及色情段子、兩性笑話的低俗內容;
3)配圖、頭圖中包含庸俗或挑逗性圖片的內容;
4)帶有性暗示、性挑逗等易使人產生性聯(lián)想;
5)展現(xiàn)血腥、驚悚、殘忍等致人身心不適;
6)炒作緋聞、丑聞、劣跡等;
7)宣揚低俗、庸俗、媚俗內容。
5. 不實信息,主要表現(xiàn)為:
1)可能存在事實性錯誤或者造謠等內容;
2)存在事實夸大、偽造虛假經歷等誤導他人的內容;
3)偽造身份、冒充他人,通過頭像、用戶名等個人信息暗示自己具有特定身份,或與特定機構或個人存在關聯(lián)。
6. 傳播封建迷信,主要表現(xiàn)為:
1)找人算命、測字、占卜、解夢、化解厄運、使用迷信方式治??;
2)求推薦算命看相大師;
3)針對具體風水等問題進行求助或咨詢;
4)問自己或他人的八字、六爻、星盤、手相、面相、五行缺失,包括通過占卜方法問婚姻、前程、運勢,東西寵物丟了能不能找回、取名改名等;
7. 文章標題黨,主要表現(xiàn)為:
1)以各種夸張、獵奇、不合常理的表現(xiàn)手法等行為來誘導用戶;
2)內容與標題之間存在嚴重不實或者原意扭曲;
3)使用夸張標題,內容與標題嚴重不符的。
8.「飯圈」亂象行為,主要表現(xiàn)為:
1)誘導未成年人應援集資、高額消費、投票打榜
2)粉絲互撕謾罵、拉踩引戰(zhàn)、造謠攻擊、人肉搜索、侵犯隱私
3)鼓動「飯圈」粉絲攀比炫富、奢靡享樂等行為
4)以號召粉絲、雇用網絡水軍、「養(yǎng)號」形式刷量控評等行為
5)通過「蹭熱點」、制造話題等形式干擾輿論,影響傳播秩序
9. 其他危害行為或內容,主要表現(xiàn)為:
1)可能引發(fā)未成年人模仿不安全行為和違反社會公德行為、誘導未成年人不良嗜好影響未成年人身心健康的;
2)不當評述自然災害、重大事故等災難的;
3)美化、粉飾侵略戰(zhàn)爭行為的;
4)法律、行政法規(guī)禁止,或可能對網絡生態(tài)造成不良影響的其他內容。
二、違規(guī)處罰
本網站通過主動發(fā)現(xiàn)和接受用戶舉報兩種方式收集違規(guī)行為信息。所有有意的降低內容質量、傷害平臺氛圍及欺凌未成年人或危害未成年人身心健康的行為都是不能容忍的。
當一個用戶發(fā)布違規(guī)內容時,本網站將依據相關用戶違規(guī)情節(jié)嚴重程度,對帳號進行禁言 1 天、7 天、15 天直至永久禁言或封停賬號的處罰。當涉及欺凌未成年人、危害未成年人身心健康、通過作弊手段注冊、使用帳號,或者濫用多個帳號發(fā)布違規(guī)內容時,本網站將加重處罰。
三、申訴
隨著平臺管理經驗的不斷豐富,本網站出于維護本網站氛圍和秩序的目的,將不斷完善本公約。
如果本網站用戶對本網站基于本公約規(guī)定做出的處理有異議,可以通過「建議反饋」功能向本網站進行反饋。
(規(guī)則的最終解釋權歸屬本網站所有)