摘 要
數(shù)據(jù)對(duì)人工智能的開發(fā)應(yīng)用具有至關(guān)重要的作用,這已成為工業(yè)界和學(xué)術(shù)界的共識(shí)。基于人工智能與數(shù)據(jù)的互動(dòng)關(guān)系,以及以數(shù)據(jù)為中心的開發(fā)實(shí)踐,提出面向人工智能的數(shù)據(jù)治理框架,包含源數(shù)據(jù)治理、預(yù)訓(xùn)練數(shù)據(jù)治理、評(píng)測(cè)數(shù)據(jù)治理、微調(diào)數(shù)據(jù)治理、推理數(shù)據(jù)治理和運(yùn)維數(shù)據(jù)治理6個(gè)方面,每個(gè)方面都有其重點(diǎn)任務(wù)和技術(shù)。同時(shí),深入分析ChatGPT、Ziya2和能源領(lǐng)域部分人工智能模型的數(shù)據(jù)治理案例和成功經(jīng)驗(yàn),以驗(yàn)證該框架的有效性。結(jié)果表明,該框架在提高人工智能模型性能、優(yōu)化數(shù)據(jù)管理流程等方面具有積極作用,對(duì)面向人工智能的數(shù)據(jù)治理的理論和技術(shù)創(chuàng)新具有參考價(jià)值。
關(guān)鍵詞
人工智能;源數(shù)據(jù)治理;預(yù)訓(xùn)練數(shù)據(jù)治理;評(píng)測(cè)數(shù)據(jù)治理;微調(diào)數(shù)據(jù)治理;推理數(shù)據(jù)治理;運(yùn)維數(shù)據(jù)治理
引言
在1956年達(dá)特茅斯會(huì)議上,人工智能(artificial intelligence,AI)作為獨(dú)立研究領(lǐng)域被提出,其后經(jīng)歷了多個(gè)發(fā)展階段,包括早期的探索期、研究的低谷期以及近年來的快速發(fā)展期。AI是一個(gè)多維度、跨學(xué)科的研究領(lǐng)域,旨在通過計(jì)算機(jī)科學(xué)和工程學(xué)的方法模擬、延伸和擴(kuò)展人類的智能。從廣義上講,AI使用計(jì)算機(jī)系統(tǒng)來執(zhí)行部分需要人類智能的任務(wù),如視覺感知、語言理解、決策制定和翻譯,其應(yīng)用范圍非常廣泛,包括但不限于專家系統(tǒng)、自然語言處理、機(jī)器學(xué)習(xí)、模式識(shí)別、人工神經(jīng)網(wǎng)絡(luò)等,這些技術(shù)被應(yīng)用于工業(yè)、醫(yī)療、金融、安防等多個(gè)領(lǐng)域,極大地提高了人們的工作效率和生活質(zhì)量。
AI的發(fā)展依賴于多種技術(shù)和要素,包括基礎(chǔ)理論和算法、存儲(chǔ)、計(jì)算、通信、數(shù)據(jù)以及相關(guān)軟硬件的協(xié)同優(yōu)化等。其中,大規(guī)模、高質(zhì)量的數(shù)據(jù)是AI系統(tǒng)的基礎(chǔ),有效的數(shù)據(jù)收集、處理、分析等治理技術(shù)對(duì)于AI系統(tǒng)至關(guān)重要,直接影響著AI系統(tǒng)的性能。AI系統(tǒng)的開發(fā)應(yīng)用離不開數(shù)據(jù)治理,從理論和實(shí)踐的角度,面向AI的數(shù)據(jù)治理技術(shù)框架值得深入研究和探討。
1 面向AI數(shù)據(jù)治理的理論分析
1.1 數(shù)據(jù)治理與AI發(fā)展的關(guān)系
數(shù)據(jù)治理是一套組織策略和實(shí)踐,通過制定和實(shí)施一系列政策、標(biāo)準(zhǔn)、責(zé)任和流程來管理、使用和保護(hù)數(shù)據(jù),以保證數(shù)據(jù)的準(zhǔn)確性、完整性、可用性、安全性、合規(guī)性,核心目標(biāo)是提高數(shù)據(jù)質(zhì)量。
AI的發(fā)展與數(shù)據(jù)治理密切相關(guān),良好的數(shù)據(jù)治理是AI發(fā)展的前提條件,而AI技術(shù)的應(yīng)用進(jìn)一步提高了數(shù)據(jù)治理的能力和效率。數(shù)據(jù)治理通過數(shù)據(jù)清洗、去重和標(biāo)準(zhǔn)化等手段提高數(shù)據(jù)質(zhì)量,高質(zhì)量的數(shù)據(jù)可以顯著提升AI模型的性能和可靠性。此外,數(shù)據(jù)治理需確保數(shù)據(jù)處理過程符合法律法規(guī),保護(hù)個(gè)人隱私數(shù)據(jù),這對(duì)于建立大眾對(duì)AI系統(tǒng)的信任至關(guān)重要。AI技術(shù)在數(shù)據(jù)治理中發(fā)揮著越來越重要的作用,它不僅提升了數(shù)據(jù)處理的效率和質(zhì)量,還增強(qiáng)了數(shù)據(jù)的安全性和合規(guī)性,推動(dòng)數(shù)據(jù)治理向智能化和自動(dòng)化方向發(fā)展。例如,AI系統(tǒng)能夠自動(dòng)化地進(jìn)行數(shù)據(jù)收集、清洗、轉(zhuǎn)換和集成等步驟,顯著提高數(shù)據(jù)治理的效率和準(zhǔn)確性;AI可用于數(shù)據(jù)加密存儲(chǔ)和傳輸、訪問控制等,提升了數(shù)據(jù)的安全性,同時(shí)AI還能自動(dòng)識(shí)別和處理潛在的安全威脅,保障數(shù)據(jù)免受攻擊。
1.2 面向AI進(jìn)行數(shù)據(jù)治理的必要性
數(shù)據(jù)是AI發(fā)展的核心要素和關(guān)鍵基礎(chǔ)。隨著AI技術(shù)的不斷進(jìn)步,對(duì)數(shù)據(jù)的需求量和質(zhì)量要求也在不斷提高。因此,建立有效的數(shù)據(jù)治理框架,確保數(shù)據(jù)的準(zhǔn)確性、完整性和安全性,是推動(dòng)AI發(fā)展的基礎(chǔ)。合理的數(shù)據(jù)治理可實(shí)現(xiàn)數(shù)據(jù)的共享和復(fù)用,充分挖掘數(shù)據(jù)價(jià)值和提高數(shù)據(jù)利用效率,從而降低AI系統(tǒng)的開發(fā)和運(yùn)營(yíng)成本,推動(dòng)AI技術(shù)和產(chǎn)業(yè)健康發(fā)展。數(shù)據(jù)治理有助于提高AI系統(tǒng)的可信度、可靠性和安全性。規(guī)范數(shù)據(jù)的采集、存儲(chǔ)和使用過程,可以減少數(shù)據(jù)偏差和數(shù)據(jù)錯(cuò)誤,從而提高AI系統(tǒng)的決策準(zhǔn)確性和穩(wěn)定性。隨著AI技術(shù)的廣泛應(yīng)用,個(gè)人數(shù)據(jù)的采集和使用越來越普遍,建立完善的數(shù)據(jù)治理體系、加強(qiáng)數(shù)據(jù)安全和隱私保護(hù),有助于建立大眾對(duì)AI的信任。
1.3 面向AI進(jìn)行數(shù)據(jù)治理的理論邏輯
AI系統(tǒng)的全生命周期主要包括系統(tǒng)規(guī)劃與需求分析、預(yù)訓(xùn)練、評(píng)測(cè)、微調(diào)、部署與推理、維護(hù)與退役6個(gè)階段。數(shù)據(jù)治理貫穿AI系統(tǒng)的整個(gè)生命周期,從系統(tǒng)規(guī)劃到退役,每個(gè)階段都有特定的數(shù)據(jù)治理任務(wù),以確保數(shù)據(jù)的質(zhì)量、安全和合規(guī)性,為AI系統(tǒng)的開發(fā)應(yīng)用提供基礎(chǔ)支撐(AI系統(tǒng)與數(shù)據(jù)治理全生命周期各階段的對(duì)應(yīng)關(guān)系見表1)。
表1 AI系統(tǒng)與數(shù)據(jù)治理的生命周期對(duì)應(yīng)關(guān)系

在AI系統(tǒng)的規(guī)劃與需求分析階段,確定AI系統(tǒng)的目標(biāo)、范圍和需求(包括數(shù)據(jù)需求、功能需求和性能需求),需對(duì)源數(shù)據(jù)進(jìn)行治理。數(shù)據(jù)治理包括確定數(shù)據(jù)需求、數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)和數(shù)據(jù)安全要求。該階段需要對(duì)數(shù)據(jù)源進(jìn)行評(píng)估,確保其可靠性、多樣性和相關(guān)性。
在AI系統(tǒng)的預(yù)訓(xùn)練階段,準(zhǔn)備和處理數(shù)據(jù),選擇合適的算法和模型,進(jìn)行模型的訓(xùn)練和優(yōu)化,以達(dá)到預(yù)期的性能指標(biāo),需對(duì)預(yù)訓(xùn)練數(shù)據(jù)進(jìn)行治理,治理的重點(diǎn)是對(duì)數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換和增強(qiáng),以滿足模型訓(xùn)練的要求。這包括處理缺失值、異常值和噪聲數(shù)據(jù),以及進(jìn)行特征選擇等。
在AI系統(tǒng)的評(píng)測(cè)階段,對(duì)訓(xùn)練好的模型進(jìn)行評(píng)估(包括性能測(cè)試、泛化能力和魯棒性測(cè)試),以及進(jìn)行必要的調(diào)整和優(yōu)化。為持續(xù)提升AI系統(tǒng)性能、避免出現(xiàn)預(yù)訓(xùn)練數(shù)據(jù)被污染(即評(píng)測(cè)數(shù)據(jù)被包含在預(yù)訓(xùn)練數(shù)據(jù)集中,從而影響模型評(píng)估結(jié)果)等情況,AI系統(tǒng)的評(píng)測(cè)數(shù)據(jù)不能一成不變,需要適應(yīng)AI系統(tǒng)性能的提升、工程應(yīng)用場(chǎng)景的拓展、預(yù)訓(xùn)練數(shù)據(jù)的變化等情況。需對(duì)評(píng)測(cè)數(shù)據(jù)的多樣性與代表性、質(zhì)量與準(zhǔn)確性、規(guī)模與結(jié)構(gòu)、復(fù)雜性與邏輯性、公平性與無偏性等進(jìn)行全面動(dòng)態(tài)的治理,以客觀反映AI系統(tǒng)的實(shí)際性能和任務(wù)表現(xiàn)。
在AI系統(tǒng)的微調(diào)階段,為確保AI系統(tǒng)能夠在具體應(yīng)用場(chǎng)景中具有良好的適應(yīng)性和泛化能力,需要對(duì)微調(diào)指令數(shù)據(jù)集進(jìn)行治理,以便AI系統(tǒng)從微調(diào)指令數(shù)據(jù)集中充分學(xué)習(xí)到具體場(chǎng)景涉及的專業(yè)知識(shí)和能力。
在AI系統(tǒng)的部署與推理階段,應(yīng)用AI系統(tǒng)進(jìn)行推理、預(yù)測(cè)或生成,并監(jiān)控系統(tǒng)的性能和可靠性,確保滿足用戶的需求,需從推理數(shù)據(jù)的輸入出發(fā),系統(tǒng)化治理推理數(shù)據(jù),關(guān)注實(shí)時(shí)數(shù)據(jù)的質(zhì)量監(jiān)控和異常檢測(cè),以確保模型在生產(chǎn)環(huán)境中的推理準(zhǔn)確性和穩(wěn)定性。同時(shí),需要管理數(shù)據(jù)的訪問權(quán)限,保護(hù)用戶隱私。
在AI系統(tǒng)的維護(hù)與退役階段,定期更新和維護(hù)系統(tǒng),處理數(shù)據(jù)和模型漂移,以及在系統(tǒng)不再滿足需求或無法繼續(xù)使用時(shí),進(jìn)行退役和數(shù)據(jù)的歸檔或銷毀,需對(duì)運(yùn)維數(shù)據(jù)進(jìn)行治理,包括對(duì)系統(tǒng)日志、性能指標(biāo)等數(shù)據(jù)的收集和分析,用于系統(tǒng)的故障診斷和性能優(yōu)化。在系統(tǒng)退役時(shí),還要對(duì)數(shù)據(jù)進(jìn)行歸檔或銷毀,以遵循合規(guī)要求。
2 面向AI的數(shù)據(jù)治理實(shí)踐范式
2.1 以數(shù)據(jù)為中心的AI
在早期階段,AI研究的重點(diǎn)是在給定數(shù)據(jù)集的前提下,優(yōu)化模型架構(gòu)算法設(shè)計(jì)。然而,局限于給定數(shù)據(jù)集,把過多注意力聚焦于模型的參數(shù)、結(jié)構(gòu)或算法,并不能確保AI模型在現(xiàn)實(shí)應(yīng)用中表現(xiàn)優(yōu)秀。因?yàn)閷?shí)際任務(wù)的數(shù)據(jù)對(duì)于解決實(shí)際問題非常重要,通常模型難以從一個(gè)領(lǐng)域泛化到另一個(gè)領(lǐng)域。更進(jìn)一步,忽視數(shù)據(jù)質(zhì)量與多樣性可能引發(fā)的數(shù)據(jù)級(jí)聯(lián)效應(yīng),導(dǎo)致準(zhǔn)確性下降和持續(xù)存在偏差等負(fù)面后果,這些問題在高風(fēng)險(xiǎn)領(lǐng)域的AI應(yīng)用中尤為嚴(yán)重。
鑒于此,學(xué)術(shù)界和產(chǎn)業(yè)界的關(guān)注點(diǎn)逐漸轉(zhuǎn)向以數(shù)據(jù)為中心的AI,致力于實(shí)現(xiàn)數(shù)據(jù)的高質(zhì)量和多樣性。以數(shù)據(jù)為中心的AI強(qiáng)調(diào)在模型架構(gòu)算法相對(duì)穩(wěn)定的情況下,提升數(shù)據(jù)的質(zhì)與量。盡管這一轉(zhuǎn)變?nèi)栽谶M(jìn)行中,但已有許多成功案例證明了這種范式的優(yōu)勢(shì)。
2.2 以數(shù)據(jù)為中心與以模型為中心的關(guān)系
以數(shù)據(jù)為中心的AI方法并不是要取代以模型為中心的方法,而是二者相互補(bǔ)充,共同推動(dòng)AI系統(tǒng)的發(fā)展。一方面,以模型為中心的技術(shù)可以支持以數(shù)據(jù)為中心的技術(shù)的目標(biāo)實(shí)現(xiàn)。例如,可以利用生成模型(如生成對(duì)抗網(wǎng)絡(luò)和擴(kuò)散模型)進(jìn)行數(shù)據(jù)增強(qiáng),從而生成更多高質(zhì)量的數(shù)據(jù)樣本。另一方面,以數(shù)據(jù)為中心的方法也能夠促進(jìn)以模型為中心的技術(shù)的進(jìn)步。例如,數(shù)據(jù)可用性的提高可能會(huì)推動(dòng)模型設(shè)計(jì)的進(jìn)一步創(chuàng)新和改進(jìn)。因此,在現(xiàn)實(shí)生產(chǎn)環(huán)境中,數(shù)據(jù)和模型往往是相互影響、交替演進(jìn)的,以適應(yīng)不斷變化的環(huán)境需求。
數(shù)據(jù)和模型之間的界限逐漸模糊。傳統(tǒng)上,數(shù)據(jù)和模型被視為兩個(gè)獨(dú)立的概念。然而,隨著模型能力的增強(qiáng),算法、架構(gòu)、參數(shù)等模型本身要素已轉(zhuǎn)變?yōu)橐环N特殊形式的數(shù)據(jù),可視為數(shù)據(jù)的載體。通過精心設(shè)計(jì)的提示,人們利用大語言模型(large language model,LLM)生成所需的數(shù)據(jù),而這些數(shù)據(jù)又可以被用來進(jìn)一步訓(xùn)練模型。這種方法的潛力已在GPT-4模型上得到了初步驗(yàn)證。
2.3 面向AI數(shù)據(jù)治理的重點(diǎn)任務(wù)
按照以數(shù)據(jù)為中心的AI實(shí)踐范式,基于數(shù)據(jù)治理的全生命周期以及大語言模型開發(fā)應(yīng)用的全過程,面向人工智能的數(shù)據(jù)治理重點(diǎn)任務(wù)及相關(guān)技術(shù)如下。
一是源數(shù)據(jù)的治理。根據(jù)AI系統(tǒng)規(guī)劃設(shè)計(jì)目標(biāo),主要從源頭和供給側(cè)解決大語言模型訓(xùn)練耗費(fèi)數(shù)據(jù)量大、耗費(fèi)速度快,可能引起“數(shù)據(jù)短缺”的問題,同時(shí)也解決數(shù)據(jù)質(zhì)量不高的問題,以推動(dòng)訓(xùn)練數(shù)據(jù)有較為穩(wěn)定的“源頭活水”。
二是預(yù)訓(xùn)練數(shù)據(jù)的治理。預(yù)訓(xùn)練數(shù)據(jù)的治理旨在構(gòu)建豐富多樣且高質(zhì)量的數(shù)據(jù)集,以支持機(jī)器學(xué)習(xí)模型的訓(xùn)練,包括數(shù)據(jù)收集、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)濃縮和數(shù)據(jù)增強(qiáng)。
三是評(píng)測(cè)數(shù)據(jù)的治理。這些評(píng)測(cè)數(shù)據(jù)集能夠?qū)δP偷男阅苓M(jìn)行全面客觀的評(píng)價(jià),為模型優(yōu)化升級(jí)提供動(dòng)力,包括同分布評(píng)測(cè)、異分布評(píng)測(cè)和評(píng)測(cè)數(shù)據(jù)集構(gòu)建與治理。
四是微調(diào)數(shù)據(jù)的治理。微調(diào)數(shù)據(jù)的治理涉及數(shù)據(jù)收集、清洗、標(biāo)注、驗(yàn)證和持續(xù)監(jiān)控,以確保模型系統(tǒng)能夠進(jìn)一步學(xué)習(xí)專業(yè)領(lǐng)域數(shù)據(jù)的知識(shí),在特定場(chǎng)景任務(wù)上具備應(yīng)有的性能和可靠性。
五是推理數(shù)據(jù)的治理。其重點(diǎn)是在大語言模型運(yùn)行推理過程中,通過一些特定的數(shù)據(jù)設(shè)定和輸入,或者利用工程化的數(shù)據(jù)輸入來激發(fā)模型的特定功能,提高模型的推理性能。
六是運(yùn)維數(shù)據(jù)的治理。人工智能持續(xù)發(fā)展需要不斷地維護(hù)更新相關(guān)基礎(chǔ)數(shù)據(jù),運(yùn)維數(shù)據(jù)治理的目標(biāo)是在不斷變化的環(huán)境中確保數(shù)據(jù)的質(zhì)量和可靠性,包括數(shù)據(jù)理解、數(shù)據(jù)質(zhì)量保證、數(shù)據(jù)存儲(chǔ)與檢索、數(shù)據(jù)安全治理及合規(guī)處置數(shù)據(jù)與知識(shí)數(shù)據(jù)遷移。
3 面向AI數(shù)據(jù)治理的技術(shù)框架
3.1 源數(shù)據(jù)的治理
數(shù)據(jù)是大語言模型的基礎(chǔ),為了提升大語言模型的性能,加強(qiáng)數(shù)據(jù)源頭治理是關(guān)鍵。數(shù)據(jù)源主要分為通用數(shù)據(jù)和專業(yè)數(shù)據(jù)兩大類。由于規(guī)模大、多樣性高和易于獲取,通用數(shù)據(jù)(如網(wǎng)頁、圖書、新聞和對(duì)話文本)對(duì)于大語言模型的建模能力和泛化能力至關(guān)重要。專業(yè)數(shù)據(jù)(如多語言數(shù)據(jù)、科學(xué)數(shù)據(jù)、代碼和特定領(lǐng)域資料)在提升通用大語言模型的性能方面占比較低,但能夠有效提升模型在特定任務(wù)上的解決能力。
在通用數(shù)據(jù)方面,網(wǎng)頁數(shù)據(jù)的數(shù)量最大,其內(nèi)容的多樣性有助于大語言模型獲取豐富的語言知識(shí)。然而,網(wǎng)絡(luò)數(shù)據(jù)的處理和篩選是復(fù)雜的,需要去除低質(zhì)量?jī)?nèi)容(如垃圾郵件),以確保數(shù)據(jù)質(zhì)量。對(duì)話數(shù)據(jù)(如社交媒體評(píng)論和聊天記錄)對(duì)于提升模型的對(duì)話能力和問答任務(wù)表現(xiàn)有顯著效果,但其收集和處理相對(duì)困難。書籍?dāng)?shù)據(jù)作為人類知識(shí)的重要載體,能夠豐富模型的詞匯量和理解能力,尤其是在理解長(zhǎng)文本結(jié)構(gòu)和語義連貫性方面可發(fā)揮重要作用。
在專業(yè)數(shù)據(jù)方面,多語言數(shù)據(jù)在提升模型的多語言理解和生成能力方面發(fā)揮著關(guān)鍵作用?茖W(xué)文本數(shù)據(jù)(如教材、論文和百科)對(duì)于提升模型在理解科學(xué)知識(shí)方面的能力具有重要意義。代碼作為一種格式化語言,具有長(zhǎng)程依賴和準(zhǔn)確的執(zhí)行邏輯,其語法結(jié)構(gòu)、關(guān)鍵詞和編程范式對(duì)生成式人工智能的生成功能起著重要作用。編程問答社區(qū)和公共軟件倉(cāng)庫(kù)是代碼數(shù)據(jù)的主要來源,提供了豐富的語境和真實(shí)世界中的代碼使用場(chǎng)景。
隨著模型的復(fù)雜度的提高和規(guī)模的擴(kuò)大,其對(duì)數(shù)據(jù)的需求也在不斷增加。例如,OpenAI的GPT-3模型接受的數(shù)據(jù)訓(xùn)練量達(dá)到了3 000億token,而2023年谷歌推出的新一代語言模型PaLM 2的token數(shù)量已經(jīng)突破了3.6萬億。對(duì)數(shù)據(jù)的持續(xù)需求可能導(dǎo)致訓(xùn)練數(shù)據(jù)枯竭。為了解決數(shù)據(jù)枯竭的問題,必須加強(qiáng)源頭數(shù)據(jù)治理,從供給側(cè)拓寬數(shù)據(jù)來源,從源頭上增加數(shù)據(jù)規(guī)模,提高數(shù)據(jù)質(zhì)量。例如:在宏觀政策層面,加快數(shù)字化轉(zhuǎn)型,推動(dòng)產(chǎn)業(yè)數(shù)字化、治理數(shù)字化進(jìn)程;在中觀層面,推動(dòng)行業(yè)、區(qū)域數(shù)字化轉(zhuǎn)型和數(shù)據(jù)治理;在微觀層面,鼓勵(lì)引導(dǎo)企業(yè)等主體參與產(chǎn)業(yè)數(shù)字化,將更多的實(shí)體關(guān)系、經(jīng)營(yíng)活動(dòng)、知識(shí)積累轉(zhuǎn)化為高質(zhì)量的數(shù)據(jù)資源、數(shù)據(jù)資產(chǎn)。
3.2 預(yù)訓(xùn)練數(shù)據(jù)的治理
預(yù)訓(xùn)練數(shù)據(jù)為AI模型構(gòu)建基石,模型的性能在很大程度上取決于數(shù)據(jù)的質(zhì)量和數(shù)量。預(yù)訓(xùn)練數(shù)據(jù)治理旨在收集并生成豐富且高質(zhì)量的訓(xùn)練數(shù)據(jù),以支持AI模型的訓(xùn)練。
3.2.1 數(shù)據(jù)收集
傳統(tǒng)上,數(shù)據(jù)集構(gòu)建從零開始,通過人工收集相關(guān)信息來完成,這一過程極為耗時(shí)。隨著技術(shù)的進(jìn)步,數(shù)據(jù)集發(fā)現(xiàn)、數(shù)據(jù)集成、數(shù)據(jù)合成等一系列更加高效的方法被提出和應(yīng)用,較好地提高了數(shù)據(jù)收集的效果。
數(shù)據(jù)集發(fā)現(xiàn)是訓(xùn)練數(shù)據(jù)收集的第一步,旨在識(shí)別和選擇與目標(biāo)任務(wù)相關(guān)的高質(zhì)量數(shù)據(jù)集。選擇合適的數(shù)據(jù)集能夠確保模型在訓(xùn)練過程中接觸到多樣化且具有代表性的信息,從而提高模型的泛化能力。數(shù)據(jù)集發(fā)現(xiàn)主要包括以下任務(wù):一是數(shù)據(jù)源識(shí)別,確定潛在的數(shù)據(jù)源,包括公開數(shù)據(jù)集、學(xué)術(shù)資源、互聯(lián)網(wǎng)內(nèi)容等;二是數(shù)據(jù)集評(píng)估, 評(píng)估數(shù)據(jù)集的質(zhì)量、規(guī)模、多樣性和相關(guān)性,以確保其適用于預(yù)訓(xùn)練;三是數(shù)據(jù)許可與合規(guī)管理,確保數(shù)據(jù)集的使用符合相關(guān)法律法規(guī)和倫理標(biāo)準(zhǔn),包括數(shù)據(jù)隱私和版權(quán)問題。數(shù)據(jù)集成是將不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行整合和統(tǒng)一的過程,以創(chuàng)建一個(gè)大規(guī)模、多樣化且一致的訓(xùn)練數(shù)據(jù)集。數(shù)據(jù)集成可以消除“數(shù)據(jù)孤島”,提高數(shù)據(jù)的可用性和一致性,從而提升模型的訓(xùn)練效果。
數(shù)據(jù)集成主要包括以下步驟:一是數(shù)據(jù)清洗與預(yù)處理,去除數(shù)據(jù)中的噪聲、錯(cuò)誤和冗余信息,進(jìn)行格式轉(zhuǎn)換和標(biāo)準(zhǔn)化,以確保數(shù)據(jù)的一致性和質(zhì)量;二是數(shù)據(jù)融合與匹配,將來自不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行融合,采用實(shí)體匹配和數(shù)據(jù)對(duì)齊技術(shù)解決數(shù)據(jù)沖突和不一致問題;三是數(shù)據(jù)增強(qiáng),采用數(shù)據(jù)擴(kuò)充、數(shù)據(jù)變換等增強(qiáng)技術(shù),增加數(shù)據(jù)的多樣性和規(guī)模,以提高模型的魯棒性和泛化能力。
數(shù)據(jù)合成是通過生成新的數(shù)據(jù)樣本來補(bǔ)充現(xiàn)有數(shù)據(jù)集的過程,以解決數(shù)據(jù)稀缺或不平衡的問題。數(shù)據(jù)合成可以增加數(shù)據(jù)的多樣性和擴(kuò)大數(shù)據(jù)的覆蓋范圍,從而提升模型的訓(xùn)練效果和魯棒性。
數(shù)據(jù)合成主要包括以下內(nèi)容:一是構(gòu)建數(shù)據(jù)生成模型,基于已有真實(shí)數(shù)據(jù)或數(shù)據(jù)規(guī)律構(gòu)造生成模型;二是使用生成模型(如生成對(duì)抗網(wǎng)絡(luò)、變分自編碼器等)生成新的數(shù)據(jù)樣本,以模擬真實(shí)數(shù)據(jù)的分布和特征;三是數(shù)據(jù)增強(qiáng)與混合,采用數(shù)據(jù)插值、數(shù)據(jù)融合等數(shù)據(jù)增強(qiáng)和混合技術(shù),將生成的數(shù)據(jù)與現(xiàn)有數(shù)據(jù)相結(jié)合,以增加數(shù)據(jù)的多樣性和規(guī)模;四是數(shù)據(jù)評(píng)估與驗(yàn)證,評(píng)估合成數(shù)據(jù)的質(zhì)量和有效性,確保其與真實(shí)數(shù)據(jù)具有相似的分布和特征,以避免對(duì)模型訓(xùn)練產(chǎn)生負(fù)面影響。
3.2.2 數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)準(zhǔn)備是將原始數(shù)據(jù)轉(zhuǎn)換為適合AI模型訓(xùn)練的格式的過程。數(shù)據(jù)準(zhǔn)備是非常重要的一步,因?yàn)樵紨?shù)據(jù)通常存在噪聲、不一致性和無關(guān)信息,如果不進(jìn)行適當(dāng)?shù)那逑春娃D(zhuǎn)換,會(huì)導(dǎo)致模型過擬合、泛化能力不足等問題。
數(shù)據(jù)準(zhǔn)備包括以下步驟:一是數(shù)據(jù)清洗,識(shí)別并修正數(shù)據(jù)中存在的錯(cuò)誤、不一致和不準(zhǔn)確等問題,如填補(bǔ)缺失值、去除重復(fù)數(shù)據(jù)等;二是特征提取,從原始數(shù)據(jù)中提取相關(guān)的特征,如圖像的顏色、紋理特征,時(shí)間序列數(shù)據(jù)的統(tǒng)計(jì)和頻譜特征等;三是特征轉(zhuǎn)換,將原始特征轉(zhuǎn)換為新的特征,以提高模型性能,如歸一化、標(biāo)準(zhǔn)化、對(duì)數(shù)變換等。
3.2.3 數(shù)據(jù)濃縮
數(shù)據(jù)濃縮通過減少數(shù)據(jù)的特征數(shù)量或樣本數(shù)量來降低數(shù)據(jù)復(fù)雜度,同時(shí)盡可能保留數(shù)據(jù)的關(guān)鍵信息。它有助于減少對(duì)內(nèi)存和計(jì)算資源的需求,提高模型訓(xùn)練和部署的效率;緩解過擬合的情況,提高模型的泛化能力;提高模型的可解釋性,使模型更容易理解。
數(shù)據(jù)濃縮的主要方法有:一是特征規(guī)模壓降,選擇最相關(guān)的特征子集,具體包括過濾法、包裹法和嵌入法;二是維度壓降,將高維特征映射到低維空間,如主成分分析(PCA)和線性判別分析(LDA)等線性方法,以及自編碼器等非線性方法;三是實(shí)例選擇,選擇最具代表性的樣本子集,包括基于模型性能的包裹法和基于統(tǒng)計(jì)特性的過濾法。
3.2.4 數(shù)據(jù)增強(qiáng)
數(shù)據(jù)增強(qiáng)是一種通過人工創(chuàng)造新的訓(xùn)練樣本來增加數(shù)據(jù)集大小和多樣性的技術(shù),其主要目的如下。一是提高模型的準(zhǔn)確性、泛化能力和魯棒性。現(xiàn)代機(jī)器學(xué)習(xí)算法通常需要在大量數(shù)據(jù)上學(xué)習(xí),但獲取大規(guī)模數(shù)據(jù)困難且耗時(shí),數(shù)據(jù)增強(qiáng)通過自動(dòng)化生成相似的新樣本來解決數(shù)據(jù)不足的問題。二是緩解數(shù)據(jù)類別不平衡的情況。數(shù)據(jù)增強(qiáng)可以通過增加對(duì)少數(shù)類別的數(shù)據(jù)樣本的采樣來平衡數(shù)據(jù)分布。
數(shù)據(jù)增強(qiáng)的主要方法如下:一是基本簡(jiǎn)易操作方法,如圖像的縮放、旋轉(zhuǎn)、翻轉(zhuǎn)、模糊化處理等,這類方法直接對(duì)原始數(shù)據(jù)進(jìn)行簡(jiǎn)單的變換;二是數(shù)據(jù)合成方法,利用生成模型學(xué)習(xí)數(shù)據(jù)的分布,并生成新的合成樣本,這類方法從全局角度學(xué)習(xí)數(shù)據(jù)模式,生成更具有代表性的新樣本;三是針對(duì)數(shù)據(jù)類別不平衡的方法,如合成少數(shù)類過采樣技術(shù)(synthetic minority over-sampling technique,SMOTE)、自適應(yīng)合成(adaptive synthetic,ADASYN)采樣方法等在少數(shù)類別樣本附近插值生成新樣本。SMOTE是一種針對(duì)數(shù)據(jù)類別不平衡問題的數(shù)據(jù)增強(qiáng)方法,通過在少數(shù)類別樣本與其最近鄰樣本之間進(jìn)行線性插值來生成新的合成樣本,這可以有效增加少數(shù)類別的樣本數(shù)量,緩解類別不平衡的情況。ADASYN是SMOTE的一種擴(kuò)展方法,根據(jù)每個(gè)少數(shù)類別樣本的學(xué)習(xí)難度(由其最近鄰樣本中的多數(shù)類別樣本比例決定)來動(dòng)態(tài)調(diào)整生成新樣本的數(shù)量。對(duì)于那些更難學(xué)習(xí)的少數(shù)類別樣本,該方法會(huì)生成更多的合成樣本,這可以進(jìn)一步提高模型對(duì)少數(shù)類別的學(xué)習(xí)能力。
3.3 評(píng)測(cè)數(shù)據(jù)的治理
評(píng)測(cè)數(shù)據(jù)治理的目標(biāo)在于順應(yīng)AI大語言模型技術(shù)發(fā)展的趨勢(shì)和實(shí)際應(yīng)用場(chǎng)景的需要,構(gòu)造合理的評(píng)測(cè)數(shù)據(jù)集,并適時(shí)更新或升級(jí)此數(shù)據(jù)集,以對(duì)大語言模型的綜合性能和單項(xiàng)能力進(jìn)行評(píng)定。
3.3.1 同分布評(píng)測(cè)
同分布評(píng)估是指生成符合訓(xùn)練數(shù)據(jù)分布的樣本作為評(píng)測(cè)數(shù)據(jù)集,以評(píng)估模型在特定子群體上的性能,并驗(yàn)證檢查模型的性能邊界。同分布評(píng)估旨在更細(xì)粒度地評(píng)估模型的性能,以發(fā)現(xiàn)其在特定子群體上的不足,并檢查模型的倫理合規(guī)性,這對(duì)于構(gòu)建可靠和安全的AI系統(tǒng)至關(guān)重要。這種評(píng)測(cè)方式有以下作用。一是發(fā)現(xiàn)模型在哪些訓(xùn)練數(shù)據(jù)集的子集上性能欠佳。模型在整體上表現(xiàn)良好,但可能會(huì)在某些特定訓(xùn)練數(shù)據(jù)子集上表現(xiàn)不佳,需要識(shí)別這些代表性的子集并進(jìn)行調(diào)整,以避免出現(xiàn)偏差和錯(cuò)誤,特別是在高風(fēng)險(xiǎn)應(yīng)用中。二是分析驗(yàn)證模型的能力邊界。理解模型的決策邊界并在部署前檢查其倫理合規(guī)性是至關(guān)重要的,尤其是在涉及政策制定等的高風(fēng)險(xiǎn)應(yīng)用中。
同分布評(píng)測(cè)主要方法包括:一是數(shù)據(jù)切片方法,將數(shù)據(jù)集劃分為相關(guān)的子群體,并分別評(píng)估模型在每個(gè)子群體上的性能,這可以使用預(yù)定義的標(biāo)準(zhǔn)(如年齡、性別、種族等)或自動(dòng)化的切片方法;二是算法可解釋性方法,生成一組假設(shè)性樣本,這些樣本可以改變模型的決策結(jié)果,幫助識(shí)別導(dǎo)致模型預(yù)測(cè)錯(cuò)誤的最小輸入變化,以檢查模型的決策邊界。
3.3.2 異分布評(píng)測(cè)
異分布評(píng)測(cè)使用與訓(xùn)練數(shù)據(jù)分布不同的樣本作為評(píng)測(cè)數(shù)據(jù)集,以全面評(píng)估模型的性能,為模型部署前的安全性和可靠性提供保障。其主要作用如下:一是評(píng)估模型在意外場(chǎng)景下的泛化能力,訓(xùn)練數(shù)據(jù)和實(shí)際部署環(huán)境的數(shù)據(jù)分布可能存在差異,異分布評(píng)測(cè)可以揭示模型在這種差異情況下的表現(xiàn);二是檢測(cè)模型的魯棒性,將生成對(duì)抗樣本作為評(píng)測(cè)數(shù)據(jù)集以發(fā)現(xiàn)模型存在的弱點(diǎn),從而采取措施提高模型的安全性。
異分布評(píng)測(cè)的方法主要有:一是將生成對(duì)抗樣本作為評(píng)測(cè)數(shù)據(jù),通過對(duì)輸入數(shù)據(jù)施加人為擾動(dòng),制造能夠誤導(dǎo)模型的樣本,評(píng)估模型的魯棒性;二是將生成分布偏移樣本作為評(píng)測(cè)數(shù)據(jù),通過偏斜采樣或?qū)W習(xí)生成模型的方式,構(gòu)造與訓(xùn)練數(shù)據(jù)分布不同的樣本數(shù)據(jù)作為評(píng)測(cè)數(shù)據(jù),評(píng)估模型在分布差異下的表現(xiàn)。
3.3.3 評(píng)測(cè)數(shù)據(jù)集的治理
評(píng)測(cè)數(shù)據(jù)集是評(píng)估和比較不同模型性能的關(guān)鍵工具。評(píng)測(cè)數(shù)據(jù)集的治理需要關(guān)注以下幾個(gè)方面。一是評(píng)測(cè)數(shù)據(jù)集的數(shù)量。大語言模型開發(fā)應(yīng)用進(jìn)入快速發(fā)展階段,單模態(tài)、多模態(tài)、通用型、垂直型等各類大語言模型不斷涌現(xiàn),需要更多類型、更多數(shù)量的評(píng)測(cè)數(shù)據(jù)集對(duì)各類大語言模型進(jìn)行評(píng)測(cè),但目前評(píng)測(cè)數(shù)據(jù)集的類型和數(shù)量都相對(duì)較少。二是評(píng)測(cè)數(shù)據(jù)集的質(zhì)量。其對(duì)于提高模型評(píng)估的準(zhǔn)確性至關(guān)重要,直接影響評(píng)測(cè)結(jié)果的準(zhǔn)確性和可靠性,直接或間接影響大語言模型開發(fā)應(yīng)用各環(huán)節(jié)的數(shù)據(jù)治理效果。三是評(píng)測(cè)數(shù)據(jù)集的設(shè)計(jì)和選擇。設(shè)計(jì)選擇評(píng)測(cè)數(shù)據(jù)集,還應(yīng)考慮信度、效度和難度等因素,以確保數(shù)據(jù)集能夠有效地反映模型的真實(shí)性能。即使是小型或合成的數(shù)據(jù)集也能夠驅(qū)動(dòng)模型創(chuàng)新,在選擇評(píng)測(cè)數(shù)據(jù)集時(shí),不僅要考慮數(shù)據(jù)的規(guī)模,還要考慮其能否全面覆蓋模型應(yīng)用場(chǎng)景中可能出現(xiàn)的各種情況。四是評(píng)測(cè)數(shù)據(jù)集的多樣性和代表性。高階多數(shù)據(jù)集建模的研究表明,利用多模態(tài)、多類型的數(shù)據(jù)集可以更有效地解決傳統(tǒng)數(shù)據(jù)處理和分析方法失效的問題,在設(shè)計(jì)評(píng)測(cè)數(shù)據(jù)集時(shí),應(yīng)盡可能地考慮數(shù)據(jù)的多樣性和代表性,以確保模型能夠在多種不同的場(chǎng)景下被有效評(píng)估。五是評(píng)測(cè)數(shù)據(jù)集的隱私保護(hù)和用戶參與問題。在設(shè)計(jì)和使用評(píng)測(cè)數(shù)據(jù)集時(shí),必須平衡數(shù)據(jù)質(zhì)量與數(shù)據(jù)隱私、用戶權(quán)益保護(hù)。
大語言模型評(píng)測(cè)數(shù)據(jù)集治理面臨的問題包括但不限于評(píng)測(cè)數(shù)據(jù)集的數(shù)量、質(zhì)量、設(shè)計(jì)和選擇、多樣性和代表性以及隱私保護(hù)等方面。需要綜合考慮數(shù)據(jù)集的設(shè)計(jì)原則、應(yīng)用場(chǎng)景以及技術(shù)手段等,以確保評(píng)測(cè)數(shù)據(jù)集能夠有效地支持大語言模型的性能評(píng)估和優(yōu)化。
3.4 微調(diào)數(shù)據(jù)的治理
大語言模型經(jīng)過預(yù)訓(xùn)練具備了通用知識(shí)能力,要將其應(yīng)用于具體的行業(yè)實(shí)際,還需具備行業(yè)的專業(yè)知識(shí)和能力,這需要借助指令微調(diào)來實(shí)現(xiàn)。指令微調(diào)的基礎(chǔ)是構(gòu)建指令微調(diào)數(shù)據(jù)集,讓大語言模型在指令微調(diào)數(shù)據(jù)集上進(jìn)行學(xué)習(xí),要使大語言模型取得預(yù)期的微調(diào)效果,需對(duì)微調(diào)數(shù)據(jù)集進(jìn)行科學(xué)有效的治理。
3.4.1 數(shù)據(jù)標(biāo)注
數(shù)據(jù)標(biāo)注是為數(shù)據(jù)集中的元素分配描述性標(biāo)簽的過程,對(duì)于大語言模型微調(diào)至關(guān)重要,因?yàn)榇笳Z言模型微調(diào)使用的數(shù)據(jù)最好是標(biāo)注過的高質(zhì)量數(shù)據(jù)。傳統(tǒng)上,因極其耗時(shí)且資源密集,尤其在處理大規(guī)模數(shù)據(jù)集時(shí),數(shù)據(jù)標(biāo)注面臨巨大挑戰(zhàn)。近年來,研究焦點(diǎn)逐漸轉(zhuǎn)向通過減少人工干預(yù)同時(shí)保持標(biāo)簽準(zhǔn)確性的方式來提升標(biāo)注效率。具體策略包括利用未標(biāo)注數(shù)據(jù)的半監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)方法,減少對(duì)顯式標(biāo)簽的需求,以及通過眾包技術(shù)加速標(biāo)注過程,盡管這帶來了數(shù)據(jù)一致性和質(zhì)量控制的新難題。此外,先使用預(yù)訓(xùn)練模型進(jìn)行初步標(biāo)注、再由專家審核的半自動(dòng)標(biāo)注工具的開發(fā)應(yīng)用,已成為有效降低數(shù)據(jù)標(biāo)注勞動(dòng)強(qiáng)度的途徑。
3.4.2 指令微調(diào)
數(shù)據(jù)集的治理雖然經(jīng)過大規(guī)模預(yù)訓(xùn)練,模型能夠捕獲語言的普遍規(guī)律和潛在知識(shí),模型最初的設(shè)計(jì)目標(biāo)是預(yù)測(cè)文本序列中的下一個(gè)詞,這限制了模型直接理解和執(zhí)行詳細(xì)指令的能力。指令微調(diào)使大語言模型學(xué)習(xí)有標(biāo)注的特定任務(wù)數(shù)據(jù),熟悉如何解讀和響應(yīng)具體的指令性文本,從而實(shí)現(xiàn)從通用語言理解向任務(wù)導(dǎo)向型智能的轉(zhuǎn)變。有效構(gòu)建、治理指令微調(diào)數(shù)據(jù)集是進(jìn)行指令微調(diào)、確保模型性能的關(guān)鍵步驟,具體策略和方法如下。
一是注重指令數(shù)據(jù)的來源和收集。從公開數(shù)據(jù)集、人類標(biāo)注數(shù)據(jù)、自動(dòng)生成數(shù)據(jù)等多渠道收集高質(zhì)量數(shù)據(jù),挖掘合適的指令模板,或使用種子指令進(jìn)行改寫,形成指令和對(duì)應(yīng)輸出的數(shù)據(jù)配對(duì),從而提高指令數(shù)據(jù)的多樣性,確保數(shù)據(jù)集覆蓋多種指令類型和領(lǐng)域,以提高模型的泛化能力。
二是注重?cái)?shù)據(jù)標(biāo)注和管理。統(tǒng)籌自動(dòng)標(biāo)注和人工標(biāo)注,為指令數(shù)據(jù)添加高質(zhì)量的標(biāo)簽。借助自動(dòng)標(biāo)注平臺(tái)或工具提高標(biāo)注效率,如利用預(yù)訓(xùn)練模型生成初步的指令和輸出,然后進(jìn)行人工審核和修正。利用人工標(biāo)注提高準(zhǔn)確性,專業(yè)人員進(jìn)行高質(zhì)量的數(shù)據(jù)標(biāo)注,可確保數(shù)據(jù)的準(zhǔn)確性和倫理合規(guī)性。加強(qiáng)數(shù)據(jù)版本控制,使用版本控制系統(tǒng)管理數(shù)據(jù)集的不同版本,確保數(shù)據(jù)的可追溯性。
三是注重?cái)?shù)據(jù)預(yù)處理。進(jìn)行數(shù)據(jù)清洗,去除噪聲數(shù)據(jù)和不一致的指令-輸出對(duì)。對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,統(tǒng)一指令和輸出格式,以便模型更好地理解和處理指令微調(diào)數(shù)據(jù)。進(jìn)行數(shù)據(jù)增強(qiáng),通過同義詞替換、隨機(jī)插入或者刪除等操作增加數(shù)據(jù)的多樣性。
四是注重?cái)?shù)據(jù)集評(píng)估和驗(yàn)證。對(duì)數(shù)據(jù)集開展質(zhì)量評(píng)估,建立包括準(zhǔn)確性、及時(shí)性、一致性等在內(nèi)的客觀指標(biāo),以及專家評(píng)估的主觀指標(biāo),定期評(píng)估指令數(shù)據(jù)的質(zhì)量。結(jié)合運(yùn)用自動(dòng)評(píng)估和人工評(píng)估方法:自動(dòng)評(píng)估可使用BLEU、ROUGE等指標(biāo)評(píng)估微調(diào)數(shù)據(jù)集的質(zhì)量;人工評(píng)估即通過人工審核數(shù)據(jù)集,確保指令和輸出的準(zhǔn)確性和一致性。根據(jù)評(píng)估結(jié)果,采取數(shù)據(jù)清洗、特征工程等措施來提高指令數(shù)據(jù)的質(zhì)量。
五是注重?cái)?shù)據(jù)集組合。多任務(wù)微調(diào)可提升大語言模型的泛化性能,增加微調(diào)任務(wù)數(shù)量的好處在不同規(guī)模模型上得到了驗(yàn)證,因此,有必要組合多個(gè)不同任務(wù)構(gòu)成具有多樣性的指令微調(diào)數(shù)據(jù)集。不同任務(wù)數(shù)據(jù)的混合比例很關(guān)鍵,通常由實(shí)驗(yàn)和經(jīng)驗(yàn)決定。為了讓大語言模型解決特定任務(wù),可依據(jù)表示相似性和梯度相似性選擇相關(guān)多任務(wù)子集。但是需注意,不同任務(wù)間可能存在沖突,組合數(shù)據(jù)量過大可能因數(shù)據(jù)格式和分布的相似性削弱模型能力。
六是注重?cái)?shù)據(jù)集的持續(xù)改進(jìn)。建立反饋機(jī)制,收集模型在實(shí)際應(yīng)用中的表現(xiàn),持續(xù)改進(jìn)數(shù)據(jù)集。定期更新數(shù)據(jù)集,確保數(shù)據(jù)集的時(shí)效性和相關(guān)性。同時(shí),加強(qiáng)數(shù)據(jù)集的文檔和元數(shù)據(jù)管理。詳細(xì)記錄數(shù)據(jù)集的來源、構(gòu)建方法、標(biāo)注過程和使用說明,確保數(shù)據(jù)的透明性和可追溯性。管理數(shù)據(jù)集的元數(shù)據(jù),包括數(shù)據(jù)格式、標(biāo)注信息、使用場(chǎng)景等,方便檢索和使用數(shù)據(jù)。
3.5 推理數(shù)據(jù)的治理
推理數(shù)據(jù)治理是指在應(yīng)用大語言模型進(jìn)行推理的過程中,根據(jù)具體應(yīng)用場(chǎng)景或執(zhí)行推理任務(wù)的特點(diǎn),有針對(duì)性地設(shè)計(jì)數(shù)據(jù)輸入或者指令提示,嵌入必要的檢索增強(qiáng)數(shù)據(jù)知識(shí)庫(kù),引入思維鏈,激發(fā)模型的特定能力,提高推理決策的準(zhǔn)確性。
3.5.1 提示工程的數(shù)據(jù)治理
提示工程是一種通過設(shè)計(jì)和構(gòu)建高質(zhì)量的模型輸入提示來實(shí)現(xiàn)特定任務(wù)的方法。它通過設(shè)計(jì)構(gòu)造輸入數(shù)據(jù)而不是調(diào)整模型本身來達(dá)到預(yù)期目標(biāo),可以指導(dǎo)大語言模型完成復(fù)雜的任務(wù),相比于微調(diào)模型更加靈活高效,可以快速探索模型的知識(shí)能力。
為更好地提升模型推理性能,有必要從數(shù)據(jù)生成、質(zhì)量控制、存儲(chǔ)檢索等多個(gè)角度對(duì)提示工程數(shù)據(jù)集進(jìn)行系統(tǒng)性的設(shè)計(jì)、優(yōu)化和治理,以確保提示數(shù)據(jù)的高質(zhì)量和可用性。一是手動(dòng)設(shè)計(jì)提示模板并自動(dòng)生成提示數(shù)據(jù)集?梢詮耐獠空Z料庫(kù)中挖掘模板,或使用種子提示進(jìn)行改寫,以豐富提示的多樣性。二是采用梯度搜索或生成模型等學(xué)習(xí)方法自動(dòng)生成提示。該方法可更有效地探索模型的知識(shí),發(fā)現(xiàn)最優(yōu)的提示。三是建立提示工程數(shù)據(jù)質(zhì)量評(píng)估機(jī)制。定期檢查提示數(shù)據(jù)集的質(zhì)量,并采取措施進(jìn)行改進(jìn)。使用機(jī)器學(xué)習(xí)模型自動(dòng)檢測(cè)數(shù)據(jù)質(zhì)量問題,并通過人工參與等方式持續(xù)優(yōu)化數(shù)據(jù)質(zhì)量。四是設(shè)計(jì)高效的提示數(shù)據(jù)存儲(chǔ)和檢索系統(tǒng)。為確保在模型部署、推理時(shí)能夠快速獲取所需的提示數(shù)據(jù),可以采用資源分配優(yōu)化、查詢加速等方法來提高提示數(shù)據(jù)的獲取效率。
3.5.2 檢索增強(qiáng)生成的數(shù)據(jù)治理
檢索增強(qiáng)生成(retrieval-augmented generation, RAG)技術(shù)是在模型推理階段引入外部數(shù)據(jù)知識(shí)進(jìn)行輔助增強(qiáng)的技術(shù),可以顯著提高大語言模型的推理性能和準(zhǔn)確性,預(yù)防出現(xiàn)幻覺。RAG的框架主要由索引、檢索器、增強(qiáng)器和生成器4個(gè)核心組件構(gòu)成。在索引階段,對(duì)外部數(shù)據(jù)知識(shí)進(jìn)行向量化索引;在檢索階段,利用向量相似性技術(shù)快速檢索與用戶查詢相關(guān)的文檔;在增強(qiáng)階段,將用戶查詢與檢索到的上下文結(jié)合,形成較精煉準(zhǔn)確的組合查詢提示;在生成階段,將組合后的查詢提示傳遞給模型,生成最終響應(yīng)和輸出。
大語言模型檢索增強(qiáng)技術(shù)實(shí)現(xiàn)的基礎(chǔ)在于構(gòu)建和治理大語言模型外掛的數(shù)據(jù)知識(shí)庫(kù)。檢索增強(qiáng)知識(shí)庫(kù)的治理步驟如下。一是進(jìn)行數(shù)據(jù)收集與預(yù)處理,根據(jù)大語言模型推理應(yīng)用的專業(yè)領(lǐng)域需求,收集大量的基礎(chǔ)專業(yè)數(shù)據(jù),包括書籍、文章、網(wǎng)頁內(nèi)容等,并進(jìn)行清洗、格式化和標(biāo)準(zhǔn)化處理。二是進(jìn)行知識(shí)表示與抽取,將知識(shí)以結(jié)構(gòu)化或半結(jié)構(gòu)化的形式進(jìn)行表示,并使用自然語言處理技術(shù)從文本中抽取知識(shí)。三是進(jìn)行知識(shí)融合與推理,將抽取的知識(shí)融合到知識(shí)庫(kù)中,解決知識(shí)沖突和冗余問題,并利用知識(shí)庫(kù)進(jìn)行推理,發(fā)現(xiàn)新的知識(shí)或關(guān)系。四是進(jìn)行知識(shí)更新與維護(hù),定期更新知識(shí)庫(kù),以反映最新的信息和知識(shí),并保持知識(shí)庫(kù)的動(dòng)態(tài)性和準(zhǔn)確性。
3.5.3 思維鏈的數(shù)據(jù)治理
思維鏈可提升大語言模型的推理能力。思維鏈?zhǔn)穷愃朴谌祟愃季S的逐步推理過程,通過構(gòu)建一個(gè)包含這些思維鏈的數(shù)據(jù)庫(kù),模型可以參考它們來改進(jìn)自身的推理過程。為了確保這些思維鏈的質(zhì)量,需要專家進(jìn)行審核和標(biāo)注,以保證其正確性和邏輯性。此外,問題的多樣性也至關(guān)重要,數(shù)據(jù)庫(kù)應(yīng)包含來自不同領(lǐng)域的例子,以提高模型的泛化能力。
在模型推理過程中,如何有效地訪問和利用這個(gè)數(shù)據(jù)庫(kù)是一個(gè)值得考慮的問題?赡苄枰扇』旌戏椒,一部分思維鏈用于訓(xùn)練,另一部分在實(shí)時(shí)推理時(shí)進(jìn)行檢索。隨著問題和思維鏈數(shù)量的增加,數(shù)據(jù)庫(kù)的可擴(kuò)展性和檢索效率成為一個(gè)挑戰(zhàn),可采用圖數(shù)據(jù)庫(kù)或索引系統(tǒng)來優(yōu)化管理。安全性和隱私性也是不可忽視的問題,特別是在數(shù)據(jù)庫(kù)包含敏感信息或被應(yīng)用于重要系統(tǒng)時(shí),必須采取措施防止未經(jīng)授權(quán)的訪問和潛在的篡改。此外,評(píng)估該數(shù)據(jù)庫(kù)對(duì)模型性能的影響是必要的,需要開發(fā)相應(yīng)的指標(biāo)來檢驗(yàn)思維鏈的引入是否提升了模型的推理能力和預(yù)測(cè)生成的準(zhǔn)確性。
3.6 運(yùn)維數(shù)據(jù)的治理
大語言模型運(yùn)維階段在全生命周期中占據(jù)較大的時(shí)間比例,這一階段的數(shù)據(jù)治理范圍不僅覆蓋大語言模型運(yùn)維數(shù)據(jù)的監(jiān)控管理運(yùn)用,還包括前4個(gè)階段數(shù)據(jù)的維護(hù)優(yōu)化更新。運(yùn)維數(shù)據(jù)的治理是一個(gè)多層次、持續(xù)進(jìn)行的過程,致力于提高數(shù)據(jù)在動(dòng)態(tài)環(huán)境中的質(zhì)量和可靠性。
3.6.1 數(shù)據(jù)理解
為了進(jìn)行有效的維護(hù),首要任務(wù)是深入理解數(shù)據(jù)。數(shù)據(jù)理解不僅要識(shí)別數(shù)據(jù)類型和結(jié)構(gòu),還要求深入探究數(shù)據(jù)的內(nèi)涵,包括但不限于數(shù)據(jù)的來源、演變歷程、內(nèi)在關(guān)系和潛在偏見。數(shù)據(jù)理解可借助高級(jí)可視化、數(shù)據(jù)估值等技術(shù)。高級(jí)可視化技術(shù)可以揭示數(shù)據(jù)的分布模式和異常,數(shù)據(jù)估值技術(shù)則評(píng)估數(shù)據(jù)對(duì)特定目的的價(jià)值,確保維護(hù)的數(shù)據(jù)是相關(guān)的、有價(jià)值的,并且適合于預(yù)定的應(yīng)用場(chǎng)景。
3.6.2 數(shù)據(jù)質(zhì)量保證
實(shí)際應(yīng)用中,數(shù)據(jù)基礎(chǔ)設(shè)施頻繁、持續(xù)更新,影響了數(shù)據(jù)質(zhì)量。因此,數(shù)據(jù)治理不僅需要構(gòu)建高質(zhì)量的訓(xùn)練或推理數(shù)據(jù),更要在不斷變化的環(huán)境中維持其卓越性。在動(dòng)態(tài)環(huán)境中確保數(shù)據(jù)質(zhì)量有兩個(gè)核心方面:一是持續(xù)監(jiān)控?cái)?shù)據(jù)質(zhì)量,實(shí)際應(yīng)用中的數(shù)據(jù)復(fù)雜多變,可能包含與預(yù)期目標(biāo)不符的異常數(shù)據(jù)點(diǎn),因此建立定量的評(píng)估標(biāo)準(zhǔn)來衡量數(shù)據(jù)質(zhì)量至關(guān)重要;二是質(zhì)量改進(jìn),如果模型受低質(zhì)量數(shù)據(jù)的影響,實(shí)施質(zhì)量改進(jìn)策略以提升數(shù)據(jù)質(zhì)量變得至關(guān)重要,這直接關(guān)聯(lián)到模型性能的提升。
3.6.3 數(shù)據(jù)存儲(chǔ)與檢索
存儲(chǔ)與檢索為AI系統(tǒng)快速準(zhǔn)確地提供數(shù)據(jù),目前已有多種加速數(shù)據(jù)獲取的策略。數(shù)據(jù)存儲(chǔ)不僅要確保數(shù)據(jù)的安全性和完整性,還要優(yōu)化數(shù)據(jù)的訪問速度。查詢加速技術(shù),如索引優(yōu)化、數(shù)據(jù)緩存策略,以及利用分布式存儲(chǔ)和并行處理技術(shù),大幅縮短了數(shù)據(jù)檢索的時(shí)間,提升了系統(tǒng)的響應(yīng)效率。然而,這些策略的實(shí)施也帶來了存儲(chǔ)空間管理的復(fù)雜性、數(shù)據(jù)一致性和分布式系統(tǒng)中的同步等問題。因此,設(shè)計(jì)靈活且高效的存儲(chǔ)架構(gòu),平衡存儲(chǔ)效率與檢索速度,成為AI系統(tǒng)數(shù)據(jù)管理的重要內(nèi)容。3.6.4 數(shù)據(jù)安全治理數(shù)據(jù)安全治理始終是數(shù)據(jù)治理不可忽視的重要內(nèi)容,需綜合采取以下治理策略:遵循數(shù)據(jù)最小化原則;實(shí)施加密傳輸與存儲(chǔ);嚴(yán)格進(jìn)行訪問控制及身份驗(yàn)證;實(shí)時(shí)監(jiān)控并檢測(cè)異常;定期開展安全審計(jì)與滲透測(cè)試;應(yīng)用隱私保護(hù)技術(shù)確保合規(guī);構(gòu)建分層防御體系,建立應(yīng)急響應(yīng)計(jì)劃,全方位保護(hù)數(shù)據(jù)免受內(nèi)外威脅,保障服務(wù)穩(wěn)定與用戶信息安全。
3.6.5 數(shù)據(jù)合規(guī)處置與遷移
處置數(shù)據(jù)是數(shù)據(jù)治理的最后一步。一是對(duì)數(shù)據(jù)進(jìn)行歸檔與備份。對(duì)大語言模型訓(xùn)練和運(yùn)行過程中產(chǎn)生的大量數(shù)據(jù)進(jìn)行分類和評(píng)估,將其劃分為核心數(shù)據(jù)或輔助數(shù)據(jù)。針對(duì)核心數(shù)據(jù)(如高質(zhì)量的訓(xùn)練樣本、模型參數(shù)等),應(yīng)進(jìn)行長(zhǎng)期歸檔備份,以備未來研究、審計(jì)或復(fù)用;針對(duì)輔助數(shù)據(jù),應(yīng)依據(jù)其價(jià)值決定保留或銷毀。二是保護(hù)隱私。在數(shù)據(jù)處置過程中注重隱私保護(hù)與合規(guī)處理,嚴(yán)格遵守?cái)?shù)據(jù)保護(hù)法規(guī),對(duì)涉及用戶個(gè)人信息的數(shù)據(jù)進(jìn)行匿名化處理或徹底刪除,確保不違反隱私保護(hù)政策。三是數(shù)據(jù)遷移與整合。為仍有價(jià)值的數(shù)據(jù)規(guī)劃合理的遷移路徑,將其整合至新的數(shù)據(jù)管理系統(tǒng)中,以便后續(xù)利用。當(dāng)大語言模型退役時(shí),可考慮利用遷移學(xué)習(xí)技術(shù)將大語言模型在特定任務(wù)上的學(xué)習(xí)成果轉(zhuǎn)移到新模型或新任務(wù)上,實(shí)現(xiàn)模型知識(shí)數(shù)據(jù)的遷移和復(fù)用。
4 面向AI數(shù)據(jù)治理的案例與經(jīng)驗(yàn)
4.1 ChatGPT的數(shù)據(jù)治理實(shí)踐
在探討大語言模型的發(fā)展歷程中,特別是GPT系列大語言模型,模型性能的提升不僅與參數(shù)量的增加相關(guān),還與數(shù)據(jù)質(zhì)量?jī)?yōu)化緊密相關(guān)。GPT系列模型的相關(guān)研究揭示了大語言模型數(shù)據(jù)治理方面的細(xì)致工作,其策略涵蓋了上述數(shù)據(jù)治理框架的多個(gè)重要方面。
4.1.1 訓(xùn)練數(shù)據(jù)的治理演進(jìn)
GPT模型的成功依賴于多個(gè)因素,模型參數(shù)的數(shù)量增加只是其中之一。對(duì)比研究GPT-1、GPT-2、GPT-3、InstructGPT和ChatGPT/GPT-4的相關(guān)論文發(fā)現(xiàn),GPT模型通過改進(jìn)的數(shù)據(jù)收集、標(biāo)記和準(zhǔn)備策略,顯著提升訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量。訓(xùn)練數(shù)據(jù)的治理是大語言模型性能提升的關(guān)鍵性因素。
GPT-1:在BooksCorpus數(shù)據(jù)集上進(jìn)行訓(xùn)練,該數(shù)據(jù)集包含4 629 MB原始文本,涵蓋各種書籍類型,對(duì)訓(xùn)練數(shù)據(jù)的治理不夠重視。
GPT-2:通過爬取Reddit鏈接創(chuàng)建WebText數(shù)據(jù)集,并將其用于模型的預(yù)訓(xùn)練。研發(fā)團(tuán)隊(duì)開始重視訓(xùn)練數(shù)據(jù)的治理,具體策略如下:一是對(duì)Reddit鏈接進(jìn)行過濾,爬取高質(zhì)量的文本數(shù)據(jù);二是使用Dragnet和Newspaper工具對(duì)文本數(shù)據(jù)進(jìn)行提純;三是基于啟發(fā)式策略進(jìn)行數(shù)據(jù)去重和數(shù)據(jù)清理(數(shù)據(jù)準(zhǔn)備)。經(jīng)過數(shù)據(jù)治理,得到40 GB文本(約為GPT-1使用數(shù)據(jù)量的8.6倍),GPT-2無須微調(diào)即表現(xiàn)出良好的性能。
GPT-3:主要在Common Crawl數(shù)據(jù)集上訓(xùn)練,這是一個(gè)龐大但質(zhì)量較差的數(shù)據(jù)集。采用的數(shù)據(jù)治理策略如下:一是訓(xùn)練分類器,過濾低質(zhì)量文檔;二是使用WebText判斷文檔質(zhì)量;三是使用Spark的MinHashLSH進(jìn)行數(shù)據(jù)去重;四是擴(kuò)展WebText訓(xùn)練數(shù)據(jù)集,添加較高質(zhì)量的書籍語料庫(kù)和Wikipedia數(shù)據(jù)。對(duì)45 TB純文本數(shù)據(jù)進(jìn)行治理后,獲得570 GB文本(進(jìn)行了嚴(yán)格的數(shù)據(jù)質(zhì)量控制,選用率僅為1.27%),在此更高質(zhì)量更大規(guī)模訓(xùn)練數(shù)據(jù)集上訓(xùn)練得到的GPT-3模型,其性能超過GPT-2。
InstructGPT:在人類反饋的基礎(chǔ)上進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào),以符合人類期望。采用的數(shù)據(jù)治理策略如下:一是使用數(shù)據(jù)標(biāo)注技術(shù),用人類反饋答案的數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí)微調(diào);二是通過考試和問卷的嚴(yán)格過程選擇標(biāo)注者,確保數(shù)據(jù)標(biāo)注質(zhì)量;三是構(gòu)建比較數(shù)據(jù)集(按質(zhì)量排序的人類評(píng)估答案)以訓(xùn)練獎(jiǎng)勵(lì)模型,然后使用人類反饋的強(qiáng)化學(xué)習(xí)(reinforcement learning from human feedback,RLHF)進(jìn)行微調(diào)。通過前述數(shù)據(jù)治理,InstructGPT生成了更真實(shí)、無偏見、更符合人類期望的答案。
ChatGPT/GPT-4:隨著產(chǎn)品商業(yè)化進(jìn)程推進(jìn),數(shù)據(jù)治理等相關(guān)訓(xùn)練信息不再披露。ChatGPT/GPT-4很大程度上遵循了Transformer的架構(gòu)設(shè)計(jì),并在更高質(zhì)量、更大規(guī)模的強(qiáng)化學(xué)習(xí)數(shù)據(jù)集上使用RLHF方法對(duì)模型進(jìn)行微調(diào),大幅提升模型性能。
從GPT-1到ChatGPT/GPT-4的訓(xùn)練數(shù)據(jù)治理經(jīng)歷了如下變化:較低質(zhì)量、較小規(guī)模的數(shù)據(jù)集→更高質(zhì)量、更大規(guī)模的數(shù)據(jù)集→更高質(zhì)量、更大規(guī)模、引入人類反饋的標(biāo)注數(shù)據(jù)集。與此同時(shí),除了增加參數(shù)以適應(yīng)更多的訓(xùn)練數(shù)據(jù),模型算法結(jié)構(gòu)設(shè)計(jì)沒有重大調(diào)整,這表明了數(shù)據(jù)治理的重要性。
4.1.2 推理數(shù)據(jù)的治理
演進(jìn)針對(duì)大語言模型的推理數(shù)據(jù)開發(fā)與治理研究仍處于初期階段。在不久的將來,基于特定任務(wù)的推理數(shù)據(jù)開發(fā)方法將逐漸適應(yīng)大語言模型,如構(gòu)建對(duì)抗性攻擊數(shù)據(jù)以測(cè)試模型魯棒性。
當(dāng)前的ChatGPT/GPT-4模型已達(dá)到高度復(fù)雜的水平,可以通過僅調(diào)整提示(推理數(shù)據(jù)輸入)來實(shí)現(xiàn)各種目標(biāo)。未來,許多AI從業(yè)者可能不再需要訓(xùn)練或微調(diào)模型,而是專注于提示工程。然而,提示工程是一個(gè)依賴經(jīng)驗(yàn)的、具有挑戰(zhàn)性的任務(wù),即使是語義上相似的提示也可能產(chǎn)生顯著不同的輸出。在這種情況下,需要采用更加多樣化的推理數(shù)據(jù)治理技術(shù)或策略,以提高模型的推理效果。
4.1.3 運(yùn)維數(shù)據(jù)的治理演進(jìn)
ChatGPT/GPT-4在數(shù)據(jù)維護(hù)方面花費(fèi)了大量精力。作為商業(yè)產(chǎn)品,ChatGPT/GPT-4不可能只訓(xùn)練一次就停滯,其運(yùn)維數(shù)據(jù)需要不斷被更新和維護(hù)。一是持續(xù)進(jìn)行數(shù)據(jù)收集,通過用戶輸入的提示和提供的反饋進(jìn)一步改進(jìn)模型。在這個(gè)過程中,模型開發(fā)者需要設(shè)計(jì)指標(biāo)來監(jiān)控?cái)?shù)據(jù)質(zhì)量以及維護(hù)數(shù)據(jù)質(zhì)量的策略,以收集更高質(zhì)量的數(shù)據(jù)。二是加強(qiáng)數(shù)據(jù)理解,開發(fā)各種工具來可視化和理解用戶數(shù)據(jù),以更好地理解用戶需求并指導(dǎo)未來的模型改進(jìn)。三是采用高效的數(shù)據(jù)處理技術(shù),隨著ChatGPT/GPT-4用戶的快速增長(zhǎng),要開發(fā)高效的數(shù)據(jù)管理系統(tǒng),以便快速檢索用于訓(xùn)練和測(cè)試的相關(guān)數(shù)據(jù)。
4.2 Ziya2大語言模型的數(shù)據(jù)治理實(shí)踐
Ziya2研究團(tuán)隊(duì)致力于持續(xù)預(yù)訓(xùn)練技術(shù)的開發(fā),在保持模型的大小和結(jié)構(gòu)基本不變的前提下,深入分析高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù)如何顯著提升大語言模型的性能。為此,研究團(tuán)隊(duì)以Meta AI公司130億參數(shù)的Llama2模型為基礎(chǔ),在高質(zhì)量訓(xùn)練數(shù)據(jù)集(約7 000億個(gè)中英文token)上進(jìn)行了持續(xù)預(yù)訓(xùn)練,最終推出了Ziya2模型。預(yù)訓(xùn)練過程分為3個(gè)階段,具體采取了以下數(shù)據(jù)治理策略。
在第一階段,對(duì)接近LLaMA2原始分布的英文數(shù)據(jù)進(jìn)行采樣,并對(duì)中文數(shù)據(jù)進(jìn)行了清洗,對(duì)代碼數(shù)據(jù)進(jìn)行了格式化,對(duì)這些數(shù)據(jù)進(jìn)行混合,形成了高質(zhì)量的無監(jiān)督數(shù)據(jù)集,并進(jìn)行預(yù)訓(xùn)練。在此階段,訓(xùn)練數(shù)據(jù)被完全隨機(jī)化,不同的數(shù)據(jù)片段被拼接成4 096個(gè)token的樣本,并利用注意力掩碼避免不同數(shù)據(jù)片段之間相互干擾,從而最大限度地提高訓(xùn)練效率。
在第二階段,引入中文和英文標(biāo)注數(shù)據(jù),如Wanjuan-Idea數(shù)據(jù)集,增強(qiáng)Ziya2在下游任務(wù)上的性能。與第一階段隨機(jī)組合數(shù)據(jù)的方式不同,這一階段將相同類型的標(biāo)注數(shù)據(jù)拼接成一個(gè)樣本,并確保每個(gè)樣本中拼接的數(shù)據(jù)都是完整的。
在第三階段,增加了與數(shù)學(xué)相關(guān)的標(biāo)注數(shù)據(jù),如MetaMath數(shù)據(jù)集,數(shù)據(jù)的拼接方式與第二階段保持一致。經(jīng)過這一階段的預(yù)訓(xùn)練,Ziya2顯著提升了數(shù)學(xué)推理能力和編程能力。這一結(jié)果表明,數(shù)學(xué)推理數(shù)據(jù)對(duì)于編程這類邏輯性較強(qiáng)的任務(wù)至關(guān)重要。為了防止Ziya2在預(yù)訓(xùn)練中出現(xiàn)災(zāi)難性遺忘,第二階段和第三階段額外采樣了與標(biāo)注數(shù)據(jù)同比例的中英文無標(biāo)注數(shù)據(jù)構(gòu)建訓(xùn)練數(shù)據(jù)集,以進(jìn)行持續(xù)的預(yù)訓(xùn)練。
經(jīng)過這一系列的訓(xùn)練,Ziya2團(tuán)隊(duì)成功打造了130億參數(shù)的Ziya2模型。對(duì)比基準(zhǔn)模型,Ziya2模型在各項(xiàng)評(píng)估指標(biāo)上均展現(xiàn)了顯著的性能提升。具體而言,以LLaMA2為標(biāo)準(zhǔn)進(jìn)行LLM評(píng)估,Ziya2在MMLU上提高了10%,在CMMLU上提高了61%,在C-Eval上提高了68%,在GSM8K數(shù)學(xué)問題解答任務(wù)上提升了138%,在MATH數(shù)學(xué)問題解答任務(wù)上提升了120%,在HumanEval代碼生成任務(wù)上提升了89%。相較于其他開源的、規(guī)模相當(dāng)?shù)拇笳Z言模型,Ziya2在中文及英文通用任務(wù)上取得了領(lǐng)先地位,在數(shù)學(xué)和編程領(lǐng)域任務(wù)上的表現(xiàn)顯著優(yōu)于同類模型。這表明,采用高質(zhì)量的數(shù)據(jù)集和恰當(dāng)?shù)某掷m(xù)預(yù)訓(xùn)練策略,可以在不大幅度增加模型參數(shù)規(guī)模的情況下,有效提升大語言模型的性能表現(xiàn)。
4.3 能源領(lǐng)域AI大語言模型的數(shù)據(jù)治理實(shí)踐
在能源領(lǐng)域,AI大語言模型的應(yīng)用已經(jīng)取得了顯著進(jìn)展,以數(shù)據(jù)為中心的人工智能開發(fā)應(yīng)用范式發(fā)揮著重要作用。
中國(guó)南方電網(wǎng)有限責(zé)任公司的“大瓦特”大語言模型主要應(yīng)用于智能客服、輸電巡檢、負(fù)荷預(yù)測(cè)等任務(wù)。該模型整合了電力行業(yè)的專業(yè)知識(shí)和海量數(shù)據(jù),構(gòu)建了一個(gè)跨自然語言和計(jì)算機(jī)視覺模態(tài)的大語言模型,能夠處理復(fù)雜的電力系統(tǒng)任務(wù),如巡檢報(bào)告自動(dòng)生成和故障預(yù)測(cè)等。在“大瓦特”大語言模型的構(gòu)建過程中,數(shù)據(jù)治理發(fā)揮了基礎(chǔ)性作用,重點(diǎn)在數(shù)據(jù)的收集、清洗和標(biāo)注,并通過不斷優(yōu)化數(shù)據(jù)質(zhì)量和豐富數(shù)據(jù)樣本,提升了模型的準(zhǔn)確性和泛化能力。
國(guó)家能源集團(tuán)的能源通道大語言模型主要用于煤炭、電力、鐵路、港口、航運(yùn)、化工等多領(lǐng)域的智能查詢、智能平衡、智能預(yù)警和智慧分析。該模型利用生產(chǎn)運(yùn)營(yíng)過程中的設(shè)備、貨物、物流、銷售、氣象等數(shù)據(jù),對(duì)通用大語言模型進(jìn)行強(qiáng)化訓(xùn)練,形成了具備能源專業(yè)知識(shí)的行業(yè)大語言模型。該模型數(shù)據(jù)治理融合了產(chǎn)業(yè)特定數(shù)據(jù)與通用數(shù)據(jù),注重提高數(shù)據(jù)的質(zhì)量和多樣性,從而提升模型在特定能源場(chǎng)景中的應(yīng)用效果。
上海全應(yīng)科技有限公司的熱電云平臺(tái)模型的應(yīng)用場(chǎng)景主要是熱電生產(chǎn)的智能調(diào)控,以提升發(fā)電效率和減少碳排放。該模型通過AI技術(shù)對(duì)熱電生產(chǎn)過程進(jìn)行全自動(dòng)智能調(diào)控,優(yōu)化發(fā)電過程中的各項(xiàng)參數(shù)。該公司在數(shù)據(jù)收集和處理上投入大量資源,確保數(shù)據(jù)的準(zhǔn)確性和實(shí)時(shí)性,從而使AI模型能夠進(jìn)行精準(zhǔn)的預(yù)測(cè)和調(diào)控。
國(guó)網(wǎng)山東電力公司的AI中臺(tái)代表性應(yīng)用場(chǎng)景包括智能巡檢、智能營(yíng)銷與客服等。該公司與百度智能云合作,搭建了AI中臺(tái),利用大語言模型技術(shù)提升電力系統(tǒng)的智能化水平。其數(shù)據(jù)治理的重點(diǎn)是數(shù)據(jù)的標(biāo)準(zhǔn)化和統(tǒng)一化管理,通過構(gòu)建高質(zhì)量的數(shù)據(jù)集提升了AI模型的訓(xùn)練效果和應(yīng)用性能。
上述案例充分體現(xiàn)了以數(shù)據(jù)為中心發(fā)展人工智能的核心思想,即通過高質(zhì)量的數(shù)據(jù)治理來驅(qū)動(dòng)AI模型的性能提升,主要治理策略如下:一是注重?cái)?shù)據(jù)收集與清洗,提升源數(shù)據(jù)治理效果,確保數(shù)據(jù)的全面性和準(zhǔn)確性;二是注重?cái)?shù)據(jù)集成與增強(qiáng),提升預(yù)訓(xùn)練數(shù)據(jù)治理效果,將不同來源的數(shù)據(jù)進(jìn)行集成融合,提升數(shù)據(jù)的多樣性和覆蓋面;三是突出數(shù)據(jù)治理的中心地位,注重?cái)?shù)據(jù)標(biāo)注與管理,通過專業(yè)的數(shù)據(jù)標(biāo)注和管理工具,提升數(shù)據(jù)的可用性和訓(xùn)練效果;四是注重?cái)?shù)據(jù)持續(xù)優(yōu)化與模型升級(jí)迭代,加強(qiáng)運(yùn)維數(shù)據(jù)的治理,通過不斷的數(shù)據(jù)治理和模型迭代,提升AI模型的性能和適應(yīng)性。
5 結(jié)束語
在人工智能研究及開發(fā)應(yīng)用領(lǐng)域,以數(shù)據(jù)為中心的方法逐漸占據(jù)核心地位。經(jīng)過學(xué)術(shù)界和產(chǎn)業(yè)界多年的不懈努力,人工智能相關(guān)模型架構(gòu)設(shè)計(jì)日趨完善,特別是自Transformer架構(gòu)問世以來,其潛力被持續(xù)挖掘中。目前,提升數(shù)據(jù)集的規(guī)模和質(zhì)量已經(jīng)成為增強(qiáng)AI系統(tǒng)性能的關(guān)鍵途徑。源數(shù)據(jù)治理、預(yù)訓(xùn)練數(shù)據(jù)治理、評(píng)測(cè)數(shù)據(jù)治理、微調(diào)數(shù)據(jù)治理推理數(shù)據(jù)治理和運(yùn)維數(shù)據(jù)治理將更緊密地融合在AI系統(tǒng)開發(fā)應(yīng)用全過程中,成為推動(dòng)人工智能發(fā)展的關(guān)鍵支撐力量。目前,大語言模型技術(shù)未被應(yīng)用于雙碳目標(biāo)、節(jié)能減排、應(yīng)對(duì)氣候變化等細(xì)分領(lǐng)域,下一步相關(guān)人員可結(jié)合能源環(huán)境和應(yīng)對(duì)氣候變化專業(yè)領(lǐng)域的特點(diǎn),對(duì)該專業(yè)領(lǐng)域的大語言模型開發(fā)應(yīng)用進(jìn)行嘗試,將面向人工智能的數(shù)據(jù)治理框架和技術(shù)應(yīng)用于能源-環(huán)境-經(jīng)濟(jì)復(fù)雜系統(tǒng)和應(yīng)對(duì)氣候變化建模,以對(duì)省間多區(qū)域協(xié)同減排關(guān)鍵技術(shù)進(jìn)行智能化組合生成、發(fā)掘評(píng)價(jià),進(jìn)而在具體應(yīng)用中進(jìn)一步豐富和完善面向人工智能的數(shù)據(jù)治理理論框架和技術(shù)實(shí)踐。