訊 6月14日,2024北京智源大會正式開幕,智源大會人工智能+數據新基建論壇同步召開。大會現場發表了北京人工智能數據運營平臺。北京智源人工智能研究院理事長、北京大學教授黃鐵軍表示,構建大模子生態首要要創建數據流暢機制,推動從數據到智能的正反饋。
據介紹,北京人工智能數據運營平臺實現數據的匯聚控制、處理加工,并提供多種模態的數據標注支援,支援多種數據匯聚和採用格式,連續不斷擴充數據規模,為大模子行業發展提供堅實的數據支撐。
支援三種數據採用模式
本次論壇上,智源研究院聯手京能數字產業有限公司(下簡稱京能數產)發表了北京人工智能數據運營平臺。北京人工智能數據運營平臺是在國家發展革新委、國家數據局傳授下,北京市發展革新委主導,市委網信辦、市科委、市經信局、海淀區政府、中國網絡空間安全協會人工智能安全治理專委會等單位支援推動,由智源研究院牽頭與京能數產等單位共建。數據平臺實現數據的匯聚控制、處理加工,并提供多種模態的數據標注支援,支援多種數據匯聚和採用格式,連續不斷擴充數據規模,為大模子行業發展提供堅實的數據支撐。
現在,數據運營平臺支援開源開放、積分共享、數算一體三種數據運營模式。開源開放模式許可用戶在遵守採用協議的條件下自由下載採用。積分共享模式面向數據工作組內的成員,依據數據功勞實行積分制,即成員單位功勞數據,依照計分尺度獲取相應積分,同時獲得共享數據的權益。數算一體模式針對高價值數據,僅在平臺上進行數據加工、培訓採用,保證數據不出安全域。
開源超大規模高質量數據集
本次論壇上,智源研究院發表環球最大的多行業中英雙語數據集IndustryCorpus 10 ,大幅度提拔了環球開源行業數據集的數據量,為大模子的行業落地提供了強有力的保障。同時,智源選取醫療行業數據集,完工了示范模子培訓,贏得了優異的模子行業才幹提拔,為行業模子培訓提供高質量范例和參考。
啟動萬萬級指令微調數據集
高質量的指令數據是大模子功能的養料。本次論壇上,智源研究院發表的萬萬級高質量指令微調數據集開源項目,包含有基于開源數據集進行高質量篩選的數據和通過數據合成想法構造的高質量指令數據。智源對現有開源數據進行領域解析確保合乎邏輯類型分布,對大規模數據進行質量篩選保存高價值數據,針對開源數據缺乏的領域和任務,進行數據增廣,并結合人工標注對數據質量進行管理,避免合成數據分布偏差。
構建通用數據集和行業數據集兩大專區
本年以來,智源匯聚了海量可直接用于算法培訓的通用數據集和行業數據集。本次論壇上,智源發表通用數據集和行業數據集兩大專區。
通用數據集為用于通用根基模子培訓的多種模態數據。當前已經匯聚在數據運營平臺的通用數據集有116個,總數據量70027TB,此中文本數據976TB,多模態圖文數據量7531TB,視頻數據量615TB,音頻數據02TB。 行業數據集涵蓋了行業領域特有的知識和信息,用于培訓各種行業模子,推動人工智能從通用向技術化、精細化連續發展。現在行業專區數據集28個,數據量433TB,此中文本數據集22個,數據量43TB,多模態圖文行業數據集6個,數據量003TB。
全面升級數據處理工具FlagData30
數據質量直接決意了大模子的輸出才幹,採用數據處理工具連續不斷提拔數據質量變得日益主要。智源研究院長期投入數據建設工作,開闢了一批數據處理的高效工具。FlagData數據工具開源項目涵蓋清洗、標注、壓縮、統計解析等性能在內的多個數據處理工具與算法,為提拔數據質量帶來直接的便利。
本次論壇上,FlagaData20全面升級為FlagData 30,一方面提供了傻瓜式語言數據處理工具,支援一鍵式搭建數據處理工作流。另一方面,為技術的進階用戶提供數十種數據加工算子,支援自定義數據處理流程。
訊 6月14日,2024北京智源大會正式開幕,智源大會人工智能+數據新基建論壇同步召開。大會現場發表了北京人工智能數合法的棋牌遊戲平台據運營平臺。北京智源人工智能研究院理事長、北京大學教授黃鐵軍表示,構建大模子生態首要要創建數據流暢機制,推動從數據到智能的正反饋。
據介紹,北京人工智能數據運營平臺實現數據的匯聚控制、處理加工,并提供多種模態的數據標注支援,支援多種數據匯聚和採用格式,連續不斷擴充數據規模,為大模子行業發展提供堅實的數據支撐。
支援三種數據採用模式
本次論壇上,智源研究院聯手京能數字產業有限公司(下簡稱京能數產)發表了北京人工智能數據運營平臺。北京人工智能數據運營平臺是在國家發展革新委、國家數據局傳授下,北京市發展革新委主導,市委網信辦、市科委、市經信局、海淀區政府、中國網絡空間安全協會人工智能安全治理專委會等單位支援推動,由智源研究院牽頭與京能數產等單位共建。數據平臺實現數據的匯聚控制、處理加工,并提供多種模態的數據標手機棋牌遊戲攻略注支援,支援多種數據匯聚和採用格式,連續不斷擴充數據規模,為大模子行業發展提供堅實的數據支撐。
現在,數據運營平臺支援開源開放、積分共享、數算一如何玩線上棋牌遊戲體三種數據運營模式。開源開放模式許可用戶在遵守採用協議的條件下自由下載採用。積分共享模式面向數據工作組內的成員,依據數據功勞實行積分制,即成員單位功勞數據,依照計分尺度獲取相應積分,同時獲得共享數據的權益。數算一體模式針對高價值數據,僅在平臺上進行數據加工、培訓採用,保證數據不線上棋牌遊戲下載出安全域。
開源超大規模高質量數據集
本次論壇上,智源研究院發表環球最大的多行業中英雙語數據集IndustryCorpus 10 ,大幅度提拔了環球開源行業數據集的數據量,為大模子的行業落地提供了強有力的保障。同時,智源選取醫療行業數據集,完工了示范模子培訓,贏得了優異的模子行業才幹提拔,為行業模子培訓提供高質量范例和參考。
啟動經典棋牌遊戲平台萬萬級指令微調數據集
高質量的指令數據是大模子功能的養料。本次論壇上,智源研究院發表的萬萬級高質量指令微調數據集開源項目,包含有基于開源數據集進行高質量篩選的數據和通過數據合成想法構造的高質量指令數據。智源對現有開源數據進行領域解析確保合乎邏輯類型分布,對大規模數據進行質量篩選保存高價值數據,針對開源數據缺乏的領域和任務,進行數據增廣,并結合人工標注對數據質量進行管理,避免合成數據分布偏差。
構建通用數據集和行業數據集兩大專區
本年以來,智源匯聚了海量可直接用于算法培訓的通用數據集和行業數據集。本次論壇上,智源發表通用數據集和行業數據集兩大專區。
通用數據集為用于通用根基模子培訓的多種模態數據。當前已經匯聚在數據運營平臺的通用數據集有116個,總數據量70027TB,此中文本數據976TB,多模態圖文數據量7531TB,視頻數據量615TB,音頻數據02TB。 行業數據集涵蓋了行業領域特有的知識和信息,用于培訓各種行業模子,推動人工智能從通用向技術化、精細化連續發展。現在行業專區數據集28個,數據量433TB,此中文本數據集22個,數據量43TB,多模態圖文行業數據集6個,數據量003TB。
全面升級數據處理工具FlagData30
數據質量直接決意了大模子的輸出才幹,採用數據處理工具連續不斷提拔數據質量變得日益主要。智源研究院長期投入數據建設工作,開闢了一批數據處理的高效工具。FlagData數據工具開源項目涵蓋清洗、標注、壓縮、統計解析等性能在內的多個數據處理工具與算法,為提拔數據質量帶來直接的便利。
本次論壇上,FlagaData20全面升級為FlagData 30,一方面提供了傻瓜式語言數據處理工具,支援一鍵式搭建數據處理工作流。另一方面,為技術的進階用戶提供數十種數據加工算子,支援自定義數據處理流程。