男女性高爱潮免费网站,免费人成在线观看视频播放,三级三级三级a级全黄,日日摸日日碰夜夜爽无码,国产精品久久久久精品日日,黑人巨大粗物挺进了少妇,国产麻豆一区二区三区精品视频,精品久久久久久亚洲综合网

數據堂入選首批“北京市人工智能大模型高質量數據集”合作企業

數據堂
+ 關注
2024-03-08 15:59
894次閱讀
7月2日,“2023全球數字經濟大會人工智能高峰論壇”在京舉辦。本次論壇以“智能涌現,重塑未來”為主題,匯集10余位人工智能領域頂級專家學者和企業、機構代表圍繞當下最具熱度的大模型發展話題分享了深刻洞見和思考。

數據堂入選首批“北京市人工智能大模型高質量數據集”合作企業

本次論壇發布了首批“北京市人工智能大模型高質量數據集”,共有10家單位的18個高質量訓練數據集入選,包括數據堂多語言多模態視頻文本對齊數據集、中文高質量大模型預訓練文本數據集,以及人民日報語料數據集、國家法律法規語料數據集,兩會參政議政建言數據集、“科情頭條”全球科技動態數據集,中國科學引文數據庫數據集、科技文獻挖掘語義標注數據集等,涵蓋經濟、政治、文化、社會、生態等不同領域,總規模超過500T,將為通用大模型和行業大模型訓練提供有力保障。

 

全國首個政務服務需求應用場景、北京市首批人工智能大模型高質量數據集、近百個場景案例發布,十個合作項目集中簽約,展現出在推動通用人工智能產業發展和大模型創新應用成果方面的“北京力量”。
此次人工智能高峰論壇作為“2023全球數字經濟大會”同期舉辦的六大高峰論壇之一,超高的熱度吸引了近千名觀眾現場參與,也得到了政府及行業相關部門的高度重視。北京市經濟和信息化局黨組書記、局長姜廣智出席活動并致辭。

數據堂入選首批“北京市人工智能大模型高質量數據集”合作企業

數據堂大模型數據解決方案

數據堂通過豐富的項目實施和管理經驗,人機結合的數據生產平臺既可以提供無監督數據的獲取、清洗,也可以為后續監督學習階段提供定制化數據服務。

01

無監督學習數據

針對無監督學習需要的訓練數據,數據堂可以提供文本、圖像、語音、視頻、點云等單一模態及跨模態融合的數據獲取與清洗服務,數據質量更有保障。 
中文高質量無監督文本數據集,可應用于大模型預訓練,數據規模約1億篇,涵蓋語文、數學、地理、歷史、化學、物理、生物、政治、計算機等各類學科領域的高質量文本,所有文本均經過標簽分類、內容清洗和質量評估。
方言高質量無監督視頻數據集,avi格式,數據規模達10萬小時,100TB。涵蓋全國各地方言10萬小時的說話視頻,每段視頻都標注了具體的方言種類。
多語言平行語料文本數據集,涵蓋50多個語種的平行互譯語料,覆蓋各類書面語和口語。所有文本均經過人工校對,句對準確率達到90%以上。
多模態安防領域圖像描述數據集,涵蓋各種場景圖片、車輛圖片、人臉圖片、手勢圖片、人體圖片等常見安防場景圖片,對每張圖片都進行了詳細的內容描述。圖文對準確率達到97%以上。

 

手勢多模態數據

多模態多語言自然對話語音數據集,數量為3萬小時,涵蓋普通話、方言和少數民族語及60多個語種的對話音頻。每段音頻都人工標注了話題類型、說話人角色和說話內容。準確率達到95%以上。
多模態多語言視頻標注數據,20TB,可應用于視頻字幕識別。涵蓋普通話、方言和少數民族語及30多個語種的說話視頻。每段視頻都人工標注了話題類型、說話人角色和說話內容。準確率達到95%以上。
另外,領域數據質量參差不齊,需要清洗后才可以投入使用。數據堂可以根據客戶領域數據類型及特點,針對性的提供數據清洗方案及人員服務。

02

監督學習數據

針對監督學習需要的人工標注的高質量訓練數據,數據堂可以提供文本、圖片、音頻、視頻、點云等單一模態及跨模態的數據定制標注服務,包括問答對編寫(SFT)、基于強化學習的人類反饋(RLHF)等。
  • 監督微調(SFT)數據

數據堂可幫助客戶通過對prompt編寫/改寫、output編寫/改寫等工序,生成高質量的SFT數據,用于模型微調。

 

  • 敏感性Prompt編寫/改寫:

我們可以根據客戶要求編寫/改寫敏感性Prompt,如暴力、政治、臟話、色情及其他等敏感內容,及帶有誘導類的敏感內容。
  • 常見output數據標注:

相關性:問題和答案之間要準確貼合,避免答非所問
真實性:輸出準確無誤的信息,不可以誤導用戶
連貫性:不可出現錯別字、語法錯誤、語義不順等。盡量口語化,避免使用過于書面或直接從網絡摘抄下來的內容
有幫助的:遵循用戶意圖,并幫助用戶解決他們的任務。答案簡明扼要,避免冗長和信息重復

無害性:輸出內容不應對人造成身體、心理或社會傷害;設備或財產的損壞或損失;對環境的破壞;或損害人類福祉所必需的機構或資源

  • 基于人類反饋的強化學習(RLHF)
在這一階段,數據堂可以針對SFT訓練后模型生成的多個結果按照客戶給定的規則進行人工排名,或者提供多因素打分。通過培訓標注員對齊價值觀,以及多人擬合的方式提升反饋的質量,以此提升大模型輸出結果的質量,使之更加貼近人類價值觀并有益。
  • 常見RM數據人工排名標注:

對模型輸出的內容從最好到最差進行人工排名,對于相同分數的輸出內容進行排序。

 

  • 常見RM數據多因素評分標注規范:

對模型輸出的內容從最好(5分)到最壞(1分)進行打分,包括平分,如果輸出質量接近,則分數相同。

[免責聲明]

原文標題: 數據堂入選首批“北京市人工智能大模型高質量數據集”合作企業

本文由作者原創發布于36氪企服點評;未經許可,禁止轉載。

資深作者數據堂
數據堂
0
數據堂(北京)科技股份有限公司
實力廠商
實力廠商
優質服務
優質服務
及時響應
及時響應
立即詢價
相關文章
最新文章
查看更多
關注 36氪企服點評 公眾號
打開微信掃一掃
為您推送企服點評最新內容
消息通知
咨詢入駐
商務合作
主站蜘蛛池模板: 亚洲国产香蕉碰碰人人| 女友被粗大的猛烈进出动漫| 我的极品美女老婆| 无码专区国产精品视频| 男女做爽爽爽网站| 无码囯产精品一区二区免费| 自拍偷自拍亚洲精品第1页 | 男人边吃奶边做呻吟免费视频| 麻豆一区二区大豆行情| 99热久久这里只有精品| 久久久精品人妻无码专区不卡| 欧美老肥妇做爰bbww| 男人的天堂av网站| 最近中文字幕免费完整| 三年在线观看免费观看大全| 久久成人伊人欧洲精品| 特级欧美aaaaaa片| 在线观看日本亚洲一区| 辣妹子影院电视剧免费播放| 国内精品久久久久国产盗摄| 娇妻玩4p被三个男人伺候| aa片在线观看视频在线播放| 欧美性猛交xxxx乱大交蜜桃| 亚洲国产区男人本色| 少妇粗大进出白浆嘿嘿视频| 国产精品一区二区av| 日本猛少妇色xxxxx猛叫| 丰满少妇被猛烈进入在线播放| 亚洲综合无码一区二区| 狠狠躁日日躁夜夜躁2022麻豆| 2023极品少妇xxxo露脸| 国产激情视频在线观看的| 色婷婷综合激情综在线播放| 美女裸体十八禁免费网站| 最近最新中文字幕视频| 国产美女牲交视频| 午夜性影院在线观看视频播放| 亚洲欧美一区二区三区在线| 三级4级全黄| 一本无码人妻在中文字幕免费| 99久久婷婷国产综合亚洲|