被大模型刷屏的2023年,數據標注發生了哪些變化?

斯坦福大學李飛飛等人在2022年8月發表的論文中指出,實現可信AI,數據的設計、改進和質量評估是關鍵。以數據為中心的人工智能將重點轉移到訓練數據的治理和增強,高質量的訓練數據集、完備的數據應用策略將會更好的服務于模型的開發與應用。
大模型的熱潮為人工智能開啟了新的篇章,作為人工智能的重要生產要素,數據集的作用更加凸顯。然而,飛速發展的大模型時代,訓練數據供需兩端也在發生轉變,適配于大模型領域的數據處理工具應運而生。
01 標注需求變化
從客觀到主觀
數據堂現有4個大型數據標注基地,通過專業化培訓、針對性考試,不斷提升大模型標注人員的專業理解力、邏輯思維、總結能力,現在500名穩定的大模型專業標注人員,全部通過內部考核
02 標注人員變化
從勞動密集轉向知識密集
數據堂擁有一支經驗豐富的大模型數據標注團隊,已經過多個項目的實戰。本科及以上學歷占比達95%,覆蓋醫療、IT、金融、教育、設計美學等專業領域的過往從業人員,保障數據集的更高質量要求。
03 價值觀變化
負責任的大模型
價值對齊是AI安全的一個核心議題。需要確保大模型的能力和行為跟人類的價值、真實意圖和倫理原則相一致,確保人類與人工智能協作過程中的安全與信任。不能輸出帶有歧視性的、有毒有害的、惡意引導性的內容。
數據堂的專業人員可以編寫各種對抗攻擊,如試探性的或者危險性的問題,以發現潛在問題并予以解決。通過紅隊測試,幫助客戶發現其模型在不準確信息(幻覺)、有害內容、虛假信息、歧視、語言偏見等方面的問題。
04 標注工具變化
更適配大模型數據處理需求
數據堂作為全球知名的AI訓練數據服務企業,為了更好的推動大模型領域發展,幫助客戶快速解決訓練數據需求,結合多個大模型數據處理案例,開發了更適配于大模型數據的標注工具。
針對現有大語言模型的數據標注,主要分為兩種類型。一種是對已有的問答數據進行評分評估,例如,客戶給定了一個問題以及多個答案,也可以是一個問題,通過外部模型生成答案,然后對答案進行打分、排序、評估敏感信息等。
另一種則是根據提示,自行編寫多輪問答數據,適用于監督微調SFT,例如,客戶只給定了一個指令,需要團隊根據指令去編寫問題與答案。
多輪問答模板操作界面
數據堂LLM文本模型標注平臺針對答案、整體布局、API接口以及評分規則等多個部分進行自有配置,幫助標注人員匹配更適合自己的高效工作版式。
結語
The End
在大模型數據服務方面,數據堂擁有豐富的項目經驗,可以提供高效率、高準確率的數據交付。我們始終采取高標準、完善的數據安全合規管理方案,全力保障客戶權益。從而讓客戶放心無憂的使用我們的服務。
