男女性高爱潮免费网站,免费人成在线观看视频播放,三级三级三级a级全黄,日日摸日日碰夜夜爽无码,国产精品久久久久精品日日,黑人巨大粗物挺进了少妇,国产麻豆一区二区三区精品视频,精品久久久久久亚洲综合网

“盜”數據,AI大模型的黑暗面

深燃
+ 關注
2023-06-19 10:21
799次閱讀
“AI大模型數據被盜第一案”的真與假。

一個叫作“一筆兩劃”的創業公司,公開聲討曾經的教培龍頭“學而思”,說它用“扒庫”的方式,“偷”走了自己辛辛苦苦攢下的數據。

故事的起因,是在今年4月中旬,“筆神作文”(一筆兩劃公司旗下產品)發現,服務器接口出現大量有規律的異常訪問,導致服務器承載壓力快速升高。

訪問量遠超日常平均值。筆神作文對深AI透露,平時的日訪問量大約是幾百或幾千,那幾天暴增至每天超過50萬。一周之內,他們的數據被爬取了258萬次。

“盜”數據,AI大模型的黑暗面

筆神作文公布的數據庫調用情況

通過查閱服務器日志,筆神作文發現,單一IP通過“爬蟲”技術,高密度地爬取了他們的數據庫。這個IP每次訪問的搜索詞,都是作文相關,系統會每頁返回30篇作文,每次訪問都是用搜索詞從第一頁逐頁向后翻,基本上把庫里同個題目的所有作文,全部抓取完了。

業內人士介紹,通常情況下,普通用戶不會這么干。這種對數據庫的搜刮式訪問,也被稱為“扒庫”。

筆神作文認為,“扒庫”的幕后黑手,是它的合作伙伴學而思。

“扒庫”事件發生后沒多久,筆神作文發現,學而思在進行數學大模型MathGPT的研發,并表示將于近期上線一款“AI助手”,其中一項功能,就是作文。

筆神作文被“扒庫”,和學而思開發“作文AI助手”,這兩起事件之間是否有關聯,目前尚沒有明確結論。

但筆神作文認為,自己的權益被侵犯了。它向對方發去律師函,并將這件事公之于眾,試圖討要一個說法。學而思方面則給出公開回應,稱對筆神素材內容的使用均符合合同要求,且其自研的MathGPT大模型和“作文AI助手”,沒有使用筆神作文的任何數據。

此次事件中,值得探討的不僅是作文素材。數據,對于大模型而言,意味著什么?

我們先簡單介紹一下筆神作文。

這家公司成立于2017年,產品“筆神”是一款人工智能輔助寫作軟件,算是AI+教育的產物。一開始“筆神”面向內容創作平臺和相關工具廠商,后來深入到垂直領域,用AI教學生寫作文,于是就有了“筆神作文”。

你可以簡單理解:它處在教育行業,面向的是學生群體,利用了人工智能技術,解決的是寫作文的場景。

AI寫作文,跟今天大火的ChatGPT,在技術上有很多共通之處。它們都涉及到自然語言處理、語義分析預測、機器學習等技術。筆神作文創始人宋嘉偉,曾擔任過索尼高級系統架構師、奇點機智CTO。

早在五年前,宋嘉偉就說過,在考慮如何將bert或GPT-2這些預訓練語言模型技術運用到應用中去。當時GPT尚未出圈,不像今天這樣廣為人知。

開始做AI作文之后,筆神作文正式進入教育賽道,跟教培龍頭學而思踏進了同一條河流。

據筆神方面介紹,2020年12月,筆神作文跟學而思達成合作。筆神作文為學而思提供“筆神作文范文素材服務接口”,用于學而思相關服務中,按調用次數結算費用。為此,筆神作文為學而思開放了服務接口。

也就是說,學而思可以調用筆神作文數據庫中的作文素材,并為之付費。

作文素材,是這項交易中的一個核心資產,也是筆神作文商業模式的基石。事實上,筆神作文最早就是從素材這個點切入的。它當年主打的“一鍵找素材”功能,用戶通過搜索關鍵詞,系統可以自動匹配素材,資源從古詩詞經典、公文,到現代網文均有涵蓋。在寫作過程中,系統還可以實時推送素材。

這些素材不是來源于網絡,而是筆神自有的數據庫。通過AI技術的智能識別、翻譯、匹配,筆神能向用戶的搜索行為反饋回合適的素材。

當這些作文素材的量足夠大、質量足夠優質、匹配夠精準,就具備了一定的商業價值,甚至可以對外售賣。這才有了跟學而思的合作。

問題是,這些素材有被“偷”走的風險,尤其是在開放部分接口的情況下。

按照筆神作文對深AI的介紹,他們對與學而思的合作范圍進行了限定,“我們開放接口讓他們調用我們的數據,顯示在他們自己的APP里,但合同中并未包括存儲數據或用于AI算法的權限。數據應僅供他們的用戶調用,不能被存儲在他們的機器上。”

相當于,當用戶在學而思的產品端發起搜索,調用的作文范本來自筆神作文,學而思不能自己儲存。

4月中旬的那次異常調用,讓筆神作文認為,超出了正常的商業合作范圍。“他們的行為觸發了我們的防御機制,這才使我們發現了這一情況。”

筆神作文稱,他們查看了后臺的訪問日志,發現是由單一IP通過“爬蟲”技術發起的非法訪問。“我們已經掌握了這個IP地址。”

“盜”數據,AI大模型的黑暗面

筆神作文公布的IP地址情況(一部分)

國內某人工智能創業公司的CEO劉然對深AI分析,這種窮舉關鍵詞的方式,肯定是想要獲取庫里的數據,這是非常明顯的行為。

筆神作文對深AI透露,事發后他們與學而思的運營人員求證,對方直接承認,是學而思的算法組在爬取數據并作為己用。不過,針對此說法,深AI尚未得到學而思方面的證實。

曾經的合作伙伴,突然變成了門口的野蠻人,讓筆神作文非常憤怒,多次發出律師函。

學而思方面則在6月13日的公開回應中稱,其對筆神作文接口的調用,并未超出雙方合同范圍,對筆神素材內容的使用均符合合同要求,未用于合同以外的任何用途。學而思專門強調,其自研的MathGPT大模型和“作文AI助手”,沒有使用筆神作文的任何數據。

雙方各執一詞,目前未有定論。筆神作文稱,該案件可能將會成為“AI大模型數據被盜第一案”。

一個值得探討的問題是,數據,對于大模型而言,意味著什么?

算力、算法、數據,是人工智能進行機器學習的三大核心要素。

為了提升算力,很多科技公司都在花重金搶奪英偉達的GPU。在算法端,國內外的一些大廠將算法開源,大大降低了模型開發的門檻。

而在數據端,壁壘一直存在。去哪里找到高質量數據,是個關鍵問題。

生成式AI大模型需要使用大量且多樣化的數據來進行訓練,以提高模型的泛化能力和生成能力。不同的模型可能使用不同的數據來源。ChatGPT這類通用大模型,用了很多公開數據,如各類新聞網站、書籍、科學論文、網頁等等。一些垂直領域的大模型,則需要找到有針對性的語料庫和數據集。

國內某頭部科技公司的大模型負責人對深AI表示,ChatGPT其實也用了很多非公開的數據,網上的公開數據很多都質量非常差,高質量的數據是有門檻的。數據的獲得、清洗,都面臨很大挑戰。

好未來CTO田密在5月4日公開表示,“很多領域是有數據壁壘和行業know-how的,大模型還是得和領域知識深度結合,加上足夠多的領域數據來訓練領域大模型。”

就像田密說的,領域大模型要和領域知識深度結合。在AI作文領域,作文素材就是訓練機器的重要數據。

早在2019年,筆神公司就開始有目的性地收集數據,訓練自己的作文語料庫,覆蓋名人名言、詩詞、公文、網絡語言等。他們利用訓練機器模擬人工標簽的方式,對每條語料打標簽。

在垂直語料庫中,只有對數據打過標簽,才能基于向量匹配、用戶當前創作內容的語義分析和預測,進行精準的內容推送。

劉然對深AI說,建立模型需要大量經過驗證的數據,如果這些數據已經整理好了,那么就可以節省大量的人力工作。筆神作文整理的作文,可能被當作標注數據使用。

這個過程是持續且漫長的。筆神作文稱,創業六年,他們總共積累了超過500萬篇作文素材,月批改量超3萬篇。這些作文素材,是經過一篇篇人工審核、篩選投稿、打標簽、分級、數據糾正,最后累積起來的。

這些數據不僅能在APP的頁面以素材形式呈現,還能拿去在后臺訓練算法。所以在跟其他公司合作開放接口時,筆神作文在協議中專門加了一條——不得“緩存,存儲,作為語料進行計算,訓練”。

筆神作文認為學而思“盜”走了數據,揣測學而思將數據用于數學大模型MathGPT以及學而思學習機“作文AI助手”的訓練和研發。但這似乎很難證明。

劉然認為,正常來講,作文數據應該會提前設置一些限制,比如不接受高并發,在數據里加密,而且應該能追蹤到數據的去向和用途。不過他同時認為,作文數據不像用戶關鍵行為數據那么關鍵。

“你可以讓AI學習什么是好的作文,然后讓它按照這些標準生成。但我認為,其實不需要那么大量的數據。幾萬篇高質量的作文應該就夠了。”他說。

筆神作文態度強硬,連發兩篇公告,要求學而思道歉,同時索賠1元。它甚至想給這次事件扣上“AI大模型數據被盜第一案”的帽子。

上海曼昆律師事務所主任劉紅林律師對深AI表示,筆神作文自建的語料庫或素材庫,本身是有知識產權權益的。但是否屬于著作權法上的作品,需要看獨創性是否符合相關的判定標準。

如果筆神作文有足夠的證據能證明學而思惡意抓取了他們的數據,那么可以發起知識產權侵權或不正當競爭訴訟。”他說。

另外,筆神作文與學而思有合作協議,如果對知識產權的尊重和授權進行了約定,他們也可以通過合同違約來保護自己的權益。

值得注意的是,筆神作文素材庫中的很多作文,是用戶投稿而來。筆神作文自稱,每個月都會收到30萬篇作文投稿。因此,在認定是否侵權之前,先要厘清這些素材的知識產權歸屬。

劉紅林分析,這要看作文的創作者(投稿人)與筆神作文之間,如何對知識產權進行約定。如果用戶在投稿時對筆神作文進行了知識產權授權,那么筆神作文就享有對應的權益。

深AI查詢筆神作文的用戶服務協議,發現其中有這么一條:用戶在筆神作文發表的內容(包括但不限于留言、評論、筆記),授予筆神作文免費且不可撤銷的非獨家使用許可。

“盜”數據,AI大模型的黑暗面

也就是說,筆神作文對素材庫擁有知識產權。

劉然想不明白的是,筆神作文為什么會與學而思合作。“如果是我,絕對不會跟學而思合作,因為我們是強競爭關系。”他認為,“在大模型時代,僅僅提供作文數據庫的做法是沒有機會的。”

有業內人士分析,學而思有流量,有場景,有知名度,尤其是在面向用戶的前端產品方面,學而思的優勢要比筆神作文大。而在后端收集數據、建設素材庫的工作,費時費力,短期難見成效。對于學而思而言,直接拿現成的素材庫接入是最方便的。筆神作文則靠出售素材庫的調用權限,實現了商業變現。

但對筆神作文這種創業公司而言,這樣的合作就像是帶刺的玫瑰。因為巨頭隨時可能打進你的領地,甚至在業務層面形成直接競爭。

AI批改作文是筆神作文很重要的一項功能。而早在三年前,好未來(學而思母公司)也曾推出過“中英文作文批改解決方案”,通過AI實現智能化中英文作文批改。

現在,AI改作文只是好未來龐大AI產品矩陣的冰山一角。在其最新的產品介紹中,中文作文批改,屬于中英文聽寫批改中的一個模塊。好未來有更大的野心,它的觸角已經伸向AI+教育的方方面面。

“盜”數據,AI大模型的黑暗面

ChatGPT帶火生成式AI之后,人工智能行業的創業者既興奮又焦慮。他們興奮的是,行業終于又熱起來了;焦慮的是,ChatGPT實在是太強大了,很多垂直領域的創業項目一夜之間失去了壁壘。

像筆神作文這樣的公司,競爭壁壘在哪里,如何與巨頭對抗,是很現實的問題。而人工智能行業的加速內卷,同質化競爭的加劇,會讓創業公司與巨頭的對抗升級。

搶數據,或許只是新一輪爭奪戰的冰山一角。

*題圖來源于視覺中國。應受訪者要求,劉然為化名。

本文來自微信公眾號“深AI”(ID:DeepAI2023),作者:黎明,編輯:魏佳,36氪經授權發布。

[免責聲明]

原文標題: “盜”數據,AI大模型的黑暗面

本文由作者原創發布于36氪企服點評;未經許可,禁止轉載。

資深作者深燃
0
消息通知
咨詢入駐
商務合作
主站蜘蛛池模板: 性一交一乱一伦一色一情丿按摩| 九九re6热在线视频精品66| 国产熟女内射oooo| 跪趴式啪啪gif动态图27报| 亚洲色无码播放| 强迫妺妺hd高清中字| 最近免费中文字幕mv视频7| 日本亚洲欧洲另类图片| 姑娘故事高清在线观看免费| 精品国精品国产自在久国产| av网站免费线看精品| 欧美丰满熟妇xxxx| 亚洲高清毛片一区二区| 永久黄网站色视频免费| 亚洲欧美自拍偷一区二区| 人妻丰满熟妇av无码区免| 国产日产欧产美韩系列麻豆| 一个人在线观看免费完整版| 又小又紧女magnet| 两个人看的www免费视频中文| 夫前人妻被灌醉侵犯在线| 中国老妇xxxx性开放| 中文成人无字幕乱码精品区| 男人使劲躁女人视频免费观看| 最近最新中文字幕视频| 仙踪林果冻传媒一区二区| 在线看片免费人成视频大全| 国产98在线 | 欧美| 亚洲永久无码7777kkk| 八戒八戒免费视频| 夫前人妻被灌醉侵犯在线| 挺进朋友人妻雪白的身体韩国电影| 日日噜噜夜夜狠狠视频| 《熟妇的荡欲》电影| √新版天堂资源在线资源| 西西人体做爰大胆gogo| 亚洲人成电影在线播放| 色综合久久久久无码专区| 熟熟熟熟熟熟熟熟妇50岁| 美女黄网站视频免费视频| 亚洲精品乱码久久久久久日本|