人工智慧(AI)近年迅速發展,主要依賴神經網絡規模擴大和訓練數據增加。然而,這種增長模式正面臨數據耗盡的挑戰,研究人員正積極尋求應對方案。根據 Epoch AI 的研究,預計到 2028 年 AI 模型訓練數據的規模將達到網上公開文本的總量,意味著未來四年內 AI 可能面臨數據耗盡危機。
目前,大型語言模型(LLM)訓練所需的數據規模正以爆炸式增長,例如支援 ChatGPT 的模型。與此同時,可用數據的增長速度卻相對緩慢。Villalobos 的研究指出,網絡內容每年增長不足 10%,但 AI 訓練數據的規模卻每年倍增。此外,數據來源受到越來越多限制,許多數據擁有者如報紙出版商,開始限制內容的使用方式。部分網站則透過軟件程式碼或修改服務條款來阻止 AI 公司獲取數據。數據版權問題亦引發更多訴訟,例如《紐約時報》控告 OpenAI 和微軟侵犯版權,這令資金有限的學術界更難獲取所需數據。
面對這些挑戰,AI 領域正探索多種解決方案。研究人員嘗試使用非公開數據,如 WhatsApp 訊息和 YouTube 影片的文字稿,但這類數據可能涉及版權及私隱問題。此外,部分研究聚焦於特定領域的數據,如天文和基因組數據,雖然這些數據增長迅速,但用於訓練 LLM 的效用仍然存疑。另一方面,多模態數據或成為新的發展方向,透過提升 AI 模型處理未標記影片或圖像的能力,擴展更多元的數據來源。此外,生成合成數據亦是可行方案之一,AI 公司可以付費讓人類創作內容,或利用 AI 生成合成數據。然而,合成數據可能存在偏差和錯誤,影響模型訓練效果。
目前,多數 AI 模型主要依賴文字數據進行訓練,但僅靠文字數據可能難以達到人類級別的智能。未來 AI 的發展關鍵在於採取多元化的數據,透過整合影片、圖像及感官體驗等數據形式,使 AI 更接近人類智能。這需要開發更強大且高效的 AI 模型和演算法有效處理和學習這些多元數據,推動 AI 技術持續進步。
來源:cnyes
相關文章:
【教學】ChatGPT 視像隔空教你養魚 用相機攝取現場環境 實時 AI 回應用家問題 【教學】冗長文章 AI 變成有趣電台節目 Reader by ElevenLabs「聽」文章不再暈車浪 + 學習外語方便 【教學】MacWhisper 語音轉錄文字 AI 工具 本地 AI 模型處理 + 支援廣東話、多國語言 + 輸出字幕檔
分享到 :
最新影片
Follow 我們 :
鍾意就快D Share啦!
|
|