商務投稿:18928809533【微信同號】
首頁 » 科技 » Meta推出新網絡爬蟲,加強AI模型數據支援

Meta推出新網絡爬蟲,加強AI模型數據支援

分享:

北京時間八月二十一日,近日Meta公司低調推出了一款新型網絡爬蟲機器人,旨在搜尋互聯網並收集大量數據,為其人工智能模型提供強大支持。

根據數據追踪公司的報告,這款名為Meta External Agent的新網絡爬蟲在上月推出,功能類似於OpenAI的GPTBot,專門抓取網絡上的AI訓練數據,如新聞文章的文本和在線討論組的對話。

從開發者面向的公司網站的更新歷史來看,Meta確實在七月末對外透露了新爬蟲的存在,但至今尚未公開發布任何官方聲明。

Meta旗下的Llama是目前市場上最大的語言模型之一。雖然Meta沒有透露其最新版Llama 3模型所使用的具體訓練數據來源,但其首版模型已經運用了Common Crawl等來源的龐大數據庫。

今年早些時候,Meta的聯合創始人兼CEO馬克·扎克伯格在一次財報電話會議中自豪地表示,公司的社交平台已經建立了一個龐大的人工智能訓練數據集,其規模甚至超越了Common Crawl。

這次推出的新爬蟲意味著Meta巨大的現有數據庫可能已難以滿足需求,因此公司持續在更新Llama模型和擴展Meta AI的過程中,急需新的高質量訓練數據以不斷提升功能。

據Dark Visitors的統計數據顯示,全球近25%的最受歡迎網站已經設置屏蔽對GPTBot的訪問,而只有2%的網站屏蔽了Meta的新網絡爬蟲。