北京時間八月二十一日,近日Meta公司低調推出了一款新型網絡爬蟲機器人,旨在搜尋互聯網並收集大量數據,為其人工智能模型提供強大支持。
根據數據追踪公司的報告,這款名為Meta External Agent的新網絡爬蟲在上月推出,功能類似於OpenAI的GPTBot,專門抓取網絡上的AI訓練數據,如新聞文章的文本和在線討論組的對話。
從開發者面向的公司網站的更新歷史來看,Meta確實在七月末對外透露了新爬蟲的存在,但至今尚未公開發布任何官方聲明。
Meta旗下的Llama是目前市場上最大的語言模型之一。雖然Meta沒有透露其最新版Llama 3模型所使用的具體訓練數據來源,但其首版模型已經運用了Common Crawl等來源的龐大數據庫。
今年早些時候,Meta的聯合創始人兼CEO馬克·扎克伯格在一次財報電話會議中自豪地表示,公司的社交平台已經建立了一個龐大的人工智能訓練數據集,其規模甚至超越了Common Crawl。
這次推出的新爬蟲意味著Meta巨大的現有數據庫可能已難以滿足需求,因此公司持續在更新Llama模型和擴展Meta AI的過程中,急需新的高質量訓練數據以不斷提升功能。
據Dark Visitors的統計數據顯示,全球近25%的最受歡迎網站已經設置屏蔽對GPTBot的訪問,而只有2%的網站屏蔽了Meta的新網絡爬蟲。