(https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3003656)
雖然人工智能模型在其訓練環境中能夠可靠地運行,但研究人員表示,這種情況很少能延續到新的環境中,因此很難預測其泛化能力。由此可見,儘管性能基準(用於評估人工智能的測試)被認為是‘黃金標準’,但它並不能可靠地表明人工智能模型的真正能力,很多說法聲稱要將最新型號在非常廣泛的場景下的能力與人類進行比較。然而,這些結果是從資料集上的效能測試中得出的,而這些資料集並不總是能推廣到現實世界的任務中。使用庫存圖片訓練的識別貓的模型在與其他貓的庫存圖片進行測試時表現良好,但這並不能轉化為在野外有效檢測貓的能力。危險在於,這種基準指標(通常由任意的圖像類別組成)被用來誇大模型的性能和泛化能力。最終可能會得到一些效果不佳但似乎對其結論非常有信心的東西。簡而言之,人工智能在處理以前從未見過的事物時會遇到困難,但它不一定會將這種困難表達給用戶。在生態學領域,這會給物種監測和保護帶來挑戰;而在醫學等領域,其後果可能更加棘手。
留言
張貼留言