博物館AI講解員上線,最大挑戰是什么?
看展,AI講解員做“搭子”
拿起手機,點擊“視頻通話”,接通后將手機對向博物館內的展品,屬于觀眾自己的AI講解員隨即上線。
“這幅畫作的立意與畢加索的童年有關嗎?”
“這一幅下方好像有缺損,是如何造成的?”
……
無論拋出什么問題,屏幕那頭總會送來耐心而專業的解答。它不僅能夠陪嘮,必要的時候,還會委婉糾正觀眾提問時出現的知識性錯誤。
在上海浦東美術館官方AI講解員的陪伴下,記者收獲了一次特別的看展經歷。
美育資源突破時空限制
前不久,字節跳動旗下的AI工具豆包,正式成為“圖案的奇跡:盧浮宮印度、伊朗與奧斯曼的藝術杰作”與“非常畢加索:保羅·史密斯的新視角”兩大國際大展的官方AI講解員。
陸家嘴集團副總經理、浦東美術館董事長李旻坤表示,AI講解員可以極大豐富觀眾的看展體驗,讓藝術“千人千面”的風采得以呈現。
“過去的展覽我們主要靠展簽、二維碼等來提供有限信息。人工導覽又受限于知識廣度,很難滿足每個人個性化的好奇心,每個人關注的點都不一樣。我們期待這位博學敏銳、持續精進的AI講解員能成為連接觀眾與國際藝術瑰寶之間的智慧紐帶?!痹诶顣F坤看來,近年來展覽行業的許多變化,是科技改變生活的實例。一直以來,展覽的物理空間讓內容呈現受到制約,隨著AI技術的引入,觀眾可以在看展時獲得更多信息,美育資源也將突破時空限制。
“如果AI講解員的信息足夠準確,它就可以極大地豐富大家對于藝術作品的感知和體驗,這是很有意義的事情?!彼f。
字節跳動副總裁朱駿認為,AI和用戶的交互在本質上是一種對話體驗。立足于產品設計,團隊希望AI講解員能在觀展過程中,通過啟發式的對話和更具共情意味的提問,調動觀眾已有的看展感受和經驗。從“看見”到“理解”,AI可以幫助觀眾“讀懂”藝術。
最大挑戰是確保內容準確
在博物館場景中使用AI講解,技術上最大的挑戰是什么?
答案不言自明——確保內容的準確性。
據豆包逛展項目負責人李若瑄介紹,模型需要攻克3個核心難題:區分外觀高度相似的展品、解讀小眾稀缺的文物資料、在觀眾移動觀展時AI保持穩定識別。
“以伊朗15世紀的牡丹紋盤為例,其風格與明代永樂年間的青花牡丹紋盤非常接近,這就要求AI必須從細節入手,能精準識別出文物細微的紋飾、工藝差異,給出正確信息?!崩钊衄u說。
多角度拍攝也會帶來識別挑戰。文物從不同視角拍攝時形態差異很大,AI必須穩定識別出同一物品。此外,觀眾很難在逛展中為AI提供標準化的拍攝環境,畫面常有抖動、遮擋和光線變化,觀眾還會用口語化、連續提問的方式,這對AI的上下文理解和空間感知能力提出了很高的要求。
同時,很多展出的文物,尤其是盧浮宮特展中的藏品,互聯網上幾乎沒有公開信息。AI無法依賴網絡搜索,必須依靠與美術館深度合作的專屬數據庫才能準確解讀。
記者在體驗中發現,即使有意識避開展品標簽,AI也能夠快速精準識別出具體展品。這背后,是豆包C1.8視覺語言模型提供的技術解決方案。該視覺語言模型包括圖像推理、多幀視頻分析、工具調用和自然對話理解等方面,以提供精準、穩定、人性化的AI導覽體驗。
2025年5月,豆包上線了基于視覺推理模型的視頻通話功能,支持實時視頻問答與聯網搜索,憑借自然的交互體驗吸引了不少用戶嘗試,為此次美術館場景的應用積累了技術經驗。
從技術層面來看,視頻講解功能來自Seed1.8模型的強大支撐。目前,該模型在視頻感知、流式、視頻理解領域處于國際第一梯隊水平,不再局限于傳統AI“拍圖—提問—再拍圖—再提問”的斷點式交互,而是能實時跟隨觀眾視角移動,在與人的交互中持續理解觀眾眼前變化的場景,從而實現更加自然、連續的人機互動。
定制專屬觀展路徑
“看展,為什么非要按照規定順序看呢,可以按照我喜歡的方法或者順序去看嗎?”李旻坤的這番話引發了現場不少人的共鳴。
技術帶來的變革不僅改變了信息獲取方式,更重塑了觀展路徑與思維方式。在AI講解員的助力下,“沉浸式”看展的趣味性更強。
比如,傳統觀展流程遵循美術館設定的固定路線,所有觀眾按照同樣的順序完成標準化路徑。有了AI講解員作為看展“搭子”,觀眾可以打破固定模式,依據自身時間和興趣定制自己的觀展路徑。
AI講解員出現了,觀眾對人工講解員的需求會下降嗎?
在李旻坤看來,真人面對面之間的交流需求會一直存在,這正是AI講解員無法替代人工講解員的原因所在?!叭伺c人之間的互動與人和AI的互動不一樣,各有各的樂趣,這同我們日常生活中所有的行為邏輯一樣。人腦是有限的,想讓人像機器一樣博學很難,人工服務可以向著更聚焦、專業、精良的方向發展,為觀眾提供更加生動的看展體驗?!?/p>
科技與文化的跨界合作正在重塑文化傳播的生態。在浩瀚文明面前,AI正在完成自己的使命——幫助人類更好去“看”,為求知與好奇鋪就一條隨時可以出發的路。
本報記者 孫亞慧







