林一平
國立陽明交通大學資工系終身講座教授暨華邦電子講座
現為國立陽明交通大學資工系終身講座教授暨華邦電子講座,曾任科技部次長,為ACM Fellow、IEEE Fellow、AAAS Fellow及IET Fellow。研究興趣為物聯網、行動計算及系統模擬,發展出一套物聯網系統IoTtalk,廣泛應用於智慧農業、智慧教育、智慧校園等領域/場域。興趣多元,喜好藝術、繪畫、寫作,遨遊於科技與人文間自得其樂,著有<閃文集>、<大橋驟雨>。
卜瓦松:計數型AI分析的萬靈丹
人工智慧和機器學習中使用到卜瓦松分布(Poisson Distribution)。在貝葉斯推論(Bayesian inference),機率分布經常被用來解決原本難以處理的問題。其中一個具體的應用是卜瓦松迴歸,這是一種專門用於建模計數數據的迴歸分析方法。例如,卜瓦松迴歸可用於估算與搭乘飛機相關的感冒次數,或預測某個事件期間的緊急服務呼叫次數。卜瓦松迴歸是一種廣義線性模型,其使用對數作為(典型)連結函數,並假設反應變數遵循卜瓦松分布作為其機率分布函數。卜瓦松分布提供簡單而有效的數學框架,使得計數型AI分析變得更加精準和可解釋。這個分布以發明者卜瓦松(Siméon Denis Poisson, 1781~1840)命名。我2015年參訪巴黎的法蘭西科學院(Académie des Sciences) 時,意外地看到卜瓦松的手稿。卜瓦松出生於法國的皮蒂維耶,自幼展現出非凡的數學才能,迅速成為19世紀最具影響力的數學家之一。他在機率論和解析力學方面做出突破性貢獻,在數學和物理學界留下深遠影響。他的卓越才能、謙遜和對知識的奉獻繼續激勵著數學家和科學家,改變我們對機率、數理物理和解析力學的理解。1838年,他發表卜瓦松分布,這是一種適合描述單位時間內隨機事件發生次數的機率分布。起初,卜瓦松分布並未有很多實際應用。波特凱維茨(Ladislaus Bortkiewicz, 1868~1931) 利用卜瓦松分布公式計算在20年的期間裡,每年普魯士軍隊每14名騎兵中被馬踢死的人數。這是一個有趣的例子,但並非日常生活中適切的應用。後來,科學家發現卜瓦松分布可以廣泛用於描述隨機離散事件的發生,在物理學、生物學和金融學等領域證明其實用性。例如,在分析電話網路的效能時,卜瓦松分布如同萬靈丹。我在處理單位時間的通話次數時,總是先套用卜瓦松分布,事後驗證,結果總是正確無誤。1798年,卜瓦松以第一名成績考進巴黎綜合理工學院,追隨老師拉普拉斯(Pierre-Simon Laplace) 的足跡,兩人情同父子。卜瓦松和拉普拉斯合作促成開創性的研究論文和各自領域的進一步發展。卜瓦松往往能將拉普拉斯的研究成果加以擴展。例如,我在進行電話系統效能評估時,常會用到拉普拉斯方程式及卜瓦松方程式。拉普拉斯方程式沒有源項(source term),這意味著它是齊次的(homogeneous)。卜瓦松方程式有源項,這意味著拉普拉斯算子(Laplacian) 應用於一個標量值函數(scalar valued function) 時不一定為零。卜瓦松方程式本質上是拉普拉斯方程式的一種廣義形式。儘管擁有巨大的才華和成就,卜瓦松以其謙遜、低調和對工作的奉獻著稱。他保持謙遜,專注於知識的追求。卜瓦松的遺產超越他的數學和科學成就,對學習的熱情和對知識追求的奉獻激勵著全世界有志於數學和科學的人。 人生只有兩樣美好的事情:發現數學和教數學。—卜瓦松
2025-01-08
AI也難突破哥德爾不完備定理
哥德爾(Kurt Friedrich Gödel;1906~1978)在現代邏輯上的成就是獨特而偉大的。事實上,哥德爾的成就不僅是一座學術紀念碑,更是長久屹立於學術歷史中的地標。邏輯學科因為哥德爾的成就而徹底改變其本質與發展可能性。在哥德爾的偉大成就中,他的不完備定理(Incompleteness Theorems)是數理邏輯中的基本結果,宣示形式系統的內在局限性,尤其是那些能夠表達基本算術的系統。第一定理表明,任何足夠強大且一致的形式系統都不可能完備,這意味著該系統內會有無法使用自身證明的真命題。第二定理進一步指出,沒有一個系統能夠證明自身的一致性。大型語言模型(LLM),如GPT-4,可以協助數學定理的證明,但與傳統方法相比,它們仍有明顯的限制。這些模型可以提出想法、建議步驟或提供解釋,這些都可能在證明構建過程中發揮作用。它們能處理某些符號運算並形式化某些證明,特別是那些遵循已知模式或來自數學文獻中的證明。然而,LLM無法從零開始進行複雜或新穎定理的深度推論,因為它們的回應基於數據模式,而非形式邏輯推導。一些專門設計來證明定理的AI系統,如Coq、Lean和Isabelle,依賴嚴格的形式邏輯,並能生成完全形式化的證明,且這些證明可經過驗證確保其正確性。相比之下,大型語言模型缺乏對邏輯和數學結構的形式理解。然而哥德爾的定理表明,某些真理無法由這些AI系統確立,且複雜系統的一致性無法從系統內部證明。AI無法「打破」哥德爾定理,因為這些定理是邏輯學的基本結果。它們適用於任何具有一定複雜性的形式系統,並且已被證明無誤。由於AI運行依賴形式邏輯,它同樣受到哥德爾不完備定理的根本限制。儘管AI無法打破哥德爾的定理,但它能幫助探討這些定理的影響,模擬不同的邏輯系統,並研究這些限制在各類數學框架中的具體表現。然而,AI無法獨立證明複雜或新穎的定理,也無法突破哥德爾不完備定理所設下的限制。哥德爾說:「我只相信先驗的真理。世界的意義在於願望與事實的分離。數學要麼對人類心智而言過於龐大,要麼人類心智不僅僅是一部機器。事物本身與談論事物之間是有區別的(I only believe in a priori truth. The meaning of world is the separation of wish and fact. Either mathematics is too big for the human mind or the human mind is more than a machine. There is a difference between a thing and talking about a thing.)在AI的協助下,我們或許能夠進一步探索數學的深邃領域,擴展人類心智的理解範圍。
2024-11-29
讓MusicTalk訴說敲擊的故事
2024年10月6日,我到國家戲劇院觀賞朱宗慶打擊樂團擊樂劇場《六部曲》。打擊音樂水準極高,讓觀眾感受到洗滌心靈的音樂饗宴。國家戲劇院是一座智慧劇院,舞台背後設有巨型銀幕,能與表演者進行虛實結合的互動。表演過程中,銀幕上出現浮雲、瀑布、抽象光影等動畫。感覺上打擊樂器與銀幕圖像較無即時地關聯。在我腦海中浮現的是各種打擊樂器的即時梅爾頻譜圖 (mel spectrogram)。梅爾頻譜圖是一種變形的頻譜圖,常運用於語音處理和機器學習。它與頻譜圖類似,顯示音頻信號隨時間變化的頻率內容,但其頻率軸不同。我發展一套AI工具MusicTalk,其中一個功能可以即時分辨出一首樂曲中同時演奏的樂器種類。MusicTalk將樂器的聲音轉換為梅爾頻譜,並以特殊AI演算法分析,準確度接近95%,是迄今最準確的方法。我在開發MusicTalk時,研究許多打擊樂器的梅爾頻譜圖,因此在《六部曲》的演奏過程中,各種變化多端的梅爾頻譜圖不斷在我腦海中浮現。將抽象動畫與敲擊聲音連結並不容易,若能將敲擊聲音與科學結合,將更具意義。第一位以科學系統化賦予敲擊聲意義的是奧恩布魯格(Leopold Auenbrugger, 1722~1809)。他是旅館老闆的兒子,在維也納大學接受醫學教育,深受Gerard van Swieten影響。1761年,他出版小書《新發明》(Inventum novum),成為以叩診法(percussion in the diagnosis)診斷胸部疾病的第一人。儘管傳說他的發現靈感來自童年敲打父親酒桶的經歷,但更可能的是他敏銳的音樂耳朵讓他能分辨出胸部病變過程中的音調變化。他描述各種病變如何導致叩診時音調轉變為不同音色,如「高音」(sonus altior 或鼓音)、「低音」(sonus obscurior 或模糊音)、或「鈍音」(sonus carnis percussae 或肉叩音)。這些發現後來得到臨床診斷的實證。奧恩布魯格一生酷愛音樂,經常在家中舉行午後音樂聚會,莫札特 (Wolfgang Amadeus Mozart, 1756~1791) 一家也曾受邀參加。他的2個女兒都很會彈鋼琴,賓客們曾評論說:「她們兩人,尤其是姐姐,彈得非常好,並且極具音樂天賦。」10年後,莫札特為薩爾茨堡(Salzburg)創作一些新歌劇,其中之一是日耳曼喜劇《煙囪清潔工》(Der Rauchfangkehrer)。該劇於1781年首次在維也納國家歌劇院上演,劇本正是由奧恩布魯格撰寫。奧恩布魯格的音樂藝術天分無庸置疑,能以極具創意的方式將器具的敲擊聲賦予科學 (醫學) 的意義。奧恩布魯格的成就,影響我對利用敲擊工具(樂器)解釋科學現象的興趣。我開發出 AI 工具 WatermelonTalk,能將拍打西瓜的聲音分為4類,代表不同的成熟度,準確度高達94%,是迄今最精準的成熟度判定方法。在聆聽《六部曲》時,我期望編劇者能充分利用如MusicTalk這類AI工具,以科學方式利用未來劇院的智慧銀幕,呈現敲擊樂器的特徵,使觀眾更能理解樂器所表達的內涵,進一步促進音樂與科技的深度結合。
2024-10-31
物聯網醫療復健機
中風是全球導致死亡和致殘的主要原因之一,其中由運動障礙引起的功能性殘疾是中風後常見的問題。約60%的中風患者在中風後失去行走能力,20%的患者在1年後仍無法獨立行走。恢復行走能力在中風康復中至關重要,直接影響患者的生活品質。傳統的物理治療和職能治療計畫,歷來支持中風後的神經和功能恢復,但結果往往難以預測。為改進康復策略,機器人輔助步態訓練(Robot-assisted gait training;RAGT)這種創新方法應運而生,專注於改善行走能力。RAGT透過重複特定任務,促進運動學習和功能改進。這項技術使患者能夠參與高強度的訓練,例如在10分鐘內完成300步,減少依賴物理治療師。結合物聯網技術,RAGT進一步強化中風後的神經和功能恢復。RAGT有2種方法:末端效應器法和外骨骼法。在末端效應器法中,患者的腳放在足板上,模擬步態的站立和擺動階段;在外骨骼法中,外骨骼裝置透過驅動裝置,在擺動階段彎曲髖部和膝蓋,並配合跑步機模擬站立階段。綜合研究深入探討這些方法的臨床、技術和監管層面的應用,為臨床醫生提供了有關機器人康復潛在恢復機制的寶貴見解。被動訓練模式和重力補償功能為處於急性或亞急性階段的中風患者提供早期康復,使他們能夠專注於運動控制。透過病歷查閱,收集參與者特徵、中風細節和合併症信息,同時透過腦部CT或MRI提供病變位置和中風類型的信息。為評估治療前日常生活活動(ADLs)的獨立性,須對病人進行多項評估,包括Berg平衡量表(BBS)、Brunnstrom階段、匹茲堡睡眠品質指數、Fugl-Meyer下肢功能評估(FMA-LE)和總分(FMA-total)。在慢性中風患者的研究中,常使用POMA的行動性能評估來衡量平衡和步態,並使用BBS來測量姿勢控制和平衡。這些參數在評估和定制康復干預計畫以達到最佳結果。下肢運動功能主要涉及平衡和步態,這些元素是相互關聯的,在中風後經常下降。BBS以其在衡量平衡功能中的高信度和重測信度而著稱,特別適用於中風倖存者的評估。步態分析是下肢運動功能的重要評估工具,推薦用於評估和增強中風後的行走能力。結合BBS和步態分析可全面評估平衡和步態,作為衡量康復干預效果的重要參數。這一綜合方法提供了對患者在恢復行動能力和執行日常任務進展的全面理解。利用物聯網技術,我們在中國醫藥大學開發出一套系統MRGtalk,這是一款針對中風及神經障礙引起的下肢康復的應用輔助前端系統,提升老年人的肢體活動和身體健康。MRGtalk使用普適計算(Pervasive Computing)進行下肢康復,強調肌肉力量的改善和行走能力的增強,包含:1. 增強感官反饋的三點支撐設計促進全負重的站立踏步訓練;2.根據個人能力,可通過具有網頁瀏覽器的固定或移動設備遠程調整訓練參數(步長、頻率、軌跡和持續時間);3.多患者獨立訓練模式優化時間和精力的使用。作為應用輔助前端,MRGtalk輸出關鍵的訓練參數。臨床實驗顯示,其在改善中風患者的下肢肌肉功能、平衡和行走能力方面具有良好效果。MRGtalk簡化RAGT過程,減少了治療師提供手動輔助的需求,是資通訊技術運用於復健的一個典範。
2024-09-25
透過物聯網技術 搶救小豬大作戰
在豬養殖業中,仔豬死亡率是一個需要仔細處理的嚴重問題。特別是,在頭三天裡,有7.5%的仔豬會被母豬意外壓死。平均每天有1.2頭仔豬被母豬壓死。具體來說,仔豬壓死可能發生在母豬躺下或翻身時。這樣的事故更容易發生在較弱的仔豬身上,因為較弱的仔豬更有可能靠近母豬吸乳。此外,當產房溫度較低時,仔豬也會更靠近母豬保暖。因此,為了防止仔豬被母豬壓死,我們應該避免仔豬餓和受冷。或者,可以使用產房籠來限制母豬的姿勢變化,並為仔豬提供更安全的空間。當一頭仔豬被壓死時,養豬者必須在太遲之前迅速採取行動。一位技術嫻熟的養豬者可以通過仔豬的尖叫聲來檢測仔豬的死亡,並強迫母豬站起來或將被壓死的仔豬與母豬分開。然而,監控產房籠對養豬者來說是一項全天候的工作,而勞動成本過高。物聯網技術可由麥克風感應器中收集豬的聲音數據,並在仔豬被壓死時自動採取行動。我的研究團隊利用 IoTtalk 的物聯網設備管理平台,提出了 PigTalk 技術,來解決仔豬被壓死的問題。透過對產房收集的聲音數據進行即時分析,PigTalk 檢測是否有任何仔豬尖叫事件發生,並自動啟動母豬警報器進行應急處理。PigTalk利用一種音頻轉換方法來預處理原始聲音數據,並在機器學習中利用最小-最大標度化來檢測仔豬的尖叫聲。PigTalk以上述數據預處理方法與機器學習模型微妙的參數設置將仔豬尖叫檢測準確度提高到了 99.4%,比以前的解決方案(最高達 92.8%)更好。PigTalk 可以在 0.05 秒內拯救 99.93% 的仔豬。這樣的結果已在商業化的產房得到驗證。PigTalk 是一種新方法,可以自動減輕仔豬被壓死的情況,這是過去無法實現的。PigTalk提供一個遠距操控的GUI (graphical user interface),豬場飼主可用手機控制強迫母豬站起來的致動器(Actuator)。圖(a)提供的致動器包括振動地板、氣流噴射、灑水系統和電極(有些不太人道,並未真正實作)。當豬場飼主收到警報時,他/她通過手機觀看從攝像機 (圖(b)) 發送來的視頻,並可操作攝影機放大影像,清楚觀察(圖(c)) 。如果仔豬的尖叫聲不是由於被壓死引起的,那麼養豬者可以遠程停止致動器 (圖 (f))。如果確實發生了仔豬壓死,則他/她應該跑到籠子處理這個仔豬壓迫事件。養豬者可以選擇打開或關閉致動器 (圖 4 (a)),當危險情況得到緩解時停止致動器。在PigTalk中,環境致動器例如加熱燈可以手動打開/關閉 (圖 4 (d)),或者在溫度變化時自動打開/關閉 (圖 4 (e))。PigTalk搶救小豬大作戰是運用AI及物聯網技術的很好範例。關於技術的詳細信息,請參閱W. E. Chen, Y.-B. Lin, L.-X. Chen (2021, June). PigTalk: an AI-based IoT Platform for Piglet Crushing Mitigation. IEEE Transactions on Industrial Electronics, 17(6): 4345-4355。
2024-08-20
妖姬的跳頻
台灣中山科學研究院在無線通訊的跳頻技術(Frequency Hopping)上有很深的著墨。這項技術能有效地防止敵人的無線電干擾。今日烏俄戰爭中,高檔的無人空中載具都充分運用跳頻技術,讓士兵能遠距操作無人機,不受干擾。很多人可能想像不到,跳頻技術的發明人是電影《霸王妖姬》(Samson and Delilah)的女主角「妖姬」海蒂·拉瑪(Hedy Lamarr, 1914~2000)。這部電影獲得第23屆奧斯卡金像獎。拉瑪發明跳頻技術的動機並非要運用於空中的飛機,而是水中的魚雷(Torpedo)。第一款魚雷是白頭魚雷(Whitehead Torpedo),製造於1866年,以其發明者懷海德(Robert Whitehead)命名。過去的漂移水雷必須被動等待敵艦撞上,而白頭魚雷內建動力,可主動攻擊敵人目標。1895年的甲午戰爭,日本帝國海軍以魚雷重創清朝北洋艦隊定遠號戰艦,證明了魚雷以小博大的實際戰果。日俄戰爭期間,俄羅斯帝國海軍與日本帝國海軍互相使用魚雷攻擊敵方艦艇。然而軍事專家在日俄海戰過程中發現,魚雷實在是無甚作用。日俄共發射近600枚魚雷,只擊沉數艘船艦,其餘80多艘船艦是被傳統炮火擊沉。特斯拉(Nikola Tesla;1856~1943)很早就發現魚雷的缺點,向美國軍方遊說無線電導引魚雷的可行性,但遭到拒絕。特斯拉的想法超前軍方太多,而日俄戰爭證實特斯拉建議的必要性。美國海軍恍然大悟,開始在第一次世界大戰時研發無線電控制的魚雷,稱之為哈蒙德魚雷(Hammond Torpedo)。1930年代的拉瑪白天忙著拍電影,晚上則一直想點子,希望幫助盟軍打贏第二次世界大戰;她向休斯(Howard Hughes, Jr., 電影《鋼鐵人》中男主角爸爸的原型)提出飛機機翼的設計,並被休斯採用;她也構想出發泡片劑,讓在前線作戰的軍人將片劑融入水中,就可以變成可樂暢飲。1940年,拉瑪在宴會上遇到鋼琴家安瑟(George Antheil, 1900~1959)。在鋼琴邊閒聊之際,拉瑪忽然想到一個祕密通訊的方法,可發展出抵擋敵人電波干擾魚雷的控制。當時的無線通訊使用固定頻率,除了容易被攔截干擾外,還時常有斷訊問題。拉瑪看著安瑟手邊的琴鍵,靈機一動:「就像彈奏鋼琴的不同琴鍵一樣,時常改變通訊的頻率就可以達到防止敵人電波干擾的目的。」安瑟按照拉瑪的想法,藉由他所熟悉的自動鋼琴,開發出一個能夠自動編譯密碼的模型,也就是今天我們熟悉的跳頻技術。這項技術不但擴大通訊量,並且成功將通訊內容加密,並於1942年取得美國專利。拉瑪將這個貢獻提供給美國軍方。軍方不認為電影明星和鋼琴家的奇思妙想能夠真的實現,勸拉瑪將發揮她其他方面的天分,利用她的美貌幫軍方募款。拉瑪只好將她偉大的發明擱置一旁,到處宣傳,幫政府募到2,500萬美元的戰爭債券。拉瑪說:「希望和對未來的好奇心,似乎比保證的事物更好。這就是我的方式。未知的事物對我總是如此有吸引力……現在依然如此 (Hope and curiosity about the future seemed better than guarantees. That's the way I was. The unknown was always so attractive to me... and still is)。」
2024-08-07
不學AI不會輸在起跑點?
人工智慧(AI)對城市發展有著深遠的影響,一般市民和地方產業應該了解如何運用AI。在新竹縣政府和新竹縣議會指導下,新竹縣工業會支持成立了AI產業發展聯盟。希望能全面提升新竹縣縣民、企業和公部門對AI產業轉型的認識。聯盟成立啟動儀式上,所有的音樂、影片和開場歌曲都是由AI數位生成,參與的民眾對於AI的發展潛力和表現感到既驚艷又大開眼界。我在大會演講指出,AI技術發展迅速且多元,平均每兩至三個星期就有新技術產出。因此,我希望集結聯盟的力量,幫助大家找到產業所需的AI技術,並降低AI機器設備的成本。為了吸引聽眾的注意力,我在演講的投影片上寫道:「不學AI不會輸在起跑點,而是會死在起跑點。」這句話引發了觀眾的哄堂大笑,但也讓大家認真思索AI對他們個人的影響。一般群眾分不清判別式(Discriminative)AI和生成式(Generative)AI,因此我以自己的研究為例,說明兩者的區別。判別式AI根據輸入數據進行分類或標籤,經過訓練後能識別每個類別特有的模式和特徵,並根據這些模式進行預測。而生成式AI則著重於構建能生成與訓練數據相似的新數據的模型,這些模型學習訓練數據的潛在概率分佈,並從中生成新樣本。了解不同AI技術本質,就更清楚如何運用這些技術。新竹縣AI產業發展聯盟將致力於解決縣內重要議題,例如提升新竹縣的數位治理,以及幫助中小企業理解並促成AI轉型。未來,聯盟將通過舉辦講座、企業參訪、研討會等活動,甚至是個別企業諮詢和技術小聚,來媒合技術與需求,同時協助企業爭取中央的計畫補助。新竹縣政府拼經濟是首要工作,而AI更是重要的發展項目,公部門的科技治理應時時貼近民意,透過AI的智能服務,讓民眾生活更加美好。今年暑期7月份的AI課程在短短不到一周的時間內便報名爆滿。未來將針對不同產業需求,加開相關課程,例如勞工如何運用AI科技、如何通過AI改善愈來愈壅塞的交通問題等。甚至將引進認證課程,讓企業能深入了解AI轉型的技術。歡迎有興趣的企業夥伴一同加入,共同努力發展先進的縣市智慧應用。
2024-07-11
雷達的趣聞
烏克蘭與俄羅斯戰爭中使用的雷達技術玲瑯滿目。這些技術涉及監視雷達、防空雷達,以及由雙方部署的戰場監視系統。這些雷達系統用於偵測飛機、導彈或地面活動的系統。這些雷達技術是哪些厲害人物發明的?麻省理工學院輻射實驗室在第二次世界大戰時期將電磁波的研究發揮得淋漓盡致,對於雷達(Radar)的發展有不可磨滅的貢獻,也產生出多位諾貝爾獎得主,包括創造「核磁共振」這個名詞的拉比 (Isidor Isaac Rabi, 1898~1988), 在1937年確實驗證原子核的角動量,而於1944年獲頒諾貝爾物理獎。薄賽爾 (Edward Purcell, 1912~1997) 與布洛赫 (Felix Bloch, 1905~1983)因發現在外加磁場下,所有物質只要是有奇數個質子或中子皆可以形成共振現象,能發射特定射頻信號,而在1952年榮獲諾貝爾物理獎。這項發現早期應用在化學物質的檢測上。薄賽爾得諾貝爾獎時好像只有發表6篇論文。阿瓦雷茲 (L.W. Alvarez, 1911~1988) 因製成第一部質子直線加速器,以及對基本粒子研究發展的貢獻,而榮獲諾貝爾物理獎。冉濟(Norman F. Ramsey, 1915~2011) 發展出分離的震盪場方法及其在氫邁射和其他原子鐘上的應用。第二次世界大戰期間列強的戰爭需求使得先進科學技術得以快速的發展,於是雷達就出現了。大戰期間,德國空軍老是跨海轟炸倫敦,讓英國煩不勝煩,急需一種探測空中金屬物體的技術,能在反空襲戰中幫助搜尋德國飛機。雷達的最早構想來自於沃森瓦爵士 (Sr. Robert Watson-Watt, 1892~1973),希望與美國攜手合作,共同打擊德軍。於是上述這群偉大科學家的電磁波研究集中火力,在戰爭時期發展出地對空、空對地搜索轟炸、空對空截擊火控,以及敵我識別功能的雷達技術,德軍聞之喪膽。戰後雷達有多項民生應用。例如微波爐(所謂的「雷達烤箱」)深受家庭主婦喜愛;雷達測速器則成為汽車超速者的剋星。沃森瓦開車超速曾被雷達測速器抓到罰錢,對於自己推動這項發明的應用,反讓他自食惡果,啼笑皆非。
2024-07-04
西瓜熟了沒?拍打西瓜的AI
在西瓜的商業生產過程中,農民必須在收穫後迅速評估水果的成熟度,根據可食用時間分類,以減少損失。這個過程提升市場銷售和生產力,但傳統的西瓜測試方法通常不可靠。當你購買西瓜時,成熟度測試是一個有趣的「儀式」。一般家庭主婦將西瓜成熟度分類為2個等級:未成熟和成熟;農夫在西瓜田的辨識則分為3個等級,包括未熟類(不要碰)、成熟類(作為商品選擇)和過熟類(需要丟棄)。許多人分享他們測試西瓜成熟度的經驗。其中最具創意的一個方法是使用稻草技術,將一根稻草水平放在西瓜上。成熟的西瓜會使稻草旋轉45度,而未熟的西瓜則保持靜止。這種說法認為稻草的運動是由西瓜內部的電力作用引起的。我多次嘗試這種方法未果,只好放棄,改變方向,研究其他方法。雖然像拍打、顏色檢查和計日等手動技術具有實用性,但其準確性依賴於主觀判斷。目前,普遍使用的方法是通過拍擊聲音來評估西瓜的成熟度。這種拍打技術出奇地具有邏輯性,因為產生的聲音提供了足夠的成熟度指標。然而,對這些聲音的個人解讀受主觀經驗和傳統智慧的影響。我思考是否能利用AI及物聯網(IoT)來進行大量快速的西瓜成熟度的拍擊評估。在我研究團隊的辛勤工作後,提出WatermelonTalk技術。這是一個基於物聯網的即時深度學習平台,專為聲學西瓜測試設計。我們還引入了「拍打合奏\(tapping ensemble)的概念,顯著提升預測準確性,這在文獻中尚未出現。我們邀請農友種苗公司的專家將343個品種的1,698個西瓜按成熟度分類,利用深度機器學習,首次探討四級測試,其中將三級測試中的未成熟類進一步細分為未成熟類和半熟類。比起未成熟類,農民更關注半熟類,須確保對其進行比未成熟類更頻繁的測試。這樣做是為了防止這些半熟西瓜在下一次測試時過熟。我們的研究在三級測試中達到97.64%的測試準確性,而在四級測試中達到94.07%的顯著準確性,這是聲學框架中的最佳結果。三級測試可供消費者在購買西瓜時使用,而四級測試則作為農民專業生產的工具。西瓜有不同的成熟程度,選擇適當的成熟度會大大影響西瓜的味道和質地。在收穫後迅速評估水果的成熟度,通過可食用時間進行分類,可顯著降低收穫後的損失。因此,WatermelonTalk幫助農民仔細衡量西瓜的成熟度,提升市場銷售和生產力,彰顯AI對日常生活的貢獻。關於技術的詳細信息,請參閱Yun-Wei Lin, Yi-Bing Lin, Wen-Liang Chen, Chia-Hui Chang, and Han-Kuan Li, Watermelons Talk: Predicting Ripeness through Tapping, 將刊登於IEEE Internet of Things Magazine。
2024-06-24
AI解析音樂與尼采如是說
我以AI物聯網分析音樂,並利用其結果來驅動樂器的演奏,稱之為MusicTalk。接下來就想訓練大型語言模型(LLM),將文字與音樂互換,再將音樂用來詮釋影像。最大的應用是電影配樂。要將音樂智慧化以配合影像,科技人必須對音樂的內涵有深入的認識。例如電影的配樂最讓人印象深刻的是1968年電影《2001太空漫遊》(2001: A Space Odyssey)中用史特勞斯(Richard Strauss, 1864~1949)演繹《查拉圖斯特拉如是說》(Thus Spake Zarathustra)這首樂曲的開場。《查拉圖斯特拉如是說》是尼采(Friedrich Wilhelm Nietzsch, 1844~1900)的作品。它不同於一般哲學作品,而是以散文詩完成。尼采曾表示這本書實際上是一部「交響曲」,以一種偽聖經風格撰寫,它包含許多含糊不清且充滿詩意的神秘箴言。我沒讀通這本書,膚淺了解其主要思想是,人類應該擁抱生活、自然、身體和物質存在,包括其中的樂趣和痛苦,而非尋求超越或來世的精神世界。生活即使伴隨著所有的苦難,還是值得為了它的存在而生活。許多藝術家和作曲家受到《查拉圖斯特拉如是說》的影響,但很少有人像史特勞斯那樣深切融入尼采的哲學觀點。1896年時32歲的史特勞斯開始創作 《查拉圖斯特拉如是說》樂章。當時尼采因三期梅毒的感染,已精神失常。史特勞斯將自己作品的各個部分以尼采書中不同章節命名。他嘗試將尼采抽象的文字清晰地翻譯成同樣抽象的器樂音樂。該作品在完成後幾個月內進行首演,其華麗的編曲、複雜的音樂紋理、大膽的和諧和具爭議性的主題,引發激烈的批評和喝采。《2001太空漫遊》使用這首樂曲開場為外太空的日出配樂,符合史特勞斯描繪尼采書中開場的山頂日出情境。開場中的小號旋律呈現「自然」或「世界之謎」動機;它在整個樂曲中反覆出現,象徵著大自然的冷漠和神秘性: 在強烈的開場之後,號角的回應是一個宗教式的旋律,由分散的弦樂器精彩演奏。開場時音樂從柔和到逐漸增強,象徵著人類對一個完美、天堂般、精神上的自然替代的渴望。有了《2001太空漫遊》的例子,我嘗試以MusicTalk反推史特勞斯的音樂,想找出他想表現的意涵,卻遭遇極大困難。史特勞斯曾經開玩笑地說,他可以在音樂中訴說一切,即使人們無法理解,我就是那位無法理解的人,妄想以物聯網駕馭史特勞斯的音樂。《查拉圖斯特拉如是說》太過深奧,AI處理不來。我決定放棄好高騖遠的做法,由小朋友聽得懂的《彼得與狼》訓練MusicTalk,總算有初步成果。這是一個基於物聯網的創新音樂樂器檢測系統。MusicTalk 引入了一種名為亮度特徵基礎Patchout的新穎機制,以提高樂器檢測的準確性,並超越現有解決方案。MusicTalk首次系統性地將單個樂器檢測器作為物聯網設備進行整合,為與其他物聯網設備的交互管理提供有效的方法。我們在MusicTalk中引入一個通用音頻整形器,融合各種音樂公開數據集,如Audioset、OpenMIc-2018、MedleyDB、URMP和INSTDB。我們利用Grand-CAM分析Mel-Spectrograms來優化 MusicTalk中ViT Patchout和CNN的組合,以實現前所未有的準確率。例如,小提琴檢測的精確率和召回率分別達到96.17%和95.77%,這是所有方法中最高的。此外,MusicTalk 的另一個優勢在於其基於物聯網的視覺化能力。通過將樂器檢測器作為物聯網設備整合,MusicTalk能夠使用動畫Avatar來無縫地視覺化歌曲。透過《彼得與狼》為例的案例研究,我們證明,改進的樂器檢測準確性增強音樂的視覺敘事效果。與先前的方法相比,MusicTalk在這首歌曲上的F1分數提高12%。然而,我念念不忘的是,我們訓練AI模型,何時能如同史特勞斯,了解尼采的想法。MusicTalk仍有很大的改進空間。
2024-05-27
智慧應用 影音