為應對現代超級計算機存儲子系統的復雜結構帶來的冗長I/O 路徑、資源競爭、應用性能低下等問題,國家超級計算無錫中心自主研發了I/O性能監控與分析診斷系統(簡稱Beacon)。Beacon 通過輕量級高可擴展的采集架構采集超級計算機的全機全路徑的信息,運用大數據分析、機器學習等方法,實現了實時定位超級計算機的熱點問題如:應用間沖突干擾、系統降級、系統配置錯誤等,并提出了多種解決方案。
目前,該系統已應用到了曙光“派”集群、“神威?太湖之光”和神威新一代超級計算機上,為用戶和管理員監測應用和系統I/O性能、解決I/O問題熱點帶來了諸多便利,幫助解決了上百個問題,服務了數百個應用,累計節省了數億核時。

