專屬客服號
微信訂閱號
全面提升數據價值
賦能業務提質增效
近日,存算一體(存內計算)芯片設計公司蘋芯科技宣布于數月前完成千萬級美元A輪融資。中國工程院院士鄔賀銓在2022中國算力大會上表示,對自動駕駛等場景產生的熱數據(實時性數據),存算分離會使數據在存儲和計算之間來回輸入,此時存內計算更適合熱數據的處理。
在馮諾依曼架構中,計算和存儲功能分別由中央處理器和存儲器完成。而處理器在跟隨摩爾定律逐年提升性能的過程中,將對制程工藝不敏感的存儲器甩在了后面,兩者的性能差距形成了“存儲墻”。相比之下,存算一體能夠避免數據來回搬運所造成的功耗損失和時間延遲。在AI技術不斷釋放數據洪流和算力場景需求的大趨勢下,存算一體芯片越來越受到產業界和資本市場的關注。
來源:《中國科學:信息科學》
繞過存儲墻是AI時代剛需
早在1969年,斯坦福研究所的William Kautz就提出了存算一體的概念。Kautz提出在芯片的存儲單元中加入邏輯電路,并將多個單元連接起來組成陣列,這樣能夠打造更加靈活、速度更快、耗能更低的數字電路,以更好地適應當時大規模集成電路的需求。然而,早期的存算一體研究并沒有取得明顯的突破,以馮諾依曼架構為藍本、按照摩爾定律的步伐提升芯片性能,逐漸成為產業界的共識。
但近幾年來,存算一體又回到了業界的視野,并被視為重要的技術方向。
知存科技創始人兼CEO王紹迪向《中國電子報》指出,過去幾十年是摩爾定律快速發展的時期,加上開發新的架構需要高昂的投入,因此在摩爾定律還能往下走的時候,產業界對存算一體這類架構創新的需求還不高。但近十年以來,算力需求的增長使存儲墻的問題越來越凸顯。
“到2010年以后進入后摩爾時代,行業內日益增長的算力需求和幾乎走到極限的摩爾定律之間越來越突出的矛盾已經成為人工智能發展的巨大瓶頸。因此,能解決存儲墻問題的存算一體技術受到了越來越多的關注,近幾年在產業界得到了非常快速的發展。”王紹迪說。
尤其在2016年人工智能Alpha Go在圍棋對弈中戰勝世界冠軍李世石之后,以深度學習為代表的統計學習理論與方法促動了整個人工智能行業的發展。OpenAI的分析顯示,自 2012 年以來,人工智能訓練任務中使用的算力每 3.5 個月翻一倍。計算需求的突飛猛進,對算力芯片的效能提出了更高的要求和新的挑戰。
從2013到2019年AI算力實現了30萬倍的提升
來源:OpenAI
九天睿芯董事長兼CEO劉洪杰向《中國電子報》表示,在馮諾依曼架構中,處理器從處理單元外的存儲器提取數據,搬運時間往往是運算時間的成百上千倍。
“深度學習加速的最大挑戰就是數據在計算單元和存儲單元之間頻繁的移動,市場急需可實現超高能效并且可以快速迭代的智能計算芯片來滿足日新月異的市場變化。我們推出的新型類腦計算的存內計算體系架構就是面向AI發展的算力瓶頸,核心技術是解決AI算力能效比偏低的核心剛性需求。算力堆疊帶來能耗問題,存算一體就是很好的解決方案。”劉洪杰說。
多種技術架構待產學研共同探索
面向智能化時代的算力需求和計算服務業態變革,英特爾、三星等IDM廠商和新銳的算力芯片廠商都在探索存算一體芯片,并衍生出不同的架構和技術路線。
劉洪杰表示,目前全球存算一體仍處于蓬勃發展階段,沒有一種技術架構占據絕對主導地位。2017年,第一批存內計算公司興起,目前存內計算中有一些技術已經可以落地,需要產業界加大投入,研發質量過關的產品。
“存內計算本身也有一個類似摩爾定律的發展過程,包括代工廠針對存內計算專用的工藝提升。其次是先進的材料,目前能夠量產的存內計算存儲器中,Flash和SRAM新型存儲器更適合做存內計算,需要更多在新型存儲器件上的研究。另外,存內計算從算法到供應鏈生態上也需要產學研結合,相互融合促進發展。” 劉洪杰說。
作為多年來DRAM市場份額的冠軍,三星于2021年推出了結合DRAM的高帶寬內存-內存內處理 (HBM-PIM),將AI計算能力引入內存。通過將經過DRAM優化的 AI 引擎置于每個存儲子單元內,將處理能力直接引入到數據的存儲位置,從而實現并行處理并盡可能減少數據移動。相較三星此前的高帶寬內存方案,新架構能夠提供超過兩倍的系統性能,并降低 70% 以上的能耗。
英特爾的神經擬態計算芯片Loihi也采用了存算一體的架構,使之更加容易擴展。Loihi芯片的裸片包含128個小核,每個核里面模擬1024個神經元的計算結構,每個神經元又有1000個突觸連接,這意味著768個芯片連接起來可以構建接近1億神經元的系統。
國內聚焦存算一體芯片的企業則大多采用SRAM(靜態隨機存取存儲器)和Flash路線。
九天睿芯基于“模擬特征提取+模數混合電荷域SRAM”架構實現存內計算,第一顆感存算一體芯片ADA100于2021年回片。后摩智能第一代芯片基于SRAM、第二代芯片基于PRAM。蘋芯科技的兩款產品也基于28nm SRAM。
知存科技主要采用嵌入式Flash工藝,于2020年發布第一代存算一體芯片產品WTM1001,2022年實現存算一體SoC芯片WTM2101量產并落地應用。
“近年來,隨著新興非易失存儲器的發展,國內開始出現做存算一體大算力的公司,同時不斷有新玩家涌入。但距離大規模應用,還有約10年的時間,從工藝、材料、算法、工具鏈到生態,都需要產業界和學術界的不斷投入與共同推進。”王紹迪說。
產品性能和行業生態有待升級
雖然存算一體芯片的技術前景和應用場景逐漸明晰,但現階段存算一體芯片還沒有實現規模化的量產和部署,產品性能和產業生態有待進一步的提升和完善。
在性能方面,存算一體芯片還有較大的提升空間。劉洪杰表示,存算一體芯片還需要從三個方向提升性能。一是工藝迭代。隨著自動駕駛等應用場景算力需求的提高,后摩爾時代存算一體芯片需要緊跟工藝迭代的紅利,進一步提高能效比、面效比。二是提升精度,更多諸如飛行器航姿估計等對運算精度有較高要求的應用對存算一體架構的精度提出了一定的挑戰。三是算法適配,在更廣闊的消費領域,AI應用呈現碎片化的趨勢,帶來了算法模型的多樣化,為適應應用落地需求,存算一體仍需進一步擴充計算架構的適配能力。
以九天睿芯為例,接下來將從工藝、架構等維度繼續深化模數混合存算一體芯片的開發部署。據悉,九天睿芯規劃了從55nm到6nm的產品路線,55nm產品主要面向TinyML(采用資源受限低功耗微控制器實施機器學習)等低功耗喚醒場景;22nm產品面向AR/VR SLAM(即時定位與地圖創建)協處理、移動機器人、ADAS等場景;6nm主打面向聯邦學習(帶有安全加密技術的機器學習框架)、元宇宙、空間AI等應用。
此外,存算一體芯片需要強化上下游協同以加速產業化進程。王紹迪指出,存算一體芯片要實現大規模的量產、應用,涉及到上下游產業鏈的共同配合。包括行業標準化,以更好地實現產品落地;生態的建立,以拓展更多的應用場景。
據王紹迪介紹,接下來知存科技會從產品和生態層面進行升級,在初步構建存算一體開發小生態的基礎上,隨著芯片算力、計算容量、計算速度的不斷增加,打造更豐富更便捷的開發工具鏈,穩定架構、打磨標準化產品、拓寬應用場景逐漸從端側發展到邊緣測或云端。
本文為本網轉載,出于傳遞更多信息之目的,并不意味著贊同其觀點或證實其內容的真實性,如涉及侵權,請權利人與本站聯系,本站經核實后予以修改或刪除。
請完善以下信息,我們的顧問會在1個工作日內與您聯系,為您安排產品定制服務
評論