20年專業經驗 前沿技術研發新產品
芯派科技咨詢熱線:
1.1、AI創新浪潮興起,多模態賦能下游行業
ChatGPT快速滲透,AI產業迎發展新機
ChatGPT是由OpenAI公司開發的人工智能聊天機器人程序,于2022年11月發布,推出不久便在全球范圍內爆火。根據 World of Engineering數據顯示,ChatGPT達到1億用戶量用時僅2個月,成為史上用戶增長速度最快的消費級應用程序。與之 相比,TikTok達到1億用戶用了9個月,Instagram則花了2年半的時間。從用戶體驗來看,ChatGPT不僅能實現流暢的文字聊 天,還可以勝任翻譯、作詩、寫新聞、做報表、編代碼等相對復雜的語言工作。
ChatGPT激起AI浪潮,大算力芯片迎來產業機遇
ChatGPT是生成式人工智能技術(AIGC)的一種,與傳統的決策/分析式AI相比,生成式AI并非通過簡單分析已有數據來進 行分析與決策,而是在學習歸納已有數據后進行演技創造,基于歷史進行模仿式、縫合式創作,生成全新的內容。AIGC的應 用非常廣泛,包括自然語言生成、圖像生成、視頻生成、音樂生成、藝術創作等領域。 AIGC產業鏈主要分為上游算力硬件層、中游數據/算法軟件層和下游行業應用層。硬件層依靠高性能AI芯片、服務器和數據 中心為AIGC模型的訓練提供算力支持,是承載行業發展的基礎設施;數據/算法層軟件層主要負責AI數據的采集、清洗、標注 及模型的開發與訓練,多方廠商入局自然語言處理、計算機視覺、多模態模型等領域;行業應用層目前主要涉及搜索、對話、 推薦等場景,未來有望在多個行業呈現井噴式革新。
多模態賦能下游行業智慧化升級
多模態大模型有望成為AI主流,賦能下游行業智能升級。生成式AI主要依賴于人工智能大模型,如Transformer、BERT、 GPT系列等。這些模型通常包含數十億至數萬億個參數,需要龐大的數據集進行訓練,致使AI算力的需求也呈現出指數級的 增長。多模態是一種全新的交互、生成模式,集合了圖像、語音、文本等方式,因其可以結合多種數據類型和模態的學習, 將有望徹底改變我們與機器互動的方式,快速占據人工智能主導地位。我們認為多模態大模型長期來看不僅可以從成本端 降本增效,需求端也將通過快速滲透推廣為下游行業帶來持續增長需求,從而快速推動下游行業智慧化應用升級。
GPT-4性能提升顯著,AIGC應用市場空間廣闊
多模態模型是實現人工智能應用的關鍵。3月14日OpenAI發布GPT-4多模態大模型,擁有1)強大的識圖能力;2)文字輸 入限制提升至2.5萬字;3)回答準確性顯著提高;4)能夠生成歌詞、創意文本、實現風格變化。在各種專業和學術基準上, GPT-4已具備與人類水平相當表現。如在模擬律師考試中,其分數在應試者前10%,相比下GPT-3.5在倒數10%左右。多模態 大模型在整體復雜度及交互性上已有較大提升,模型升級有望加速細分垂直應用成熟,賦能下游智慧化升級,帶動需求快 速增長。
1.2、算力芯片迎來產業機遇
AI芯片是人工智能的底層基石
AI人工智能的發展主要依賴兩個領域的創新和演進:一是模仿人腦建立起來的數學模型和算法,其次是半導體集成電路AI 芯片。AI的發展一直伴隨著半導體芯片的演進過程,20世紀90年代,貝爾實驗室的楊立昆(Yann LeCun)等人一起開發了 可以通過訓練來識別手寫郵政編碼的神經網絡,但在那個時期,訓練一個深度學習卷積神經網絡(Convolutional Neural Network,CNN)需要3天的時間,因此無法實際使用,而硬件計算能力的不足,也導致了當時AI科技泡沫的破滅。
ChatGPT激起AI浪潮,大算力芯片迎來產業機遇
算力硬件層是構成AIGC產業的核心底座,主要包括AI芯片、AI服務器和數據中心。 AI芯片是算力硬件層的基石。AI芯片主要分為CPU、GPU、FPGA和ASIC四類,CPU是AI計算的基礎,GPU、FPGA、ASIC 作為加速芯片協助CPU進行大規模計算。目前AI芯片主要被國際廠商壟斷,根據Counterpoint、IDC數據,Intel和AMD共計 占2022年全球數據中心 CPU 市場收入的92.45%,Nvidia占2021年中國加速卡市場份額的80%以上。
AI 服務器是AI芯片的系統集成。AI服務器采用CPU+加速芯片的架構形式,在進行模型的訓練和推斷時會更具有效率優勢。 與國外AI芯片廠商的壟斷局面不同,中國AI服務器水平位于世界前列。據IDC數據,在2021H1全球 AI 服務器市場競爭格局 中,浪潮信息以20.2%的份額排名第一,聯想和華為分別以6.1%和4.8%的份額位列第四、五名。數據中心的計算服務是承接AI算力需求的直接形式。AIGC的模型訓練是通常是通過云計算服務完成的,其本質是AIGC模型 廠商借助IDC的算力資源,在云端實現模型的訓練。目前國內的數據中心廠商主要包括三大運營商、華為、聯想、中科曙光 等,提供云計算的廠商主要有阿里、騰訊等互聯網企業。
2.1、AI芯片有望率先受益,CPU+XPU異構形式成為主流
AI芯片根據下游應用可分為訓練、推斷兩類
機器學習主要包括訓練(training)和推斷(inference)兩個步驟,通常需要不同類型的AI芯片來執行。訓練是指通過大數 據訓練出一個復雜的神經網絡模型,通過大量標記過的數據來訓練相應的系統,使其能夠適應特定的功能;推理是指利用 訓練好的模型,使用新數據推理出各種結論。 訓練芯片:通過大量的數據輸入,構建復雜的深度神經網絡模型的一種AI芯片。需要較高的計算性能、能夠處理海量的數 據、具有一定的通用性,以便完成各種各樣的學習任務,注重絕對的計算能力。 推斷芯片:推斷芯片主要是指利用訓練出來的模型加載數據,計算“推理”出各種結論的一種AI芯片,注重綜合指標,側 重考慮單位能耗算力、時延、成本等性能。
全球AI芯片有望達到726億美元規模
AI芯片是AI算力的核心,需求有望率先擴張。AI芯片是用于加速人工智能訓練和推理任務的專用硬件,主要包括GPU、 FPGA、ASIC等,具有高度并行性和能夠實現低功耗高效計算的特點。 隨著AI應用的普及和算力需求的不斷擴大,AI芯片需求有望率先擴張。根據IDC預測,中國AI算力規模將保持高速增長,預 計到2026年將達1271.4EFLOPS,CAGRA(2022-2026年)達52.3%。在此背景下,IDC預測異構計算將成為主流趨勢,未來 18個月全球人工智能服務器GPU、ASIC和FPGA的搭載率均會上升,2025年人工智能芯片市場規模將達726億美元。
云端/邊緣端芯片同步發展
深度學習的應用開發可分成云端與邊緣側兩大部分。云端指的是數據中心或超級計算機,具有強大的計算能力,利用海量 數據進行模型訓練,也可以進行推理。邊緣側指的是數據中心外的設備,如自動駕駛汽車、機器人、智能手機、無人機或 IoT設備,用訓練好的模型進行推理。根據場景不同,形成了兩種不同要求的AI芯片: 云端芯片:具有最大的計算能力和最高的性能,主要對深度學習算法模型進行訓練,有時也進行推斷。目前云端主要以 CPU+GPU異構計算為主,根據wind數據,在機器學習服務器和高性能服務器中,CPU+GPU的成本占比分別為83%與51%。
邊緣端芯片:計算性能有限,主要使用從云端傳來的訓練好的模型和數據進行推斷。在邊緣側或手機等端側設備中,很少 有獨立的芯片,AI加速通常由 SoC上的一個IP實現。例如,蘋果智能手機里最大的應用處理器(Application Processor,AP) 芯片就是一塊帶有AI核的SoC,這類SoC的性能一般可以達到5~10 TOPS。
AI芯片有望率先受益,CPU+XPU異構形式成為主流
云端訓練和推斷計算主要由 Al 服務器完成,底層算力芯片包括 CPU、GPU、FPGA、ASIC 等。 CPU是AI計算的基礎,負責控制和協調所有的計算操作。在AI計算過程中,CPU用于讀取和準備數據,并將數據來傳輸到 GPU等協處理器進行計算,最后輸出計算結果,是整個計算過程的控制核心。根據IDC數據,CPU在基礎型、高性能型、推 理型、訓練型服務器中成本占比分別為32%、23.3%、25%、9.8%,是各類服務器處理計算任務的基礎硬件。
GPU、FPGA、ASIC是AI計算的核心,作為加速芯片處理大規模并行計算。具體來看,GPU通用性較強,適合大規模并行計 算,且設計及制造工藝較成熟,目前占據AI芯片市場的主要份額;FPGA具有開發周期短、上市速度快、可配置性等特點, 目前被大量應用于線上數據處理中心和軍工單位;ASIC根據特定需求進行設計,在性能、能效、成本均極大的超越了標準 芯片,非常適合 AI 計算場景,是當前大部分AI初創公司開發的目標產品。
CPU:底層核心算力芯片
CPU(Central Processing Unit)中央處理器:是計算機的運算和控制核心(Control Unit),是信息處理、程序運行的最終執 行單元,主要功能是完成計算機的數據運算以及系統控制功能。 CPU擅長邏輯控制,在深度學習中可用于推理/預測。在深度學習中,模型的訓練和推理是兩個不同的過程: 在訓練過程中,模型需要進行大量的矩陣運算,因此通常使用GPU等擅長并行計算的芯片進行處理; 在推理過程中,需要對大量的已經訓練好的模型進行實時的推理/預測操作,而這種操作通常需要高效的邏輯控制能力和低 延遲的響應速度,這正是CPU所擅長的。
GPU:AI高性能計算王者
GPU(Graphics Processing Unit)圖形處理器:GPU最初是為了滿足計算機游戲等圖形處理需求而被開發出來的,但憑借 高并行計算和大規模數據處理能力,逐漸開始用于通用計算。根據應用場景和處理任務的不同,GPU形成兩條分支: 傳統GPU:用于圖形圖像處理,因此內置了一系列專用運算模塊,如視頻編解碼加速引擎、2D加速引擎、圖像渲染等。 GPGPU:通用計算圖形處理器(general-purpose GPU)。為了更好地支持通用計算,GPGPU減弱了GPU圖形顯示部分的能 力,將其余部分全部投入到通用計算中,同時增加了專用向量、張量、矩陣運算指令,提升了浮點運算的精度和性能,以 實現人工智能、專業計算等加速應用。
FPGA:可編程芯片加速替代
FPGA(Field Programmable Gate Array)現場可編程門陣列:FPGA最大的特點在于其現場可編程的特性,無論是CPU、 GPU還是ASIC,在芯片制造完成后功能會被固定,用戶無法對硬件功能做出更改,而FPGA在制造完成后仍可使用配套軟件 對芯片進行功能配置,將芯片上空白的模塊轉化為自身所需的具備特定功能的模塊。 可編程性、高并行性、低延遲、低功耗等特點,使得FPGA在AI推斷領域潛力巨大。FPGA可以在運行時根據需要進行動態 配置和優化功耗,同時擁有流水線并行和數據并行能力,既可以使用數據并行來處理大量數據,也能夠憑借流水線并行來 提高計算的吞吐量和降低延遲。根據與非網數據,FPGA(Stratix 10)在計算密集型任務的吞吐量約為CPU的10倍,延遲與 功耗均為GPU的1/10。
ASIC:云計算專用高端芯片
ASIC(Application Specific Integrated Circuit)專用集成電路:是一種為專門應特定用戶要求和特定電子系統的需要而設 計、制造的集成電路。ASIC具有較高的能效比和算力水平,但通用性和靈活性較差。能效方面:由于ASIC是為特定應用程序設計的,其電路可以被高度優化,以最大程度地減少功耗。根據Bob Broderson數據, FPGA的能效比集中在1-10 MOPS/mW之間。ASIC的能效比處于專用硬件水平,超過100MOPS/mW,是FPGA的10倍以上。算力方面:由于ASIC芯片的設計目標非常明確,專門為特定的應用場景進行優化,因此其性能通常比通用芯片更高。根據 頭豹研究院數據,按照CPU、GPU、FPGA、ASIC順序,芯片算力水平逐漸增加,其中ASIC算力水平最高,在1萬-1000萬 Mhash/s之間。
2.2、國產芯片廠商加速布局
國產CPU多點開花加速追趕
全球服務器CPU市場目前被Intel和AMD所壟斷,國產 CPU 在性能方面與國際領先水平仍有差距。根據Counterpoint數據, 在2022年全球數據中心CPU市場中,Intel以70.77%的市場份額排名第一,AMD以19.84%的份額緊隨其后,剩余廠商僅占據 9.39%的市場份額,整體上處于壟斷局面;目前國內CPU廠商主有海光、海思、飛騰、龍芯、申威等。通過產品對比發現, 目前國產服務器CPU性能已接近Intel中端產品水平,但整體上國內CPU廠商仍在工藝制程、運算速度(主頻)、多任務處理 (核心與線程數)方面落后于國際先進水平。
生態體系逐步完善,國產GPU多領域追趕
全球GPU芯片市場主要由海外廠商占據壟斷地位,國產廠商加速布局。全球GPU市場被英偉達、英特爾和AMD三強壟斷, 英偉達憑借其自身CUDA生態在AI及高性能計算占據絕對主導地位;國內市場中,景嘉微在圖形渲染GPU領域持續深耕,另 外天數智芯、壁仞科技、登臨科技等一批主打AI及高性能計算的GPGPU初創企業正加速涌入。 圖形渲染GPU:目前國內廠商在圖形渲染GPU方面與國外龍頭廠商差距不斷縮小。芯動科技的“風華2號”GPU采用5nm工 藝制程,與Nvidia最新一代產品RTX40系列持平,實現國產圖形渲染GPU破局。景嘉微在工藝制程、核心頻率、浮點性能等 方面雖落后于Nvidia同代產品,但差距正逐漸縮小。
FPGA/ASIC國產替代正當時
FPGA全球市場呈現“兩大兩小”格局,Altera與Xilinx市占率共計超80%,Lattice和Microsemi市占率共計超10%;整體來 看,安路科技、紫光同創等廠商處于國際中端水平,仍需進一步突破。工藝制程方面,當前國產廠商先進制程集中在28nm, 落后于國際16nm水平;在等效LUT數量上,國產廠商旗艦產品處于200K水平,僅為XILINX高端產品的25%左右。 ASIC不同于CPU、GPU、FPGA,目前全球ASIC市場并未形成明顯的頭部廠商,國產廠商快速發展;通過產品對比發現, 目前國產廠商集中采用7nm工藝制程,與國外ASIC廠商相同;算力方面,海思的昇騰910在BF16浮點算力和INT8定點算力方 面超越Googel最新一代產品TPUv4,遂原科技和寒武紀的產品在整體性能上也與Googel比肩。未來國產廠商有望在ASIC領 域繼續保持技術優勢,突破國外廠商在AI芯片的壟斷格局。
2.3、AI算力需求,存儲芯片受益
AI算力需求,存儲芯片受益
ChatGPT帶動AI服務器需求,存儲芯片受益。 ChatGPT的數據獲取、數據整理、訓練、推理除大算力芯片外,還需存儲芯片支持。 服務器成本構成:服務器成本包括算力芯片、存儲器等,根據IDC 2018年服務器成本構成,在高性能服務器/推理型服務器/機 器學習型服務器中存儲占比29%/25%/16%。AI服務器,除了內存需要128GB或更大容量的高性能HBM和高容量服務器DRAM, 還需硬盤去存儲大量數據。 存儲下游市場:智能手機+服務器+PC是主要下游。智能手機端出貨量增速有限,單機容量提升是主要推動力;服務器端,受 益人工智能、物聯網和云計算等應用興起,服務器出貨量及單機容量提升推動增長。
AI高算力對高帶寬內存的需求
AI大算力需要的內存:大容量服務 器DRAM和高帶寬內存HBM。 按照應用場景,DRAM分成標準 DDR、LPDDR、GDDR三類。 JEDEC定義并開發了以下三類 SDRAM 標準,以幫助設計人員滿足 其目標應用的功率、性能和尺寸要求。 1)標準型DDR:針對服務器、云計 算、網絡、筆記本電腦、臺式機和消 費類應用程序,與CPU配套使用 。2)LPDDR:Low Power DDR,針對 尺寸和功率非常敏感的移動和汽車領 域,有低功耗的特點。3)GDDR:Graphics DDR,針對高 帶寬(例如顯卡和 AI)的兩種不同的存 儲器架構是 GDDR 和 HBM。
AI助力企業級SSD市場擴容
AI助力企業級SSD市場擴容。 SSD為固態硬盤,由NAND顆粒、主控芯片等構成,其中NAND顆粒占成本的70%。SSD按照用途分為消費級、企業級 及其他行業級產品。近年來隨著云計算、大數據發展,互聯網服務加速普及,企業加快數字化轉型,數據呈現井噴狀 態,企業級SSD市場需求與規模不斷攀升。 IDC 數據顯示,企業級 SSD 全球出貨量將從 2020 年的約 4750萬塊增長到 2021 年的 5264 萬塊左右,年均增長率為 10.7%,預計到 2025 年,將增加到 7436 萬塊左右。
3.1、封測:Chiplet是AI芯片大勢所趨
AI產業機會-封測:Chiplet是AI芯片大勢所趨
當前AI芯片呈現幾大趨勢: 1)制程越來越先進。從2017年英偉達發布Tesla V100 AI芯片的12nm制程開始,業界一直在推進先進制程在AI芯片上的應用。 英偉達、英特爾、AMD一路將AI芯片制程從16nm推進至4/5nm。 2)Chiplet封裝初露頭角。2022年英偉達發布H100 AI芯片,其芯片主體為單芯片架構,但其GPU與HBM3存儲芯片的連接, 采用Chiplet封裝。在此之前,英偉達憑借NVlink-C2C實現內部芯片之間的高速連接,且Nvlink芯片的連接標準可與Chiplet業 界的統一標準Ucle共通。而AMD2023年發布的Instinct MI300是業界首次在AI芯片上采用更底層的Chiplet架構,實現CPU和 GPU這類核心之間的連接。3)2020年以來頭部廠商加速在AI芯片的布局。AI芯片先行者是英偉達,其在2017年即發布Tesla V100芯片,此后2020以來 英特爾、AMD紛紛跟進發布AI芯片,并在2022、2023年接連發布新款AI芯片,發布節奏明顯加快。
AI產業機會-封測:Chiplet是AI芯片大勢所趨
制程越先進、芯片組面積越大、小芯片(Chips)數量越多,Chiplet封裝較SoC單芯片封裝,成本上越有優勢: Chiplet主要封裝形式有MCM/InFO/2.5D這三種。 14nm制程下,當芯片面積超過700mm2時,Chiplet封裝中的MCM成本開始較SoC低,當面積達900mm2時,MCM較SoC成本 低近10%(2顆chips)、或低20%(3顆chips)、或低25%(5顆chips); 7nm制程下,芯片面積超過400mm2時,MCM成本開始低于SoC,面積超過600mm2時,InFO成本開始低于SoC,當面積達 900mm2時,5顆chips情況下,MCM較SoC成本低40%、InFO較SoC成本低20%; 5nm制程下,芯片面積超過300mm2時,MCM成本開始低于SoC,成本超過500mm2時,InFO成本開始低于SoC,當面積達 900mm2時,5顆chips情況下,MCM較SoC成本低50%、InFO較SoC成本低40%、2.5D較SoC成本低28%。
鑒于當前AI芯片朝高算力、高集成方向演進,制程越來越先進,Chiplet在更先進制程、更復雜集成中降本優勢愈發明顯, 未來有望成為AI芯片封裝的主要形式。
3.2、PCB:AI服務器基石
AI產業機會-PCB:AI服務器基石
ChatGPT數據運算量增長快速,帶動服務器/交換機/顯卡等用量提升,布局相應領域PCB公司顯著受益。 ChatGPT帶來了算力需求的激增,與之對應亦帶來相應服務器/交換機等作為算力核心載體和傳輸的硬件,帶來PCB需求大幅 增長,同時隨著對算力的要求越來越高,對于大容量、高速、高性能的云計算服務器的需求將不斷增長,對PCB的設計要求 也將不斷升級,提升對于高層數、大尺寸、高速材料等的應用。
以23年發布的新服務器平臺為例,Pcie 5.0服務器用PCB層數、材料、設計工藝均有升級,PCB價格提升顯著,其層數從4.0 的12-16層升級至16-20層,根據 Prismark 的數據,2021 年 8-16 層板的價格為 456 美元/平米,而18 層以上板的價格為 1538 美元/平米,PCB 價值量增幅明顯;另外配套新服務器,交換機、傳輸網產品都需要同步升級,預計400G、800G交換機對 PCB板子拉動巨大,進一步帶動數通板景氣度提升。
ChatGPT帶動服務器用量增長及平臺升級,預計2025年服務器PCB市場超160億美元,2021-2025CAGR達21%。 隨著ChatGPT對服務器用量增長及平臺升級,對應PCB的板材、層數、工藝復雜的均顯著提升,預計2025年全球服務器PCB 市場規模超160億美元,2021-2025年CAGR達21%,成為PCB增長最快的下游之一。
報告出品方/作者:中泰證券