阿裡(lǐ)平頭哥又發(fā)布一款芯片,含光800問世

阿裡(lǐ)平頭哥又發(fā)布一款芯片,含光800問世

在9月25日召開(kāi)的2019杭州雲栖大會上,阿裡(lǐ)巴巴發(fā)布自主研發(fā)的AI芯片——含光800,它在未來將(jiāng)主要用于雲端視覺場景,未來還(hái)可應用于醫療影像、自動駕駛等領域。

阿裡(lǐ)表示,含光800是目前全球最強AI芯片,性能(néng)和能(néng)效比均爲第一,1顆含光800的算力相當于10顆GPU。

含光800芯片在業界标準的ResNet-50測試中,推理性能(néng)達到78563 IPS,比目前業界最好(hǎo)的AI芯片性能(néng)高4倍;能(néng)效比500 IPS/W,是第二名的3.3倍。

目前基于含光800的AI雲服務已在阿裡(lǐ)雲上線,性價比提升100%。

雲栖大會現場,阿裡(lǐ)巴巴集團CTO兼阿裡(lǐ)雲智能(néng)總裁張建鋒表示,“在全球芯片領域,阿裡(lǐ)巴巴是一個新人,玄鐵和含光800是平頭哥的萬裡(lǐ)長(cháng)征第一步,我們還(hái)有很長(cháng)的路要走。”

另據媒體報道(dào),過(guò)去半年,阿裡(lǐ)平頭哥先後(hòu)發(fā)布了玄鐵910、無劍SoC平台,此次含光800發(fā)布,意味着阿裡(lǐ)平頭哥端雲一體産品系列初步成(chéng)型,實現了芯片設計鏈路的全覆蓋。

比特大陸發(fā)布第三代雲端AI芯片BM1684  將(jiāng)攜手福州城市大腦實現應用落地

比特大陸發(fā)布第三代雲端AI芯片BM1684 將(jiāng)攜手福州城市大腦實現應用落地

作爲全球礦機芯片龍頭廠商及國(guó)内AI芯片主要廠商之一,比特大陸在芯片領域又有新動作。

9月17日,福州城市大腦暨閩東北信息化戰略合作發(fā)布會在數字中國(guó)會展中心隆重召開(kāi)。發(fā)布會上,福州市委副書記、市長(cháng)尤猛軍宣布福州城市大腦正式發(fā)布并啓動建設,與此同時,比特大陸正式發(fā)布其第三代AI芯片BM1684,BM1684芯片將(jiāng)作爲福州城市大腦的底層算力。

在這(zhè)次大會期間,比特大陸董事(shì)長(cháng)詹克團接受了《全球半導體觀察》等媒體采訪,談及了比特大陸AI芯片與福州城市大腦的相關細節,以及比特大陸AI芯片的更新叠代、産品定位與發(fā)展布局等事(shì)宜。

第三代雲端AI芯片BM1684發(fā)布 性能(néng)提升6倍

2016年,全球礦機霸主比特大陸宣布全力進(jìn)軍人工智能(néng)領域,随後(hòu)相繼發(fā)布算豐第一代雲端AI芯片BM1680、第二代雲端AI芯片BM1682。詹克團表示,其第二代雲端AI芯片在市場上的訂單反饋情況很好(hǎo),在全國(guó)各地均有大量出貨和實踐項目落地。

這(zhè)次發(fā)布會比特大陸正式推出其第三代雲端AI芯片BM1684。BM1684聚焦于雲端及邊緣應用的人工智能(néng)推理,采用台積電12nm工藝,在典型功耗僅16瓦的前提下,FP32精度算力達到2.2 TFlops,INT8算力可高達17.6Tops,在Winograd卷積加速下,INT8算力更提升至35.2Tops,是一顆低功耗、高性能(néng)的SoC芯片。

據介紹,BM1684内置張量計算模塊TPU,包含64個NPU運算單元、每個NPU包括16個EU單元,總共有1024個EU運算單元。該款芯片爲視頻處理做了特别優化,單芯片最高支持32路H264/H265的解碼能(néng)力,每秒480幀JPEG/PNG圖片編解碼,960 fps@1080p視頻解碼能(néng)力,内置視頻圖像前後(hòu)處理硬件加速模塊。

BM1684還(hái)支持16個PCIE3.0 lane、2個千兆以太口,具備多芯片級聯等特點。值得一提的是,BM1684内置Trustzone(可信區域)、secureboot(安全啓動)以及多種(zhǒng)加解密算法,可保護客戶的數據、模型安全可靠,創建安全可信的計算環境。

此外,BM1684提供強大的深度學(xué)習模型編譯器和軟件SDK開(kāi)發(fā)包,支持主流的深度學(xué)習框架,包括Caffe、Tensorflow、Mxnet,、Pytorch等,開(kāi)發(fā)者可輕松把訓練完備的神經(jīng)網絡模型移植到BM1684平台上,支持視頻結構化分析,可應用于人臉檢測與識别、車牌識别等場景。

(注:藍色柱子爲BM1684)

發(fā)布會現場,詹克團將(jiāng)BM1684與業界兩(liǎng)款優秀新品進(jìn)行了比較,分别是在Restnet50、MobileNet、Vggnet16下處理能(néng)力和能(néng)效比的對(duì)比,從圖片中可看出BM1684在性能(néng)上比另外兩(liǎng)款産品均有所優勢。詹克團表示,相比上一代芯片,BM1684整體性能(néng)大約提升了6倍。

福州城市大腦專用芯片 將(jiāng)實現規模化落地

“AI芯片已過(guò)了講故事(shì)的時候,真刀真槍在市場上落地是現在的主旋律。”詹克團在接受采訪時表示。對(duì)于AI芯片廠商來說,實現AI芯片的最終應用落地無疑是最大挑戰之一,不過(guò)這(zhè)次比特大陸已爲其新推出的BM1684芯片找到了重要的合作應用落地載體。
發(fā)布會上,詹克團表示BM1684爲福州城市大腦專用芯片,是全球唯一一款城市大腦專用芯片,作爲整個系統的基礎設施,將(jiāng)位福州城市大腦提供算力。

何爲“城市大腦”?據介紹,福州城市大腦可形象地概括爲“一雲一湖一生态”,即一個自主可控的AI算力雲、一個融合共享的數據湖和一個開(kāi)放創新的生态體系。一個生态體系又包含了開(kāi)放算法生态、場景應用生态和協同創新生态三個層面(miàn)的含義。

福州城市大腦具備五大特點:一.國(guó)産芯片,自主可控;二.開(kāi)放生态,賦能(néng)創新;三.機制創新、應用牽引;四.統籌協調,複用共享;五.叠代演進(jìn),持續發(fā)展。其中,“國(guó)産芯片,自主可控”即指福州城市大腦依托AI專用TPU處理器構築基礎設施,爲城市各類算法與應用提供強大算力支持,自主可控的特性爲福州城市大腦數據和應用安全提供了可靠保障。

詹克團在發(fā)布會上指出,對(duì)于一款AI芯片,爲它尋找場景推廣落地是非常重要的工作,智慧城市、安防監控等是非常重要的應用場景。比特大陸欲爲其AI芯片産品尋求落地、福州想要擁抱人工智能(néng)和數字經(jīng)濟,雙方需求契合、達成(chéng)市場開(kāi)放、産業落地的共識。

“中國(guó)有300多個人口過(guò)百萬的城市,每一個百萬人口量級的城市都(dōu)可能(néng)是千億級的經(jīng)濟體,大體量的現代經(jīng)濟體産生了非常有價值的數據,發(fā)掘這(zhè)些數據的價值需要強大算力,城市大腦是城市信息化發(fā)展到高級階段的必然産物,算力中樞是城市大腦的核心部件。”詹克團如是說。

據了解,比特大陸自去年開(kāi)始在福州陸續進(jìn)行投資,今年1月福州市政府與比特大陸正式簽署福州城市大腦合作備忘錄。中關村智慧城市研究院、福州城市大腦研究院院長(cháng)柳進(jìn)軍在接受采訪時透露,在過(guò)去8個月時間裡(lǐ),福州市城市大腦研究院及比特大陸研判了很多能(néng)夠率先使用智能(néng)化的場景和項目,并在爲這(zhè)些項目做前期準備。

柳進(jìn)軍表示,城市大腦將(jiāng)爲比特大陸AI芯片帶來巨大的産業空間,也隻有當産業空間很大、應用場景很多的時候,這(zhè)款芯片以及整個AI芯片産業才能(néng)發(fā)展起(qǐ)來。作爲福州城市大腦專用芯片,比特大陸BM1684有望随着福州城市大腦啓動建設實現規模化落地應用,詹克團表示該款芯片會在明年上半年推向(xiàng)市場。

終端AI芯片業務分拆獨立  謀求發(fā)展提速

随着BM1684的推出及與福州城市大腦的合作,比特大陸在AI芯片領域的戰略布局亦越來越清晰,相較于業界強調的AI軟硬一體化發(fā)展,詹克團表示比特大陸經(jīng)過(guò)長(cháng)時間思考,确定在産業鏈上的定位爲提供算力芯片和算力硬件,與更多的算法廠商合作打造生态。

回顧這(zhè)三年間,比特大陸在AI芯片領域上的産品布局已涵蓋了雲端和終端,其中雲端AI芯片已發(fā)布三代産品,終端AI芯片BM1880于2018年10月發(fā)布。相比雲端AI芯片的更新叠代速度,終端AI芯片相對(duì)要慢。

詹克團解釋道(dào),終端AI芯片和雲端AI芯片在商業模式上有所不同,雲端芯片注重高性能(néng),終端芯片則強調成(chéng)本,兩(liǎng)者面(miàn)向(xiàng)的下遊市場亦有所不同。對(duì)于雲端和終端芯片發(fā)展步伐不一,比特大陸已有所考量。

據詹克團透露,比特大陸計劃將(jiāng)終端AI芯片業務分拆出來單獨成(chéng)立公司,使終端AI芯片業務運作得更快。消息顯示,脫胎于比特大陸的北京晶視智能(néng)科技有限公司(以下簡稱“晶視科技”)已于5月正式注冊成(chéng)立,專注于邊緣端AI SoC芯片的設計研發(fā),擁有自研邊緣端AI加速芯片知識産權算豐TPU。

據介紹,晶視科技從比特大陸分拆後(hòu),將(jiāng)建制完整吸納比特大陸旗下邊緣端芯片研發(fā)團隊,該團隊基于算豐TPU所設計的新一代邊緣端AI SoC芯片將(jiāng)于2019年底正式發(fā)布。

這(zhè)次在福建福州城市大腦暨閩東北信息化戰略合作發(fā)布會上,北京易華錄和力鼎資本發(fā)起(qǐ)的北京智慧雲城投資基金與晶視科技簽訂了投資協議,智慧雲城基金和比特大陸共同參與。

随着終端AI芯片業務分獨立發(fā)展,比特大陸在AI芯片領域將(jiāng)有望真正實現雲端與終端“兩(liǎng)條腿”并行。對(duì)于自家AI芯片的未來,詹克團報以樂觀态度,他坦言目前比特大陸AI芯片的出貨量仍較小,但三五年後(hòu)將(jiāng)會達到數十億美元的量級。

集成(chéng)1024顆昇騰910 華爲發(fā)布全球最快AI訓練集群Atlas 900

集成(chéng)1024顆昇騰910 華爲發(fā)布全球最快AI訓練集群Atlas 900

9月18日,華爲全連接大會開(kāi)幕,AI産品Atlas900正式發(fā)布。華爲輪值董事(shì)長(cháng)胡厚崑稱其爲“全球最快的AI訓練集群”。

集成(chéng)數千顆算力最強AI芯片

Altas 900由數千顆昇騰910組成(chéng),算力能(néng)達256~1024 PFLOPS@FP16。訓練ResNet-50隻用了59.8秒的集群規模,用到了1024顆昇騰910。

胡厚崑表示,當前條件下,天文學(xué)家要從20萬顆星星中找出某種(zhǒng)特征的星體,相當困難,需要169天的工作量。現在用上Atlas 900,隻用10秒,就從20萬顆星星中檢索出了相應特征的星體。

昇騰910芯片亮相于去年的全聯接大會,今年8月正式商用,是全球第三款、中國(guó)首款AI訓練芯片。

昇騰910采用華爲自研的達芬奇架構,号稱“算力最強的AI處理器”,7nm工藝制程,最大功耗爲350W,實測310W。

據華爲介紹,目前Atlas 900的已經(jīng)部署到了華爲雲上,并以極優惠的價格向(xiàng)全球科研機構和大學(xué)開(kāi)放。

華爲計算機産業戰略

胡厚崑在上述大會演講時表示,未來10年將(jiāng)是計算産業的大藍海,每年將(jiāng)達到2萬億美元的市場規模,計算和聯接是未來智能(néng)時代的核心。

華爲在現場發(fā)布了新的計算産業戰略,主要涵蓋了四點,包括對(duì)架構創新的突破、對(duì)全場景處理器族的投資,堅持有所爲有所不爲的商業策略,以及不遺餘力地構建開(kāi)放生态。

第一點,達芬奇架構。華爲認爲,在計算無處不在的時候,算力將(jiāng)會成(chéng)爲關鍵瓶頸,而現在從行業來看,算力已經(jīng)成(chéng)爲了高度稀缺資源。摩爾定律走到極限的情況下,整個行業需要找到新的架構釋放新的算力。這(zhè)是産業的需求。

從華爲的業務布局來看,也需要一種(zhǒng)新的架構覆蓋全場景的智能(néng)計算需要。這(zhè)種(zhǒng)情況下,達芬奇架構誕生。

第二點是投資全場景處理器家族。胡厚崑說,處理器是整個計算産業最基礎的部分,目前華爲已經(jīng)發(fā)布了多個系列的處理器。具體包括支持通用計算的鲲鵬系列,支持AI的昇騰系列,支持智能(néng)終端的麒麟系列,以及支持智慧屏的鴻鹄系列。

胡厚崑表示,未來華爲將(jiāng)持續不斷地對(duì)處理器進(jìn)行投資,將(jiāng)來還(hái)將(jiāng)推出一系列處理器,面(miàn)向(xiàng)更多的場景。

第三點是商業策略。胡厚崑表示,華爲不直接對(duì)外銷售處理器,以雲服務面(miàn)向(xiàng)客戶,以部件爲主面(miàn)向(xiàng)合作夥伴,優先支持合作夥伴發(fā)展整機。具體來說,有三個方面(miàn)的考慮:

硬件開(kāi)放:我們把服務器主闆、AI模組和闆卡等硬件開(kāi)放給夥伴,幫助夥伴做好(hǎo)整機和解決方案。

軟件開(kāi)源:我們把服務器操作系統、數據庫、AI開(kāi)發(fā)框架等軟件開(kāi)源,幫助夥伴做好(hǎo)商用版本,讓軟件開(kāi)發(fā)更簡單。

使能(néng)應用開(kāi)發(fā)和遷移:我們不做應用,但我們提供工具和團隊,幫助夥伴更高效地做好(hǎo)應用開(kāi)發(fā)和遷移。

第四點是華爲依賴于構建開(kāi)放生态。胡厚崑表示,四年前,華爲發(fā)布了第一個版本的沃土計算,在過(guò)去的四年以來,華爲已經(jīng)發(fā)展了130多萬開(kāi)發(fā)者。華爲將(jiāng)升級沃土計劃,繼續投入15億美元,使開(kāi)發(fā)者的規模擴大到500萬人。

此外,華爲稱未來還(hái)在持續不斷地對(duì)闆卡、服務器、操作系統、數據庫、編譯器等關鍵技術和産品進(jìn)行投資,希望通過(guò)強力投資,打通生态全鏈條,堅定地參與打造鲲鵬産業。

商務合作請加微信:izziezeng

加入集邦半導體交流群,請加微信:DRAMeXchange2019

華爲發(fā)布AI處理器昇騰910及AI計算框架MindSpore

華爲發(fā)布AI處理器昇騰910及AI計算框架MindSpore

近日,華爲在深圳正式發(fā)布算力最強的AI處理器Ascend910(昇騰910),同時推出全場景AI計算框架MindSpore。

華爲公司輪值董事(shì)長(cháng)徐直軍在發(fā)布會上表示:華爲自2018年10月發(fā)布AI戰略以來,穩步而有序地推進(jìn)戰略執行、産品研發(fā)及商用進(jìn)程。昇騰910、MindSpore的推出,标志着華爲已完成(chéng)全棧全場景AI解決方案(Portfolio)的構建,也标志着華爲AI戰略的執行進(jìn)入了新的階段。

昇騰910,算力最強AI處理器

徐直軍此次正式發(fā)布的AI芯片是昇騰910,屬于Ascend-max系列。在HC2018上已經(jīng)發(fā)布了其技術規格。實際測試結果表明,在算力方面(miàn),昇騰910完全達到了設計規格,即:半精度 (FP16)算力達到256 Tera-FLOPS,整數精度 (INT8) 算力達到512 Tera-OPS,重要的是,達到規格算力所需功耗僅310W,明顯低于設計規格的350W。

徐直軍表示:昇騰910總體技術表現超出預期,作爲算力最強AI處理器,當之無愧。我們已經(jīng)把昇騰910用于實際AI訓練任務。比如,在典型的ResNet50 網絡的訓練中,昇騰910與MindSpore配合,與現有主流訓練單卡配合TensorFlow相比,顯示出接近2倍的性能(néng)提升。面(miàn)向(xiàng)未來,針對(duì)不同的場景,包括邊緣計算、自動駕駛車載計算、訓練等場景,華爲將(jiāng)持續投資,推出更多的AI處理器,面(miàn)向(xiàng)全場景持續提供更充裕、更經(jīng)濟、更适配的AI算力。

MindSpore,全場景AI計算框架

徐直軍還(hái)發(fā)布了全場景AI計算框架 MindSpore。能(néng)否大大降低AI應用開(kāi)發(fā)的門檻,能(néng)否實現AI無處不在,能(néng)否在任何場景下确保用戶隐私得到尊重和保護,這(zhè)些都(dōu)與AI計算框架息息相關。爲此,去年華爲全聯接大會上,華爲提出,AI框架應該是開(kāi)發(fā)态友好(hǎo)(例如顯著減少訓練時間和成(chéng)本)和運行态高效(例如最少資源和最高能(néng)效比),更重要的是,要能(néng)适應每個場景包括端、邊緣和雲。經(jīng)過(guò)近一年的努力,全場景AI計算框架MindSpore在這(zhè)三個方面(miàn)都(dōu)取得了顯著進(jìn)展。

全場景支持,是在隐私保護日漸重要的背景下,實現AI無所不在越來越基礎的需求,也是MindSpore的重要特色。針對(duì)不同的運行環境,MindSpore框架架構上支持可大可小,适應全場景獨立部署。MindSpore框架通過(guò)協同經(jīng)過(guò)處理後(hòu)的、不帶有隐私信息的梯度、模型信息,而不是數據本身,以此實現在保證用戶隐私數據保護的前提下跨場景協同。除了隐私保護,MindSpore還(hái)將(jiāng)模型保護Built-in到AI框架中,實現模型的安全可信。 在原生适應每個場景包括端,邊緣和雲,并能(néng)夠按需協同的基礎上,通過(guò)實現AI算法即代碼,使開(kāi)發(fā)态變得更加友好(hǎo),顯著減少模型開(kāi)發(fā)時間。以一個NLP(自然語言處理)典型網絡爲例,相比其他框架,用MindSpore可降低核心代碼量20%,開(kāi)發(fā)門檻大大降低,效率整體提升50%以上。通過(guò)MindSpore框架自身的技術創新及其與昇騰處理器協同優化,有效克服AI計算的複雜性和算力的多樣性挑戰,實現了運行态的高效,大大提高了計算性能(néng)。除了昇騰處理器,MindSpore同時也支持GPU、CPU等其它處理器。

爲了更好(hǎo)促進(jìn)AI的應用,徐直軍宣布“MindSpore將(jiāng)在2020年Q1開(kāi)源”,助力每一位開(kāi)發(fā)者,促進(jìn)AI産業生态發(fā)展。

全棧全場景AI解決方案,讓AI無處不在

徐直軍在發(fā)布以上兩(liǎng)款産品之前,首先重申了華爲公司的AI戰略:投資AI基礎研究,在計算視覺、自然語言處理、決策推理等領域構築數據高效(更少的數據需求) 、能(néng)耗高效(更低的算力和能(néng)耗) ,安全可信、自動自治的機器學(xué)習基礎能(néng)力;打造全棧全場景解決方案,提供充裕的、經(jīng)濟的算力資源,簡單易用、高效率、全流程的AI平台;投資開(kāi)放生态和人才培養,面(miàn)向(xiàng)全球,持續與學(xué)術界、産業界和行業夥伴廣泛合作;把AI思維和技術引入現有産品和服務,實現更大價值、更強競争力;應用AI優化内部管理,對(duì)準海量作業場景,大幅度提升内部運營效率和質量。

華爲AI解決方案(portfolio)的全場景,是指包括公有雲、私有雲、各種(zhǒng)邊緣計算、物聯網行業終端以及消費類終端等部署環境。而全棧是技術功能(néng)視角,是指包括Ascend昇騰系列IP和芯片、芯片使能(néng)CANN、訓練和推理框架MindSpore和應用使能(néng)ModelArts在内的全堆棧方案。

徐直軍也回顧了制定以上AI戰略的初衷。華爲定位AI是一種(zhǒng)新的通用目的技術(GPT),如同19世紀的鐵路和電力,以及20世紀的汽車、電腦、互聯網一樣,將(jiāng)應用到經(jīng)濟的幾乎所有地方。同時華爲也認爲AI的應用總體還(hái)處于發(fā)展初期,AI技術和能(néng)力相比于長(cháng)遠期望還(hái)有很大差距。減小甚至消除這(zhè)些差距,加速AI的應用,正是華爲AI戰略的初衷和目标。具體包括緻力于促成(chéng)以下10個方面(miàn)的改變。

通過(guò)提供更強的算力,使複雜模型訓練能(néng)在幾分鍾、甚至幾秒鍾内完成(chéng),而不是今天的數天甚至數周;提供更經(jīng)濟、更充裕的算力,讓算力不再稀缺、不再昂貴,從而不再是AI發(fā)展的制約因素;通過(guò)全場景方案,适應企業不同需要,确保用戶隐私得到尊重和保護,讓AI能(néng)夠部署在任何場景,而不僅僅是公有雲。投資基礎AI算法研究,實現更少的數據需求,即數據高效。也要能(néng)夠基于更低的算力和能(néng)耗,即能(néng)耗高效。通過(guò)AI框架MindSpore和應用使能(néng)ModelArts,大大提升AI自身的自動化水平,減少對(duì)人工的依賴。持續提升模型算法,實現工業生産環境的“工作”優秀,而不僅僅是各種(zhǒng)比拼環境的“考試”優秀。實現模型的閉環、實時更新,保證企業AI應用始終處于最佳狀态。將(jiāng)AI技術與5G、雲、物聯網、邊緣計算、區塊鏈、大數據、數據庫…等技術充分協同,發(fā)揮更大價值。通過(guò)全棧方案一站式平台,使AI成(chéng)爲所有應用開(kāi)發(fā)者甚至所有ICT技術從業人員的一項基本技能(néng),而不是一項隻有具備高級技能(néng)的專家才能(néng)完成(chéng)的工作。通過(guò)全棧全場景技術手段,結合投資開(kāi)放的生态和人才培養,讓AI人才不再短缺。

昇騰310和ModelArts獲得廣泛應用

在華爲全聯接大會2018上,與華爲AI戰略一起(qǐ), 作爲全棧全場景解決方案的首批組件,華爲同時對(duì)外發(fā)布并正式推出了昇騰310 AI芯片 和全流程模型生産服務ModelArts。昇騰310屬于Ascend-mini系列第一顆華爲商用AI SoC芯片,在最大功耗僅8W的情況下,其整數精度(INT8)算力達到16Tops,半精度(FP16)算力達 到8Tops,同時,該芯片中還(hái)集成(chéng)了16通道(dào) 全高清 視頻解碼器,是面(miàn)向(xiàng)邊緣計算場景最強算力的AI SoC。

自發(fā)布以來,基于昇騰310芯片的産品和雲服務獲得廣泛應用。其中,基于昇騰310的MDC和很多國(guó)内外主流車企在園區巴士、新能(néng)源車、自動駕駛等場景已經(jīng)深入合作。基于昇騰310的Atlas系列闆卡、服務器,與數十家夥伴在智慧交通、智慧電力等數十個行業落地行業解決方案。基于昇騰310,華爲雲提供了圖像分析類服務、OCR服務、視頻智能(néng)分析服務等雲服務。對(duì)外提供API達50多個,日均調用量超過(guò)1億次,而且在快速增長(cháng),預計年底日均調用量 超過(guò)3億次。另有超過(guò)100多個客戶使用昇騰310開(kāi)發(fā)定制AI算法。

ModelArts全流程模型生産服務打通了從數據獲取-模型開(kāi)發(fā)-模型訓練-模型部署的全鏈條,可將(jiāng)生産所需的所有服務一站式提供。截止目前,ModelArts已經(jīng)擁有開(kāi)發(fā)者超過(guò)3萬,日均訓練作業任務超過(guò)4000個,32000小時,其中:視覺類作業占85%,語音類作業占 10%, 機器學(xué)習5%。

華爲發(fā)布AI處理器昇騰910  号稱世界算力最強

華爲發(fā)布AI處理器昇騰910 号稱世界算力最強

去年10月,華爲對(duì)外公布AI處理器Ascend 910(昇騰910)的技術規格,如今這(zhè)款芯片真正到來。8月23日,華爲正式發(fā)布昇騰910,同時推出全場景AI計算框架MindSpore。

據了解,昇騰910采用7nm+EUV工藝、32核自研達芬奇架構。徐直軍表示,測試結果顯示,昇騰910完全達到了設計規格,即半精度達到256 TFLOPS,整數精度達到512 TOPS。并且,達到規格算力所需功耗僅310W,明顯低于設計的350W。

徐直軍表示,昇騰910總體技術表現超出預期,作爲世界算力最強AI處理器,當之無愧。據其透露,華爲已經(jīng)把昇騰910用于實際AI訓練任務,昇騰910與MindSpore配合與現有主流訓練單卡配合TensorFlow相比,顯示出接近2倍的性能(néng)提升。

此外,華爲還(hái)發(fā)布了新一代AI開(kāi)源計算框架MindSpore。徐直軍表示,MindSpore框架已與昇騰處理器協同優化,克服了AI計算的複雜性和算力的多樣性挑戰,實現了運行态的高效,大大提高了計算性能(néng)。

據了解,MindSpore將(jiāng)在2020年一季度開(kāi)源,除了昇騰處理器,MindSpore同時也支持GPU、CPU等其它處理器。

去年10月華爲發(fā)布其AI戰略,華爲公司輪值董事(shì)長(cháng)徐直軍表示,昇騰910、MindSpore的推出,标志着華爲已完成(chéng)全棧全場景AI解決方案的構建,也标志着華爲AI戰略的執行進(jìn)入了新階段。

深度解讀達芬奇架構:華爲AI芯片的“秘密武器”

深度解讀達芬奇架構:華爲AI芯片的“秘密武器”

2019年6月,華爲發(fā)布全新8系列手機SoC芯片麒麟810,首次采用華爲自研達芬奇架構NPU,實現業界領先端側AI算力,在業界公認的蘇黎世聯邦理工學(xué)院推出的AI Benchmark榜單中,搭載麒麟810的手機霸榜TOP3,堪稱華爲AI芯片的“秘密武器”,這(zhè)其中華爲自研的達芬奇架構舉足輕重。

那麼(me),達芬奇架構AI實力究竟怎麼(me)樣?一起(qǐ)來深入了解下。

源起(qǐ):爲什麼(me)要做達芬奇架構?

華爲預測,到2025年全球的智能(néng)終端數量將(jiāng)會達到400億台,智能(néng)助理的普及率將(jiāng)達到90%,企業數據的使用率將(jiāng)達到86%。可以預見,在不久的將(jiāng)來,AI將(jiāng)作爲一項通用技術極大地提高生産力,改變每個組織和每個行業。

基于這(zhè)樣的願景,華爲在2018全聯接大會上提出全棧全場景AI戰略。作爲重要的技術基礎,AI芯片在其中發(fā)揮着重要作用,而華爲也基于AI芯片提供了完整的解決方案,加速使能(néng)AI産業化。

爲了實現AI在多平台多場景之間的協同,華爲創新設計達芬奇計算架構,在不同體積和功耗條件下提供強勁的AI算力。

初見:達芬奇架構的核心優勢

達芬奇架構,是華爲自研的面(miàn)向(xiàng)AI計算特征的全新計算架構,具備高算力、高能(néng)效、靈活可裁剪的特性,是實現萬物智能(néng)的重要基礎。

具體來說,達芬奇架構采用3D Cube針對(duì)矩陣運算做加速,大幅提升單位功耗下的AI算力,每個AI Core可以在一個時鍾周期内實現4096個MAC操作,相比傳統的CPU和GPU實現數量級的提升。

同時,爲了提升AI計算的完備性和不同場景的計算效率,達芬奇架構還(hái)集成(chéng)了向(xiàng)量、标量、硬件加速器等多種(zhǒng)計算單元。同時支持多種(zhǒng)精度計算,支撐訓練和推理兩(liǎng)種(zhǒng)場景的數據精度要求,實現AI的全場景需求覆蓋。

深耕:達芬奇架構的AI硬實力

科普1:常見的AI運算類型有哪些?

在了解達芬奇架構的技術之前,我們先來弄清楚一下幾種(zhǒng)AI運算數據對(duì)象:

· 标量(Scalar):由單獨一個數組成(chéng)

· 向(xiàng)量(Vector):由一組一維有序數組成(chéng),每個數由一個索引(index)标識

· 矩陣(Matrix):由一組二維有序數組成(chéng),每個數由兩(liǎng)個索引(index)标識

· 張量(Tensor):由一組n維有序數組成(chéng),每個數由n個索引(index)标識

其中,AI計算的核心是矩陣乘法運算,計算時由左矩陣的一行和右矩陣的一列相乘,每個元素相乘之後(hòu)的和輸出到結果矩陣。

在此計算過(guò)程中,标量(Scalar)、向(xiàng)量(Vector)、矩陣(Matrix)算力密度依次增加,對(duì)硬件的AI運算能(néng)力不斷提出更高要求。

典型的神經(jīng)網絡模型計算量都(dōu)非常大,這(zhè)其中99%的計算都(dōu)需要用到矩陣乘,也就是說,如果提高矩陣乘的運算效率,就能(néng)最大程度上提升AI算力——這(zhè)也是達芬奇架構設計的核心:以最小的計算代價增加矩陣乘的算力,實現更高的AI能(néng)效。

科普2:各單元角色分工揭秘,Da Vinci Core是如何實現高效AI計算的?

在2018年全聯接大會上,華爲推出AI芯片Ascend 310(昇騰310),這(zhè)是達芬奇架構的首次亮相。

其中,Da Vinci Core隻是NPU的一個部分,Da Vinci Core内部還(hái)細分成(chéng)很多單元,包括核心的3D Cube、Vector向(xiàng)量計算單元、Scalar标量計算單元等,它們各自負責不同的運算任務實現并行化計算模型,共同保障AI計算的高效處理。

· 3D Cube矩陣乘法單元:算力擔當

剛才已經(jīng)提到,矩陣乘是AI計算的核心,這(zhè)部分運算由3D Cube完成(chéng),Buffer L0A、L0B、L0C則用于存儲輸入矩陣和輸出矩陣數據,負責向(xiàng)Cube計算單元輸送數據和存放計算結果。

· Vector向(xiàng)量計算單元:靈活的多面(miàn)手

雖然Cube的算力很強大,但隻能(néng)完成(chéng)矩陣乘運算,還(hái)有很多計算類型要依靠Vector向(xiàng)量計算單元來完成(chéng)。Vector的指令相對(duì)來說非常豐富,可以覆蓋各種(zhǒng)基本的計算類型和許多定制的計算類型。

· Scalar标量計算單元:流程控制的管家

Scalar标量運算單元主要負責AI Core的标量運算,功能(néng)上可以看作一個小CPU,完成(chéng)整個程序的循環控制,分支判斷,Cube、Vector等指令的地址和參數計算以及基本的算術運算等。

科普3:3D Cube計算方式的獨特優勢是什麼(me)?

不同于以往的标量、矢量運算模式,華爲達芬奇架構以高性能(néng)3D Cube計算引擎爲基礎,針對(duì)矩陣運算進(jìn)行加速,大幅提高單位面(miàn)積下的AI算力,充分激發(fā)端側AI的運算潛能(néng)。

以兩(liǎng)個N*N的矩陣A*B乘法爲例:如果是N個1D 的MAC,需要N^2(即N的2次方)的cycle數;如果是1個N^2的2D MAC陣列,需要N個Cycle;如果是1個N維3D的Cube,隻需要1個Cycle。

圖中計算單元的數量隻是示意,實際可靈活設計

華爲創新設計的達芬奇架構將(jiāng)大幅提升算力,16*16*16的3D Cube能(néng)夠顯著提升數據利用率,縮短運算周期,實現更快更強的AI運算。

這(zhè)是什麼(me)意思呢?舉例來說,同樣是完成(chéng)4096次運算,2D結構需要64行*64列才能(néng)計算,3D Cube隻需要16*16*16的結構就能(néng)算出。其中,64*64結構帶來的問題是:運算周期長(cháng)、時延高、利用率低。

達芬奇架構的這(zhè)一特性也完美體現在麒麟810上。作爲首款采用達芬奇架構NPU的手機SoC芯片,麒麟810實現強勁的AI算力,在單位面(miàn)積上實現最佳能(néng)效,FP16精度和INT8量化精度業界領先,搭載這(zhè)款SoC芯片的華爲Nova 5、Nova 5i Pro及榮耀9X手機已上市,爲廣大消費者提供多種(zhǒng)精彩的AI應用體驗。

同時,麒麟810再度賦能(néng)HiAI生态,支持自研中間算子格式IR開(kāi)放,算子數量多達240+,處于業内領先水平。更多算子、開(kāi)源框架的支持以及提供更加完備的工具鏈將(jiāng)助力開(kāi)發(fā)者快速轉換集成(chéng)基于不同AI框架開(kāi)發(fā)出的模型,極大地增強了華爲HiAI移動計算平台的兼容性、易用性,提高開(kāi)發(fā)者的效率,節約時間成(chéng)本,加速更多AI應用的落地。

預見:達芬奇架構解鎖AI無限可能(néng)

基于靈活可擴展的特性,達芬奇架構能(néng)夠滿足端側、邊緣側及雲端的應用場景,可用于小到幾十毫瓦,大到幾百瓦的訓練場景,橫跨全場景提供最優算力。

以Ascend芯片爲例,Ascend-Nano可以用于耳機電話等IoT設備的使用場景;Ascend-Tiny和Ascend-Lite用于智能(néng)手機的AI運算處理;在筆記本電腦等算力需求更高的便攜設備上,由Ascend-Mini提供算力支持;而邊緣側服務器上則需要由Multi-Ascend 310完成(chéng)AI計算;至于超複雜的雲端數據運算處理,則交由算力最高可達256 TFLOPS@FP16的Ascend-Max來完成(chéng)。

正是由于達芬奇架構靈活可裁剪、高能(néng)效的特性,才能(néng)實現對(duì)上述多種(zhǒng)複雜場景的AI運算處理。

同時,選擇開(kāi)發(fā)統一架構也是一個非常關鍵的決策。統一架構優勢很明顯,那就是對(duì)廣大開(kāi)發(fā)者非常利好(hǎo)。基于達芬奇架構的統一性,開(kāi)發(fā)者在面(miàn)對(duì)雲端、邊緣側、端側等全場景應用開(kāi)發(fā)時,隻需要進(jìn)行一次算子開(kāi)發(fā)和調試,就可以應用于不同平台,大幅降低了遷移成(chéng)本。

不僅開(kāi)發(fā)平台語言統一,訓練和推理框架也是統一的,開(kāi)發(fā)者可以將(jiāng)大量訓練模型放在本地和雲端服務器,再將(jiāng)輕量級的推理工作放在移動端設備上,獲得一緻的開(kāi)發(fā)體驗。

在算力和技術得到突破性提升後(hòu),AI將(jiāng)廣泛應用于智慧城市、自動駕駛、智慧新零售、機器人、工業制造、雲計算AI服務等場景。華爲輪值董事(shì)長(cháng)徐直軍在2018華爲全聯接大會上表示,“全場景意味着可以實現智能(néng)無所不及,全棧意味着華爲有能(néng)力爲AI應用開(kāi)發(fā)者提供強大的算力和應用開(kāi)發(fā)平台;有能(néng)力提供大家用得起(qǐ)、用得好(hǎo)、用得放心的AI,實現普惠AI”。

未來,AI將(jiāng)應用更加廣泛的領域,并逐漸覆蓋至生活的方方面(miàn)面(miàn)。達芬奇架構作爲AI運算的重要技術基礎,將(jiāng)持續賦能(néng)AI應用探索,爲各行各業的AI應用場景提供澎湃算力。

8月23日,采用達芬奇架構的又一款“巨無霸”——AI芯片Ascend 910,將(jiāng)正式商用發(fā)布,與之配套的新一代AI開(kāi)源計算框架MindSpore也將(jiāng)同時亮相。

英特爾發(fā)布最新AI芯片 把谷歌、台積電技術都(dōu)用上了!

英特爾發(fā)布最新AI芯片 把谷歌、台積電技術都(dōu)用上了!

近幾年AI芯片火熱,不讓Nvidia專美于前,英特爾在确定進(jìn)入10納米時代後(hòu)更是積極追趕,美國(guó)時間20日,英特爾公布首款神經(jīng)網絡處理器Nervana(代号Springhill)相關細節,包含訓練芯片NNP-T與推論芯片NNP-I,加上原有的Xeon在AI芯片陣容越發(fā)堅強,技術也開(kāi)始兼容了起(qǐ)來。

美國(guó)時間20日,英特爾在今年Hot Chips大會上公布首款神經(jīng)網絡處理器Nervana細節,如其名,這(zhè)是2016年英特爾收購包含Nervana幾家新創公司的成(chéng)果。Nervana處理器分爲訓練芯片NNP-T與推論芯片NNP-I。

訓練用的Nervana NNP-T,主打可編程與靈活性,并強調可從頭建構大規模深度學(xué)習模型,且盡可能(néng)訓練電腦在給定的能(néng)耗預算内快速完成(chéng)任務,也無需傳統技術的龐大開(kāi)銷。

NNP-T支援了Google TPU Tensorflow架構特有的運算格式“bfloat16”,bfloat16截斷既有的32位元float32的前16位,僅留下後(hòu)16位所組成(chéng),在許多機器學(xué)習模型可以容忍較低精确度計算、不需降低收斂準确率的情況下,許多模型使用bfloat16達到的收斂準确率結果與一般使用的32位元浮點(FP32)計算數值的結果一樣,降低精度其實能(néng)讓存儲器效率取得較佳的平衡,從而訓練與部署更多的網絡、降低訓練所需的時間,有較好(hǎo)的效率與靈活性,而這(zhè)是英特爾首次將(jiāng)bfloat16内建于處理器。

▲bfloat16浮點格式(Source:Google)

另外有趣的是NNP-T其實采用的是台積電16納米CLN FF+制程,這(zhè)與一般我們對(duì)英特爾自行生産芯片的認知有所差異,而在Nervana被英特爾收購前,第一代Lake Crest就是由台積電所代工。NNP-T采用台積電最新的CoWoS(Chip on Wafer on Substrate)封裝技術,將(jiāng)NNP-T的晶粒與四個8GB HBM2存儲器異質整合堆疊2.5D,讓其封裝體積縮小成(chéng)一個60X60 mm的芯片。

▲Nervana NNP-T采用台積電16nm CLN FF+制程(Source:Intel)

英特爾同時發(fā)表了推論芯片Nervana NNP-I,主要針對(duì)大型資料中心市場高效能(néng)深度學(xué)習推論而生,NNP-I主要基于英特爾10nm Ice Lake處理器,官方強調透過(guò)此芯片,可提高每瓦效能(néng),讓企業以更低的成(chéng)本執行推論運算工作,降低推論大量部署的成(chéng)本。英特爾指出,NNP-I在功率10瓦下每秒能(néng)處理3600張影像,而處理器本身亦擁有高度可編程性,且同時不影響性能(néng)與功效。

▲Nervana NNP-I架構(Source:Intel)

NNP-I已與Facebook合作并實際運用在其相關業務上,而NNP-T將(jiāng)于今年底以前針對(duì)尤其雲端服務商相關的高端客戶送樣,并在2020年之前拓展市場。

從芯片大廠到雲端龍頭,邊緣運算AI芯片成(chéng)必争之地

從芯片大廠到雲端龍頭,邊緣運算AI芯片成(chéng)必争之地

聯發(fā)科于2019年7月中推出可快速影像辨識的AIoT平台i700,在邊緣裝置端提供高性能(néng)的同時,仍能(néng)達到最低功耗,預計將(jiāng)廣泛應用在智慧城市、智慧建築及智慧制造等領域,協助聯發(fā)科AIoT物聯網産業鏈加速發(fā)展。

從芯片大廠到雲端龍頭,跨足邊緣AI芯片成(chéng)重要策略

随物聯網應用越趨廣泛,裝置連結數的增加與海量數據的産生使智慧裝置對(duì)高速AI邊緣算力和物聯網能(néng)力提出更高要求,邊緣運算與AI的結合遂成(chéng)顯學(xué)。

觀察近期廠商于此領域之布局,邊緣運算AI芯片堪稱兵家必争之地,在芯片大廠部分,包括NVIDIA推出供物聯網閘道(dào)器及邊緣運算使用的Jetson Nano開(kāi)發(fā)闆與EGX平台;Intel推出由64個Loihi神經(jīng)拟态芯片組成(chéng)的Pohoiki Beach系統,并規劃將(jiāng)其應用在自動駕駛等邊緣端涉及深度學(xué)習的場景;高通也推出專爲Edge AI設計的Cloud AI 100,挾其于物聯網、自駕車、計算機視覺等人工邊緣運算重點發(fā)展領域豐富經(jīng)驗一較高下。

除傳統芯片廠外,雲端平台大廠也有别于過(guò)往專注于解決方案的推出,紛紛加入戰局,例如AWS發(fā)布第一款專門用于機器學(xué)習的AI芯片Inferentia;Google則推出用來執行機器學(xué)習模型推論預測的邊緣運算芯片Edge TPU,可在邊緣端設備上以超低功率、高度省電方式執行已訓練好(hǎo)的TensorFLow Lite機器學(xué)習模型。

有鑒于物聯網設備是AI芯片目前應用最廣泛的場景之一,雲端大廠握有AI芯片將(jiāng)能(néng)讓其從雲端跨向(xiàng)邊緣,使傳感器及相關設備有更高效的管理數據、提供更好(hǎo)的用戶體驗,并加速雲端廠商物聯網商品的商業化與生态圈建置。

芯片亦爲台廠面(miàn)對(duì)邊緣運算AI趨勢之主要切入點

2019年亦有不少台系廠商進(jìn)行邊緣運算結合人工智能(néng)的布局,例如聯發(fā)科于年中推出具高速AI邊緣運算能(néng)力的i700解決方案,其單晶片設計整合CPU、GPU、ISP和專屬AI處理器APU(AI Processor Unit),強大的AI辨識能(néng)力可應用于無人商店的辨物刷臉、智慧建築的門禁系統,以及智慧工廠辨别障礙物等場景。

耐能(néng)則推出具備可重組式人工智能(néng)神經(jīng)網絡技術的AI芯片KL520,將(jiāng)神經(jīng)網絡處理器的功耗降至數百mW等級,适用于結構光、雙目視覺,而ToF特性也使該芯片將(jiāng)廣泛運用于網絡攝影機、安防監控系統、空拍機等領域。同樣看準邊緣視覺AI的商機,華晶科、訊連、和碩等也相繼推出計算機視覺及圖像辨識的相關産品。

綜觀台灣地區産業優勢,以半導體産業中的晶圓代工及封測總産值爲全球第一,IC設計亦位居前茅。于2019年7月由産官學(xué)研組成(chéng)的台灣人工智能(néng)芯片聯盟(AI in Chip Taiwan Alliance,AITA)4個主要聚焦議題中,異質整合旨在將(jiāng)不同芯片透過(guò)技術提升效能(néng)同時縮小體積、減少功耗與降低成(chéng)本,半通用型AI芯片着重在發(fā)展特定應用的推論及深度學(xué)習芯片,皆是邊緣運算與AI結合的重要發(fā)展目标,倘由産業動态及政府資源挹注來看,台廠若要切入邊緣運算AI市場,芯片仍是最好(hǎo)發(fā)揮的着力點。

我國(guó)首款超低功耗存算一體AI芯片在合肥問世

我國(guó)首款超低功耗存算一體AI芯片在合肥問世

合肥恒爍半導體科技公司與中國(guó)科大團隊曆時兩(liǎng)年共同研發(fā)的基于NOR閃存架構的存算一體(ComputingInMemory)AI芯片系統演示順利完成(chéng)。

據了解,該芯片是一款具有邊緣計算和推理的人工智能(néng)芯片,能(néng)實時檢測通過(guò)攝像頭拍攝的人臉頭像并給出計算概率,準确且穩定,可廣泛應用于森林防火中的人臉識别與救援、心電圖的實時監測、人工智能(néng)在人臉識别上的硬件解決方案等。

據合肥日報報道(dào),這(zhè)标志着具有我國(guó)自主知識産權,國(guó)内首創、國(guó)際領先的超低功耗存算一體的人工智能(néng)芯片在肥問世。

研發(fā)團隊成(chéng)員之一、中國(guó)科大博士陶臨風介紹,存算一體就是把存儲和計算結合在一起(qǐ)。在傳統計算過(guò)程中,計算單元需要將(jiāng)數據從存儲單元中提取出來,處理完成(chéng)後(hòu)再寫回存儲單元。而存算一體則省去數據搬運過(guò)程,有效提升計算性能(néng)。相較于傳統芯片,存算一體人工智能(néng)芯片具有能(néng)耗低、運算效率高、速度快和成(chéng)本低的特點。

據官網介紹,合肥恒爍半導體科技公司于2015年2月在合肥市注冊,在上海浦東高科技園區設有研發(fā)中心,并且在中科大先研院設有3DNAND聯合開(kāi)發(fā)實驗室和測試中心。此外,公司已和多家晶圓生産和封裝廠建立了戰略合作夥伴關系,共同開(kāi)發(fā)NAND、NOR閃存、EEPROM和其它新型存儲器産品。

華米科技自研芯片“黃山1号”量産應用

華米科技自研芯片“黃山1号”量産應用

6月11日下午,華米科技在北京舉行夏季新品發(fā)布會,發(fā)布其AMAZFIT米動健康手表和AMAZFIT智能(néng)手表2兩(liǎng)款新品。在發(fā)布會上,華米科技創始人兼CEO黃汪宣布,其自研芯片黃山1号正式量産應用。

黃汪現場介紹稱,華米科技自研芯片黃山1号是全球首款智能(néng)穿戴領域的第一顆人工智能(néng)芯片,同時是全球首顆RISC-V開(kāi)源指令集可穿戴處理器。該款芯片集成(chéng)了RealBeats AI生物數據引擎,可進(jìn)行心律不齊含房顫本地實時甄别,具有高能(néng)效、AI前移、可擴展等特性。

在性能(néng)方面(miàn),相比ARM Cortex-M4,黃山1号運算效率高出38%,相比純軟件算法,黃山1号AI硬件引擎的房顫判斷效率高出200%,此外,黃山1号既可作爲獨立處理器應用,也可作爲協處理器。黃汪表示,黃山1号可賦能(néng)其它普通可穿戴設備,與搭載高通骁龍移動平台的可穿戴設備協同發(fā)揮作用。

2018年 9 月,華米科技正式推出黃山1号,這(zhè)次發(fā)布會上,黃汪表示黃山1号不僅在今年上半年實現量産,同時還(hái)在産品上得到應用。這(zhè)次發(fā)布的新品AMAZFIT米動健康手表采用黃山1号芯片作爲主芯片,AMAZFIT智能(néng)手表2則在高通Wear 2500的基礎上,增加黃山1号芯片。