Hardware | Strojové učení

Google se pochlubil výkonem svých procesorů TPU pro strojové učení. Jsou až 30× rychlejší

Když Google před lety začal experimentovat se strojovým učením nasazeným v ostrém provozu třeba pro rozpoznávání hlasu, zjistil, že kdyby všichni jeho uživatelé začali v jeden okamžik diktovat svému telefonu (anebo dnes domácímu chytrému reproduktoru Home) povely, strojové učení, které se zdokonaluje právě analýzou podobných hlasových příkazů, by k práci potřebovalo všechna datová centra obří korporace.

Jinými slovy, ačkoliv nástup univerzálních výpočetních karet GPU předznamenal bujarý rozvoj neuronových sítí, ani ty pro nějaké masové nasazení nestačí. Google, Facebook a další potřebují hardware šitý přímo na míru, který bude mnohem efektivnější, a tak jak Google, tak Facebook dle svých vlastních potřeb vyvíjejí unikátní železo.

762822338 896638239 446243884
Výpočetní karta pro strojové učení Tensor Processing Unit a počítač AlphaGo, který je používá a loni porazil mistry ve hře go

To od Googlu se jmenuje Tensor Processing Unit (TPU), má rozměry a rozhraní SATA disku, aby jej bylo možné instalovat do současných rackových skříní, a Google přesně tyto moduly použil třeba pro svého softwarového hráče AlphaGo, který loni pokořil ty nejlepší jihokorejské mistry v této komplikované strategické hře

Nyní se Google na svém blogu konečně pochlubil, jak je vlastně výpočetní jednotka TPU rychlá, srovnal ji totiž jak s CPU nejvyšší třídy (serverové haswelly od Intelu), tak právě s výpočetními jednotkami GPU (Nvidia K80).

Výsledek jeho testu je… Nadějný. Nadějný v tom smyslu, že strojové učení nemusí narážet na současné limity hardwaru, jednotky TPU totiž dosáhly 15× až 30× rychlejšího strojového učení než na tradičních a grafických procesorech.

Výkon přitom není vše. Pro masové nasazení je z ekonomického hlediska stejně tak důležitá spotřeba, protože k čemu by bylo sebelepší strojové učení, když byste k jeho běhu potřebovali vlastní jaderný reaktor, že? Spotřeba TPU je 30× až 80× nižší než u tradičních procesorů.

Do třetice ještě jeden benefit. Jelikož jsou čipy navržené pro strojové učení, samotný kód programu může být o to menší – neuronovou síť napíšete od 100 řádků kódu, o zbytek se už postará křemík.

Specializované datacentrum, které by se celé skládalo z rackových skříní plných TPU by tak ve strojovém učení mohlo suplovat výkon všech datacenter Googlu rozesetých po celém světe. Zároveň je to příslib toho, že se možná jednou dočkáme A.I. akcelerace i na běžných čipsetech, stejně jako se v posledních dvaceti letech postupně naučily akcelerovat třeba multimedia a 3D grafiku. S takovou by pak bylo úsporné strojové učení jednou naprosto samozřejmou součástí každé krabičky světa IoT.

Diskuze (3) Další článek: První testy levnějších Ryzenů 5 jsou na světě. Jak si vedou proti Intelu?

Témata článku: , , , , , , , , , , , , , , , , , , , , , , , ,