IT이야기2023. 7. 1. 07:39

재미있는 글이 올라와서 여러 커뮤니티에서 뜨거운 반응을 보이고 있다. CUDA때문에 AMD MI300X가 나와도 잘 팔릴수 있겠냐는 회의론을 정면으로 반박하는 내용인데.

https://www.semianalysis.com/p/amd-ai-software-solved-mi300x-pricing?utm_source=substack&utm_medium=email 

 

AMD AI Software Solved – MI300X Pricing, Performance, PyTorch 2.0, Flash Attention, OpenAI Triton

Matching Nvidia Performance With 0 Code Changes With MosaicML

www.semianalysis.com

AMD주주이기도 하고 AMD가 어디까지 갈수 있을지 관심가지고 지켜보고 계산해보고 있는입장에서 자세히 읽어보았는데. (뒷부분은 유료라 읽을수 없었음) 짧게 요약하면 NVidia A100으로 돌리던 LLM을 MI250으로 코드 한줄 바꾸지 않고 돌렸는데 73%-80% 성능이 쉽게 나왔다는 이야기. 아직 AMD 솔루션을 사용한지 얼마 안된것을 감안하면 이건 엄청난 진전이라는 내용. 게다가 ROCm based에서 OpenAI Triton-based FlashAttention로 바꾸면 84-90%까지 성능이 쉽게 나온다는 이야기.

=> ROCm이 쓰레기구만. Triton은 뭐길래 이렇게 쉽게 잘나와

OpenAI가 밀고 있는 triton은 CUDA보다 더 좋은 성능을 목표로 하는 open source project라 한다. AMD GPU 공식지원은 2023년 말까지 목표라고 함.

https://github.com/openai/triton

 

GitHub - openai/triton: Development repository for the Triton language and compiler

Development repository for the Triton language and compiler - GitHub - openai/triton: Development repository for the Triton language and compiler

github.com

 

위 내용을 기반으로 볼때 여러 업체에서 구할수 없는 NVidia를 바라보기 보다 AMD기반으로 전환을 계획할 가능성이 좀 있을것 같다는 생각이 듬. 처음에는 쉽게 안넘어간다고 봐야 할것 같고. 이 시점을

  • 첫번째 Ryzen이 나온 시점으로 보면 될것 같기도 하고
  • 첫번쩨 서버 CPU EPYC Naples 나폴리가 나온 시점이 될것 같기도 하고

키는 사람들이 괜찬네하면서 다음 세대것이 나오면 많이 넘어가고 그 다음 세대에는 동급으로 되었다가 그 다음 세대에서는 선두가되는... 헉... 정말.. 에이 암레발이지... 

P.S MosaicML 얘네는 뭐야 하고 찾아보니, Databricks라는 회사가 상당히 좋은 value를 쳐주고 최근에 인수했음. AI때문에 인수도 활발하고 시장이 정말 뜨겁다

https://techcrunch.com/2023/06/26/databricks-picks-up-mosaicml-an-openai-competitor-for-1-3b/

 

Databricks picks up MosaicML, an OpenAI competitor, for $1.3B

MosaicML will become a part of the Databricks Lakehouse Platform, providing generative AI tooling alongside the Databricks' existing multi cloud offerings.

techcrunch.com

 

AMD MI250을 사용한 자세한 페이지도 만들어놨다. AMD AI의 엄청난 우군이구만.

https://www.mosaicml.com/blog/amd-mi250

 

Training LLMs with AMD MI250 GPUs and MosaicML

With the release of PyTorch 2.0 and ROCm 5.4, we are excited to announce that LLM training works out of the box on AMD datacenter GPUs, with zero code changes, and at high performance (144 TFLOP/s/GPU)! We are thrilled to see promising alternative options

www.mosaicml.com

Posted by 쁘레드