Nvidia, 새로운 로드맵과 신제품으로 GTC 2013 출시

엔비디아의 연례 GPU 기술 컨퍼런스는 석유 및 가스 탐사, 옵션 가격 책정 및 시뮬레이션과 같은 고도로 전문화 된 컴퓨팅 잡일을 위해 그래픽 프로세서를 사용하는 기술 모임으로 시작되었습니다. 이는 여전히 중요한 부분이지만, 오늘부터 시작된 GTC는 스마트 폰부터 수퍼 컴퓨터에 이르기까지 엔비디아의 비주얼 컴퓨팅 기술 사용에 관한 본격적인 컨벤션으로 성장했습니다.

이것은 CEO 인 Jen-Hsun Huang의 광범위한 기조 연설에서 새롭게 선보이는 제품 발표를 통해 알 수 있습니다. 하이라이트에는 GPU와 Tegra 모바일 프로세서, Kayla라고 불리는 새로운 “작은 소형 컴퓨터”에 대한 업데이트 된 로드맵과 전용 워크 스테이션을 대체 할 수있는 Nvidia 최초의 엔드 투 엔드 서버 시스템이 포함되었습니다. 전반적으로 눈에 띄는 누락이 두 가지 밖에 없었던 인상적인 쇼였습니다. 스마트 폰이나 태블릿 디자인에 대한 발표와 곧 출시 될 Shield Android 기반 휴대용 게임 장치에 대한 언급이었습니다.

Huang은 최근 발표 된 Titan 데스크톱 GPU를 “가장 큰 반도체 장치, 지금까지 만든 가장 복잡한 반도체 장치”라고 말하면서 시작했습니다. 그는 어려움을 겪고 있기 때문에 매장에서 찾기가 어려웠습니다 1000 달러짜리 그래픽 카드에 대한 수요가있다.

Titan의 성능을 입증하기 위해 Huang은 시뮬레이션을보다 사실적으로 만들 수있는 두 가지 새로운 Nvidia 기술을 선보였습니다. Waveworks는 바람의 속도 (보 퍼트 스케일)를 사용하여 장면을 더욱 사실적으로 만드는 실시간 해양 시뮬레이션입니다. 바다를 시뮬레이션하는 것은 어렵지만 얼굴을 시뮬레이션하는 것은 더욱 어렵다고 그는 말했습니다. Faceworks는 (USC의 크리에이티브 테크놀로지 연구소 (Institute of Creative Technology)와 협력하여 만든) 표정의 거대한 비디오 라이브러리를 취해 GPU에서 실시간으로 렌더링 할 수있는 더 작은 3D “메시”집합으로 만듭니다. 그것을 설명하기 위해 Huang은 Ira라는 3D 모델과의 “대화”에 참여했으며 표정은 인상적으로 자연스러워 보였습니다. 그러나 또한 60Hz의 속도로 픽셀 당 약 40,000 회의 많은 마력이 필요합니다. “당신은 약 2 테라 플롭 라인을 따라 무언가를 얻습니다. 이것은 우리가 타이탄을 건설 한 이유 중 하나입니다. 그래서 당신이 이렇게 할 수 있습니다.”황씨가 말했다.

더 현실적인 게임은 훌륭하지만, Faceworks를위한 다른 많은 잠재적 애플리케이션이 있습니다. Huang은 모든 유명한 사람들이이 Faceworks 모델을 가져야한다고 농담했습니다. “링컨이이 일을했다면 우리는 여기 앉아서 이야기 할 수 있겠습니까?” 이 기술은 이론적으로 화상 회의에 사용될 수 있으며 말한 단어를 기반으로 실제와 같은 아바타를 애니메이션화 할 수 있습니다.

그래픽에서 Huang은 GPU 컴퓨팅으로 전환했습니다. 그는 약 10 년 전에 엔비디아는 컴퓨터 그래픽이 본질적으로 병렬이기 때문에 컴퓨터 그래픽이 GPU 컴퓨팅을위한 완벽한 수단이라는 결론에 이르렀으며 이미 GPU가 별도로 설치된 PC가 대규모로 설치되어 있기 때문에 ( “이미 하루 일과, “그가 그것을 넣고 싶어하는 것처럼). 그 이후로 GPU 컴퓨팅은 빠르게 성장했습니다. 그가 매년 해왔 던 것처럼, Huang은 최신 CUDA 통계를 흔들어 보았다.

그는 “티핑 포인트에 가까워진 것은 매우 분명하다”고 말했다.

Nvidia GPU는 현재 전세계 50 대 슈퍼 컴퓨터에서 사용되고 있습니다. Oak Ridge 국립 연구소의 Titan 슈퍼 컴퓨터는 최근 4,000 만 개의 CUDA 프로세서를 사용하여 세계 최대의 솔리드 기계 시뮬레이션을 수행하여 10 페타 플롭의 지속적인 성능을 제공했습니다. 이번 주 스위스 슈퍼 컴퓨팅 센터는 Nvidia GPU를 채택하여 유럽에서 가장 빠른 날씨 시뮬레이션을위한 슈퍼 컴퓨터를 구축 할 것이라고 발표했습니다. Huang은 물리학, 유전체학, 기가 픽셀 사진 배열, 재료 시뮬레이션, 알츠하이머 연구 및 원심 분리 분석을 포함한 GPU 컴퓨팅의 과학적 사용에 관해 이야기했습니다. 그는 올해 GTC에서 화상 처리 및 제조와 같은 새로운 영역을 포함하여 400 종이 이상이 있다고 말했다.

GPU는 소위 빅 데이터 문제를 해결하는 데에도 사용되고 있습니다. 트위터는 하루에 5 억개의 트윗을 받고 “Salesforce.com과 같은 현명한 회사”는 Cisco, Dell 또는 Gatorade와 같은 회사에서이 소셜 데이터를 검색하여 브랜드인지를 알고 싶어합니다. 세일즈 포스 닷컴 (The Salesforce.com)은 지속적으로 찾는 키워드 또는 표현을 약 백만 가지가 포함하고 있으며,이를 GPU에 이식함으로써이 프로세스가 훨씬 빨라졌습니다. “몇 분이 걸렸던 순간이 이제는 몇 초가 걸립니다.” “결과적으로이 서비스를 실제로 확장 할 수 있습니다.”Shazam의 CTO 인 Jason Titus는 GPU를 사용하여 하루 1,000 만 건의 검색을 처리하고 2,700 만 곡 데이터베이스와 일치시켜 신속하게 응답을 제공하는 방법에 대해 이야기했습니다. . Titus는 세부 사항을 거의 제공하지 않았지만 GPU를 사용하면 비용의 1/3만으로 쿼리를보다 신속하게 처리 할 수있었습니다.

보다 흥미로운 데모 중 하나는 시각적 검색이었습니다. 코텍 시카 (Cortexica)라는 회사는 GPU로 구동되는 컴퓨터 비전 알고리즘과 클라우드 기반 서버를 사용하여 이미지를 인식하고 유사한 항목에 대한 결과를 반환하는 서비스를 개발했습니다. Nvidia의 Huang과 Mike Houston도 InStyle 매거진 (Kate Hudson의 이미지)에서 페이지 사진을 찍고 eBay에서 800,000 가지 의류 품목을 검색하고 비슷한 색상과 패턴을 가진 반환 상판을 사용하여 서비스를 시연했습니다. . Huang은 72 시간 분량의 동영상을 YouTube에 업로드 할 때 GPU를 사용하면 기업이 저작권 보호를 위해 특정 이미지에 대한 모든 데이터를 조사 할 수있게 될 것이라고 말했다.

기조 연설에서 가장 기대되는 부분은 로드맵 업데이트였습니다. 2012 년 엔비디아에서 발표 한 케플러 GPU 아키텍처는 내년에 통합 메모리 아키텍처를 갖춘이 회사의 첫 번째 GPU 인 맥스웰에 의해 교체 될 예정이다. 맥스웰은 CPU와 GPU가 시스템의 모든 메모리를 볼 수 있음을 의미한다. “모든 메모리는 모든 프로세서에서 볼 수 있습니다. 그렇게하면 프로그램하기가 훨씬 쉬워 질 것입니다. “라고 그는 말했다. 맥스웰은 2015 년 볼타 (Volta)의 뒤를 따를 것이다. 현재 모든 GPU는 회로 기판상의 GPU와 나란히 배치 된 자체 메모리를 가지고 있지만 Volta는 GPU 상단에 여러 층의 메모리를 직접 쌓아 놓았습니다. 이것은 그래픽 카드가 더 작고 에너지 효율이 높을 수 있음을 의미하지만, 메모리 대역폭을 초당 1 테라 바이트로 증가시키는 것이 중요합니다. Huang은 약 1 / 50 초 내에 블루 레이 디스크의 전체 내용을 메모리에서 GPU로 옮기는 것과 동일하다고 말했다.

칩 제조사들이 이미 3D 스태킹을 사용하지 않는 이유는 스루 실리콘 비아 (through-silicon vias)를 사용하여 이들을 모두 함께 와이어 링하기가 어렵고 레이어간에 생성되는 모든 열을 분산시키기가 어렵 기 때문입니다. Nvidia와 파운드리 TSMC (Taiwan Semiconductor Manufacturing Company)와 같은 제조 파트너가 불과 몇 년 안에 이러한 문제를 극복 할 수 있는지 알아 보는 것은 흥미로울 것입니다.

Nvidia는 모바일 로드맵에 대한 소식도 들었습니다. 쿼드 코어 Cortex-A15 인 Tegra 4가 현재 출하되고 있으며 Tegra 4i는 쿼드 코어 A9 및 통합 4G LTE와 함께 Mobile World Congress에서 발표되었으며 올해 말에 생산 될 예정입니다. 이것은 Logan, 가장 진보 된 GPU 아키텍처를 갖춘 Nvidia 최초의 모바일 프로세서, CUDA 및 OpenGL 4.3을 지원하는 진정한 Kepler GPU를 선보일 예정입니다. “우리는 올해 로간을보아야하며 내년에는 생산을 쉽게 볼 수 있어야한다”고 그는 말했다. 차세대, Parker는 회사의 Project Denver 64 비트 ARM 프로세서와 Maxwell GPU를 최초로 제공 할 것이며 3D FinFET 트랜지스터를 사용하여 제조 될 것입니다. 인텔은 이미 22 나노 아이비 브리지 프로세서에 FinFET을 사용하고 있지만, 엔비디아와 다른 업체들을 위해 모바일 프로세서를 제조하는 반도체 파운드리는 아직이 기술을 제공하지 않는다. Parker는 2015 년에 예정되어 있습니다. “5 년 후에 Tegra의 성능을 100 배 향상시킬 것입니다.”Huang이 약속했습니다.

CUDA 지원 GPU 430 만 개, CUDA 프로그래밍 키트 다운로드 160 만 개, CUDA 과정을 가르치는 640 개 대학, 37,000 개의 학술 논문

Huang은 또한 Tegra 3 프로세서와 새로운 Kepler GPU가 장착 된 보드에 작은 컴퓨터 인 Kayla를 발표했습니다. 그는 광선 추적, 연기 및 물 시뮬레이션과 같은 집중적 인 작업을 처리하는 Kayla를 시연했지만 가용성이나 가격에 대해서는 자세히 설명하지 않았습니다.

지난해 Nvidia는 클라우드 기반 게임 서비스를위한 GRID GPU 서버 가상화 기술을 발표했습니다. 이 회사는 엔비디아 (Nvidia)가 현재 시트릭스, 마이크로 소프트, VM웨어 용으로 생산 중이며 모든 유명 업체 (시스코, 델 HP, IBM)의 서버 인증을 받았으며 현재 엔터프라이즈 서버용 버전을 보유하고 있다고 밝혔다. 75 가지 시험 배치. 예를 들어 세계에서 가장 큰 칩 제조 장비 공급 업체 중 하나 인 Applied Materials는 엔비디아의 GRID 서버를 사용하여 엔지니어가 어느 위치에서나 모든 장치의 CAD 응용 프로그램을 사용할 수 있도록합니다.

전 세계적으로 이런 방식으로 일할 수없는 중소기업이 많이있다. 그들은 IT 부서 나 서버 랙을 갖고 있지 않으며, 대신 컴퓨터 매장을 Apple 매장에서 구입합니다. 그러나 대기업과 마찬가지로 대규모 데이터 파일에서 연산 집약적 인 작업을 수행해야하는 여러 사용자가 있습니다. 해당 고객에게 다가 가기 위해 엔비디아는 어플라이언스 서버 (GRID Virtual Computing Appliance (VCA))라는 첫 번째 엔드 투 엔드 시스템을 발표했습니다. VCA는 Xeon 서버 프로세서, 여러 GRID Kepler 기반 GPU, 많은 메모리 및 최소 16 개의 가상 컴퓨터를 지원할 수있는 하이퍼 바이저가 포함 된 4U 섀시입니다. 그것에 연결된 클라이언트 디바이스는 다운로드 가능한 GRID 클라이언트와 “그것이 Mac이라면 PC인지, 아니면 안드로이드 씬 클라이언트인지는 중요하지 않다”고 Huang 씨는 말했다. “뒷면의 VCA는 모든 작업을 처리하며 사용자는 자신의 개인 슈퍼 컴퓨터를 갖고 있다고 생각합니다.”

이 아이디어는 수천 달러의 비용으로 물리적 워크 스테이션을 교체하는 것이어서 어디서나 모든 장치에서 액세스 할 수있는 단일 어플라이언스로 이루어집니다. Nvidia는 Autodesk 3D Studio Max, Adobe Premiere (실시간 4K 동영상 편집) 및 인기있는 CAD 프로그램 인 SolidWorks를 동시에 실행하는 VCA에 연결된 MacBook Pro에서 이러한 사실을 입증했습니다. 이 두 가지 프로그램은 Mac에서도 실행되지 않지만 가상 환경이기 때문에 중요하지 않습니다.

프로세서, 인텔에 4K UHD를 밀어 넣기위한 7 세대 프로세서 출시, 프로세서,보다 강력한 칩에 대한 수요를 창출하는 비전 및 신경망, 데이터 센터, NVIDIA 가상 GPU 모니터링, 분석, 하드웨어 출시, AMD는 Zen으로 Intel의 우위를 되찾았습니다.

8 개의 코어 (16 개 스레드), 8 개의 케플러 GPU, 192GB의 메모리를 갖춘 Xeon 프로세서를 갖춘 기본 VCA 어플라이언스는 24,900 달러에 무제한 고객을위한 소프트웨어 라이센스 비용 2,400 달러를 추가로 내야합니다. 2 개의 제온 (32 개 스레드), 16 개의 케플러 GPU 및 384GB의 메모리를 갖춘 Max 모델은 39,900 달러에 연간 라이센스 비용 4,800 달러가 추가됩니다.

Huang은 가상화 덕분에 앞으로 회사의 컴퓨터가 가지고있는 것처럼 회사 컴퓨터가 과거의 일이 될 것이라고 예측했습니다. 대신 직원들은 자신의 컴퓨팅 장치를 가져와 많은 처리 작업을 클라우드에서 수행하게됩니다.

기조 연설은 할리우드의 작은 시합으로 결론 지었다. Huang은 호랑이 발사의 약 80 %가 컴퓨터에서 생성 된 Pi Life of Life의 애니메이션에 대해 이야기했습니다. 각 프레임은 렌더링하는 데 30 시간이 걸렸으며, 전체 작업을 렌더링하는 데 수 억 시간의 CPU 시간이 걸렸습니다. 할리우드를위한 클라우드 기반 렌더링을 제공하는 회사 인 Otoy의 창립자이자 CEO 인 Josh Urbach (Jason Trank) 이사는 로스 앤젤레스의 원격 GRID 서버에 연결된 일반 노트북을 어떻게 사용할 수 있는지 보여주었습니다 (Josh Trank, The Fantastic Four, Chronicle) 편집하고 “채우기 품질”장면을 실시간으로 렌더링합니다. Urbach는 CPU보다는 GPU를 사용함으로써 영화 제작자가 컴퓨터 애니메이션을 40-100 배 빠르게 렌더링 할 수 있다고 말했다.

인텔, 4 세대 UHD를 대량 생산하는 7 세대 프로세서 출시

비전과 신경망으로보다 강력한 칩에 대한 수요가 생겨남

Nvidia, 가상 GPU 모니터링, 분석 실행

AMD, 선 (禅)과 인텔의 우월 경쟁