Характеристики и сравнение микросхем искусственного интеллекта

2022年06月21日

В настоящее время для ускорения обработки алгоритмов глубокого обучения ИИ в области интеллектуального вождения используются в основном GPU, FPGA и другие чипы общего назначения, пригодные для параллельных вычислений. В то же время некоторые компании, производящие микросхемы, начали разрабатывать специализированные ASIC-чипы, предназначенные специально для алгоритмов искусственного интеллекта, такие как Google TPU, Horizon BPU и т.д. До широкомасштабного появления приложений в индустрии интеллектуального вождения и серийного запуска использование GPU, FPGA и других существующих чипов общего назначения позволяет избежать больших инвестиций и высокого риска специализированных исследований и разработок специализированных чипов (ASIC), но поскольку первоначальный дизайн такого типа чипов общего назначения не предназначен специально для глубокого обучения, возникают такие проблемы, как недостаточная производительность, чрезмерное энергопотребление и т.д. Эти проблемы будут становиться все более заметными по мере расширения масштабов применения в индустрии автономного вождения.

Данная статья представляет чипы искусственного интеллекта с различных точек зрения, таких как типы чипов, их производительность, области применения и поставщики, и служит для того, чтобы дать новичкам в этой отрасли фору.

Что такое микросхема искусственного интеллекта (ИИ)?

В широком смысле чипы, способные выполнять алгоритмы искусственного интеллекта, называются чипами ИИ.

В настоящее время алгоритмы ИИ могут выполнять CPU общего назначения, GPU, FPGA и т.д., только эффективность выполнения сильно различается.

Но в узком смысле под чипами ИИ принято понимать "чипы, специально разработанные для ускорения алгоритмов ИИ".

В настоящее время чипы ИИ в основном используются в области распознавания речи, обработки естественного языка, обработки изображений и другого большого количества алгоритмов ИИ, за счет ускорения чипа повышается эффективность алгоритма. Основной задачей чипа ИИ является матричное или векторное умножение, сложение, а затем с некоторыми алгоритмами деления, экспоненциальными и др. алгоритмами ИИ в области распознавания изображений и других областях, обычно используемыми в сети свертки CNN, зрелых алгоритмах ИИ, много Свертка, остаточная сеть, полносвязная сеть и другие типы вычислений, суть которых заключается в умножении и сложении.

В автомобильной промышленности чипы искусственного интеллекта используются в основном для решения проблем, связанных с большим количеством параллельных вычислений, вызванных такими алгоритмами, как восприятие окружающей среды, объединение датчиков и планирование пути при интеллектуальном вождении.

ИИ-чип можно понимать как калькулятор для быстрого вычисления умножения и сложения, в то время как CPU для обработки и выполнения очень сложного набора инструкций, по сложности намного превосходит ИИ-чип. GPU хотя и предназначен для обработки графики, но CPU и GPU не являются специализированными ИИ-чипами, есть большое количество других внутренних логик для достижения других функций, эти логики для текущих ИИ-алгоритмов совершенно бесполезны. В настоящее время после разработки алгоритмов ИИ специально для применения на GPU стало больше, есть также некоторые компании с разработкой FPGA, но в индустрии для алгоритмов ИИ неизбежно появятся специализированные чипы ИИ.

3, Зачем нужны чипы искусственного интеллекта?
Искусственный интеллект с функциональной точки зрения, включая рассуждения и обучение два звена, интеллектуального вождения промышленности является то же самое. В процессе обучения сложная нейросетевая модель обучается на основе больших данных, и в настоящее время большинство компаний в основном используют кластер GPU NVIDIA для завершения сеанса обучения. Под сеансом рассуждений понимается использование обученных моделей с применением большого объема данных для обоснования различных выводов. Поэтому в сеансе обучения предъявляются относительно высокие требования к арифметической производительности чипа, а в сеансе рассуждений - к простоте заданных повторяющихся вычислений и низкой латентности.

С точки зрения сценариев применения, чипы ИИ используются на стороне облака и устройства, в области интеллектуального вождения также есть облачный сервер и автомобиль с различными вычислительными платформами или контроллерами домена, на этапе обучения интеллектуальному вождению глубокое обучение требует огромного объема данных и большого количества вычислений, один процессор не может быть завершен самостоятельно, поэтому сеанс обучения может быть реализован только в облачном сервере. Для сравнения, на стороне устройства, т.е. в автомобиле, количество различных ECU, DCU и других терминалов огромно, а требования к ним сильно различаются. Поэтому сеанс рассуждений не может быть завершен в облаке, что требует, чтобы различные электронные блоки, аппаратные вычислительные платформы или контроллеры домена в автомобиле обладали независимыми возможностями вычислений рассуждений, поэтому для удовлетворения этих потребностей в вычислениях рассуждений должен быть выделенный чип ИИ.

Для выполнения алгоритмов ИИ можно использовать традиционные CPU и GPU, но они медленны и имеют низкую производительность, особенно CPU, и не могут быть реально использованы в коммерческой эксплуатации в области интеллектуального вождения.

Например, при автоматическом вождении необходимо идентифицировать дорогу, пешеходов, светофоры и другие дорожные условия и обстановку на дороге, что в алгоритме автоматического вождения относится к параллельным вычислениям, если CPU выполнять вычисления, то, по оценкам, сбивший человека автомобиль также не рассчитает результат, скорость параллельных вычислений CPU низкая, что относится к присущим ему недостаткам. Если использовать GPU гораздо быстрее, то, в конце концов, GPU предназначен для параллельных вычислений при обработке изображений, но энергопотребление GPU слишком велико, аккумулятор автомобиля не может поддерживать нормальное использование в течение длительного времени, а цена GPU относительно высока, используется для автоматизированного вождения массового производства, обычные потребители не могут позволить себе использовать. Кроме того, GPU не предназначен специально для разработки алгоритмов искусственного интеллекта ASIC, преимущество в скорости выполнения вычислений искусственного интеллекта не достигло предела, еще есть куда стремиться.

В области интеллектуального вождения, восприятия окружающей среды, распознавания объектов и других приложений глубокого обучения требуется быстрый вычислительный отклик! Время - это жизнь, медленный шаг может привести к непоправимой ситуации, но для обеспечения быстрой производительности и высокой эффективности в то же время энергопотребление не может быть слишком высоким, не может оказать большего влияния на дальность интеллектуальных автомобилей, то есть чип ИИ должен обладать низким энергопотреблением, поэтому GPU не является лучшим выбором чипа ИИ для интеллектуального вождения. Поэтому развитие ASIC становится неизбежным.

4, Типы микросхем искусственного интеллекта
В настоящее время чипы ИИ делятся на три категории: GPU, FPGA, ASIC. GPU, FPGA - это более зрелые архитектуры чипов, относящиеся к чипам общего назначения, ASIC - чипы, адаптированные к конкретным сценам ИИ. Промышленность подтвердила, что центральный процессор не применим для вычислений ИИ, но он также необходим в области приложений ИИ, и еще один аргумент заключается в том, что существует также своего рода чип мозга, который является разновидностью ASIC.

FPGA (Field Programmable Gate Array) обладает достаточной вычислительной мощностью и достаточной гибкостью. Высокая скорость вычислений FPGA обусловлена тем, что это, по сути, архитектура без инструкций и без необходимости в общей памяти. Для сохранения состояния регистры и память на кристалле (BRAM) в FPGA принадлежат соответствующей управляющей логике без лишнего арбитража и кэширования, поэтому FPGA достаточно быстра по скорости вычислений, превосходя GPU. В то же время FPGA - это своего рода полунастраиваемое оборудование, которое можно программировать для определения конфигурации ячеек и архитектуры связей для вычислений, поэтому она обладает высокой степенью гибкости. По сравнению с графическими процессорами, ПЛИС способны управлять и вычислять, но у них длительный цикл разработки, а сложные алгоритмы трудно разрабатывать.

ASIC (Application Specific Integrated Circuit) - это интегральная схема, специально разработанная и изготовленная в соответствии с потребностями продукта, которая может быть усовершенствована в определенных функциях, иметь более высокую скорость обработки и меньшее энергопотребление. Недостатками являются высокая стоимость НИОКР, длительный срок выполнения предварительных инвестиций в НИОКР и общая воспроизводимость из-за индивидуального подхода, поэтому только при достаточно большом объеме использования можно разделить предварительные инвестиции и снизить стоимость.

4.1 Центральный процессор (CentralProcessing Unit)
Центральный процессор (ЦП), являясь вычислительным и управляющим ядром компьютерной системы, представляет собой конечную исполнительную единицу для обработки информации и работы программ. ЦП - это основной аппаратный блок для управления и развертывания всех аппаратных ресурсов компьютера (таких как память, устройства ввода и вывода), а также выполнения операций общего назначения.

Достоинства: ЦП имеет большое количество кэшей и сложный блок логического управления, хорошо справляется с логическим управлением, последовательными операциями.

Недостатки: плохо справляется со сложными алгоритмами и обработкой параллельных повторяющихся операций.

Для чипов искусственного интеллекта самой слабой арифметикой является процессор. Хотя основная частота процессора самая высокая, но у одного есть только 8 ядер, 16 ядер, одно ядро 3,5 г, 16 ядер - только 56 г, а затем рассмотрим цикл инструкций, максимум 30 г умножения в секунду. Или с фиксированной точкой.

Производитель: intel, AMD

4.2 Графический процессор (GraphicsProcessing Unit)
Графический процессор, также известный как дисплейное ядро, визуальный процессор или дисплейный чип, - это микропроцессор, предназначенный для выполнения вычислений, связанных с изображениями и графикой, на персональных компьютерах, рабочих станциях, игровых консолях и некоторых мобильных устройствах (например, планшетах, смартфонах и т.д.).

Преимущества: обеспечивает инфраструктуру многоядерных параллельных вычислений, количество ядер очень велико, что позволяет поддерживать параллельные вычисления большого объема данных, обладает более высокой вычислительной мощностью с плавающей запятой.

Недостатки: контроль управления (самый слабый), энергопотребление (самое высокое).

Производители: AMD, NVIDIA

4.3 FPGA (Field Programmable Gate Array)
FPGA - это продукт дальнейшего развития на базе программируемых устройств типа PAL и GAL. Она представляет собой полузаказную схему в области прикладных интегральных схем (ASIC), которая решает недостатки заказных схем и преодолевает недостатки ограниченного числа вентилей исходных программируемых устройств. 

Достоинства: неограниченное программирование, меньшая латентность, параллелизм как конвейера, так и данных (в GPU - только параллелизм данных), наибольшее время работы в реальном времени, наибольшая гибкость

Недостатки: сложность разработки, пригодность только для арифметики с фиксированной точкой, относительно высокая цена

Производители: Altera (приобретение Intel), Xilinx

4.4 ASIC (Application Specific IntegratedCircuit)
ASIC, то есть интегральные схемы специального назначения, относятся к специфическим требованиям пользователей и конкретным электронным системам, нуждающимся в разработке и производстве интегральных схем. В настоящее время на основе CPLD (Complex Programmable Logic Device) и FPGA (Field Programmable Logic Array) проектирование ASIC является одним из наиболее популярных способов.

Преимущества: являясь продуктом тесной интеграции технологии интегральных схем и технологии конкретной машины или системы пользователя, она обладает такими преимуществами, как меньший размер, меньший вес, меньшее энергопотребление, повышенная надежность, улучшенная производительность, повышенная конфиденциальность, более низкая стоимость и т.д., по сравнению с интегральными схемами общего назначения.

Недостатки: недостаточная гибкость, стоимость дороже, чем у ПЛИС.

Основные показатели: энергопотребление, быстродействие, стоимость

Производители: Google, Horizon, Cambrian и др.

4.5 Краткие характеристики четырех микросхем
Центральный процессор - превосходный лидер, выполняющий множество функций. Его сила заключается в возможностях планирования, управления и координации, а вычислительная мощность стоит на втором месте. Графический процессор - это аналог сотрудника с большой вычислительной мощностью, которого отряжает CPU.

GPU, как процессоры обработки изображений, предназначены для решения задач массово-параллельных вычислений при обработке изображений. Поэтому его применение для алгоритмов глубокого обучения имеет три ограничения:

Во-первых, процесс применения не может в полной мере использовать преимущества параллельных вычислений. Глубокое обучение включает в себя обучение и применение двух вычислительных звеньев, GPU в обучении алгоритмов глубокого обучения очень эффективен, но при однократном применении только для обработки входного изображения преимущество параллелизма не может быть использовано в полной мере.

Во-вторых, аппаратная структура является фиксированной и не программируемой. Алгоритмы глубокого обучения еще не полностью стабильны, и если алгоритмы глубокого обучения претерпят значительные изменения, то GPU не сможет так же гибко, как ПЛИС, настраивать аппаратную структуру.

В-третьих, энергоэффективность алгоритмов глубокого обучения гораздо ниже, чем у ПЛИС, а научные и промышленные исследования доказали, что энергопотребление, необходимое GPU для достижения той же производительности при выполнении алгоритмов глубокого обучения, гораздо выше, чем у ПЛИС, например, чип ИИ на базе платформы ПЛИС отечественного стартапа DeepGen Technology имеет на порядок более высокую энергоэффективность по сравнению с GPU в рамках одного и того же цикла разработки.

Изначально ПЛИС создавались для выполнения функции полузаказных микросхем, т.е. аппаратная структура может гибко изменяться в зависимости от требуемой конфигурации в реальном времени.

По данным исследований, в настоящее время на рынке ПЛИС доминируют компании Xilinx и Altera, которым принадлежит 85% доли рынка, при этом в 2015 году Altera была приобретена компанией intel за 16,7 млрд долларов, а Xilinx решила сотрудничать с IBM, что отражает важность ПЛИС в эпоху искусственного интеллекта.

Несмотря на то что ПЛИС отдается предпочтение, и даже "мозг" Baidu и чипы искусственного интеллекта Horizon основаны на платформах ПЛИС, они не разработаны специально для алгоритмов глубокого обучения, и в них по-прежнему существует множество ограничений:

Во-первых, вычислительная мощность базового блока ограничена. Для достижения реконфигурируемых характеристик внутри ПЛИС имеется большое количество очень тонких базовых блоков, но вычислительная мощность каждого из них (в основном опирающаяся на таблицу поиска LUT) значительно ниже, чем у модуля ALU в CPU и GPU.

Во-вторых, сохраняется большой разрыв между скоростью и энергопотреблением по сравнению с ASIC.

В-третьих, FPGA дороже, и стоимость одной FPGA гораздо выше, чем стоимость специализированного заказного чипа в случае масштабного выпуска.

Заказные микросхемы искусственного интеллекта - это большая тенденция, и, судя по тенденции развития, заказные микросхемы искусственного интеллекта станут генеральным направлением развития вычислительных микросхем.


Рекомендуемые новости

Глобальный поиск