Масштабируемость 2s что это
Рейтинг и сравнение серверных процессоров Intel Xeon
Процессоры Intel Xeon неразрывно ассоциируются у большинства с мощными многоядерными монстрами. Они поддерживают на плаву деятельность дата-центров, ЦОД, NAS, коммерческих рендер-станций и прочих объектов, где требуются высочайшая производительность на ядро, огромный размер кэш-памяти, стабильность и длительный рабочий ресурс. Как минимум до того момента, пока владелец оборудования не решит перейти на обновленное железо.
Но какой процессор подойдет для вашей деятельности? Как отличить стандартный многоядерный чип от масштабируемого. Почему они так маркируются, и как понять поколение чипа, включая техпроцесс, технологии, поддержку определенных комплектующих и разъемов. Давайте во всем этом разбираться, потому что вводных чрезвычайно много.
Достоинства серверных решений от Intel
Однажды кто-то решил, что правильное название чипов — Зион, а не Ксеон, Ксенон и далее по списку. От обычных процессоров эти решения отличаются по следующим пунктам:
Многие полагают, что между Intel Core и Xeon нет никакой разницы, и переплата, по сути, бесполезна. Другие же напирают на то, что Core i7 c индексом «K» еще и разогнать можно, потому что это сильно повысит максимальную частоту и, следовательно, производительность.
Вот только в бизнесе это совершенно бесполезный функционал по нескольким причинам:
По факту, внушительная переплата за Xeon обусловлена их надежностью и безотказной работой на протяжении месяцев, а то и лет. Если ваш бизнес напрямую зависит от стабильной работы оборудования в серверной — экономия в этом случае не только вредна, но и опасна.
Как ориентироваться в линейках серверных процессоров Intel Xeon
Итак, как же разобраться в изобилии интеловских решений для серверов? Как выяснить, какой Xeon нужен именно вам? Давайте ответим на эти вопросы.
У производителя есть 2 линейки серверных CPU:
Маркировка чипов Intel Xeon Scalable
Для второго поколения масштабируемых процессоров Scalable в пределах каждой серии характерны следующие черты:
Номер каждой модели состоит из четырех цифр. О том, к какой серии принадлежит модель процессора говорит первая цифра номера:
Стоящая на втором месте цифра говорит о поколении чипа. В случае с семейством Scalable это поколения с кодовыми именами:
Помимо этого, номер модели может дополняться латинскими буквами, которые описывают индивидуальные особенности процессора.
Теперь, увидев номер модели 6262V, мы будем знать, что это модель серии Gold, с поколением чипа Cascade Lake, который хорошо покажется себя при развертывании виртуализации высокой плотности, а 5218R предназначена к установке на платформе с числом сокетов не больше двух.
Надеемся, вам стало гораздо проще ориентироваться при подборе конфигурации.
Маркировка Xeon E/W/D
Если описать эти процессоры вкратце, имеем следующее:
Xeon E — сервера начального уровня для малого бизнеса. Поддержка технологии Intel SXG для увеличения конфиденциальности данных в рабочих задачах. До 8 физических ядер, встроенная графика, Intel Smart Cache, низкий теплопакет до 95 Вт.
Xeon W — творчество, дизайн, VFX, 3D-рендер, CAD-программы, работа с ИИ. Обеспечивают ускорение моделирования, рендера и прочих операций за счет поддержки AVX-512, до 38 физических ядер, высокой базовой и Turbo-частоты и 2 ТБ ОЗУ. Чипы предоставляют до 64 линий PCI-E, технологию глубинного машинного обучения DL Boost, доступ к скоростной памяти Intel Optane и Wi-Fi 6.
Xeon D — высокая производительность в стесненных условиях при низком энергопотреблении. Сфера деятельности однокристальных систем — сетевые вычисления, облака высокой плотности, безопасность. Наличие многохостовых Ethernet-контроллеров, интеллектуальное управление трафиком, развертывание IoT (интернет вещей), управление неструктурированными данными, повышение плотности оборудования в ЦОД.
Как видите, у Интел все четко структурировано по сферам деятельности, поэтому каждый потенциальный партнер может подобрать платформу с CPU с оптимальным количеством ядер/потоков. Вопрос лишь к типу задач и свободному пространству в серверной.
Топ-10 серверных процессоры Intel Xeon
Довольно сложно составить объективный рейтинг серверных чипов. Во-первых, у них очень высокая сегментация и дифференциация под потребителя, тип выполняемых задач и прочие сферы деятельности. Во-вторых, один процессор может быть полностью провальным в классических вычислениях с плавающей точкой, но покажет себя идеально для настройки облака и интернета вещей. Вы и сами видели, насколько неоднородны устройства серии Xeon.
Но если использовать шаблон «Топ за свои деньги», то наибольшей любовью среди клиентов пользуются такие модели, начиная с серии Intel Xeon E:
10. E-2126G
Модель предоставляет конфигурацию 6/6 с частотой до 4.5 ГГц и умный кэш до 12 МБ, а также поддержку до 128 ГБ ОЗУ DDR4 за счет архитектуры Coffee Lake. Еще и графика предусмотрена для вывода изображения.
Для небольших офисов это практически идеальный вариант. Еще бы Hyper-Threading ему и вообще шикарно.
9. E5-2660
А это пусть и старенький, но мощный чип, в составе которого 8 ядер и 16 потоков с частотой до 3 ГГц. Хороший выбор для масштабируемых систем типа 2S.
До 384 ГБ ОЗУ DDR3 1600 на сокет, 40 линий PCI-E 3.0, невысокий TDP.
8. E5-2680 v4
Даже сегодня эта модель лидирует в бюджетном сегменте, предоставляя 14 физических ядер и 28 потоков с частотой до 3.3 ГГц. А заодно и 35 МБ умного кэша и конфигурацию до 2S.
Фишка модели — до 1.5 ТБ ОЗУ DDR4-2400 МГц и Intel vPro для поиска ошибок в системе.
Далее эстафета рейтинга передается представителям семейства Intel Xeon Scalable:
7. Silver 4214
Одно из самых доступных решений Intel Scalable 2-го поколения с конфигурацией 12/24, кэшем 16.5 МБ и парой UPI-каналов. Конфигурация — до 2S.
Работает с DDR4-2400 до 1 ТБ на сокет и предлагает до 48 линий PCI-E 3.0.
6. Silver 4216
Нужно больше сырой мощности? Пожалуйста. Здесь 16 ядер/32 потока, 22 МБ и кэша L3. Остальные характеристики как у Xeon 4214.
5. Gold 5220
Много ядер — всегда интересно. Тут их сразу 18 и еще 36 потоков. Учтите, что модель собирается в трансформер из 4 чипов в систему 4S, что позволяет водрузить до 4 ТБ ОЗУ DDR4-2667.
В Gold уже есть DL Boost, RDT, vPro, VT-x и TSX-NI. Пусть тут и ни рекордный кэш, но очень низкий теплопакет в 85 Вт, потому заморачиваться с охлаждением не придется.
4. Gold 6240
Лучший выбор в средней ценовой категории с прекрасной частотой до 3.9 ГГц (18/36). Поддержка AVX512 и vPro в наличии.
3. Gold 6240R
Еще больше ядер (24/48) и выше частота в 4 ГГц, но здесь 2 UPI-линии вместо 3, как у 6240. Зато кэш 35.75 МБ. Если не планируете использовать более 2 чипов в системе — проблем не будет.
2. Gold 6258R
Действительно огромная производительность за счет конфигурации 28/56 с частотой до 4 ГГц. Кэш — 38.5 МБ и все прелести «Золота» топ-сегмента. Ограничение — 2S, т.е. не более 2 сокетов в системе.
И завершает рейтинг топ-лидер.
1. Platinum 8280
По характеристикам — близнец 6258R, однако Platinum — это до 8 сокетов, 3 линии UPI и стоимость в 4 раза ниже конкурента из серии Gold.
Тренды для серверных процессоров Intel на 2021-2022 год и чего ждать в будущем
В третьем поколении Intel утратила привилегии на фоне AMD EPYC, которые лучше по всем фронтам. Но это не говорит, что «синие» совсем уж опустили руки.
Очень интересно выглядят грядущие Sapphire Rapids, которые преподнесут PCI-E 5.0 и поддержку 8-канального контроллера памяти DDR5. И самое главное — 10 нм, что сулит сильное снижение тепловыделения.
Также в числе грядущих достижений компании Интел значится память HBM и шина Compute Express Link 1.1, которая сильно сократит задержки обращения между CPU, графикой и памятью.
И если верить заявлению самих производителей, все это богатство ждет нас уже в 2022 году.
Ждем, надеемся и верим. Конкуренция — идеальный двигатель бизнеса. Но если все еще затрудняетесь с выбором системы — всегда можно обратиться к специалистам компании HPE.Марвел. Мы всегда подскажем правильное решение, полностью соответствующее вашим требованиям. Отправьте запрос на консультацию, и мы ответим на все ваши вопросы.
Рейтинг и сравнение серверных процессоров Intel Xeon
Поиск и решение проблем масштабируемости на примере многоядерных процессоров Intel Core 2 (часть 1)
Что есть масштабируемость?
Прежде чем начать изучение проблем масштабируемости программного обеспечения в среде параллельных вычислений, нам необходимо определиться со значением самого термина. Идеальная масштабируемость означает, что полное время выполнения задачи будет линейно уменьшаться с увеличением количества ядер, используемых приложением. Однако в соответствии с законом Амдаля для параллельного исполнения алгоритма, полное время выполнения программы может быть сокращено только на отрезке оптимизированного соответствующим образом кода. Таким образом, первый пункт в нашем поиске заключается в определении достигнутой степени параллелизма алгоритмов.
События производительности процессора на основе микроархитектуры Intel Core2 предоставляют нам удобные метрики для этих целей. Каждое ядро имеет Блок Мониторинга Производительности (Performance Monitoring Unit или PMU), а событие CPU_CLK_UNHALTED.CORE позволяет определить число рабочих циклов на каждом ядре. Если для сбора информации используется VTune™ Performance Analyzer, то это число суммируется для всех ядер, исполнявших интересующий нас процесс. То есть это число есть количество эффективных циклов потраченных на исполнение приложения. Назовем это число «effective_cycles».
Полезной особенностью PMU является возможность сравнивать на каждом цикле значение события с некоторым заданным числом (cmask) и определять, является ли оно большим или равным (inv=0) или же оно меньше этого числа (inv=1). Если такое условие задано, PMU будет считать циклы только в случае его соблюдения. Однако, это возможно только для счетчиков общего назначения. Фиксированные счетчики, например, для событий CPU_CLK_UNHALTED.CORE, INST_RETIRED.ANY и CPU_CLK_UNHALTED.REF, не могут подвергаться этой операции. Если значение события CPU_CLK_UNHALTED.CORE_P (обобщенная версия счетчика рабочих циклов) сравнивать с числом 2 с условием «менее чем» (inv=1), то счетчик будет считать все циклы. Если это число просуммировать для всех процессов и поделить на количество ядер в системе, мы получим полное время исполнения процесса. Назовем это число «total_cycles».
Для обеспечения корректности полученных значений необходимо, что бы функция Speed Stepping была отключена в BIOS и ОС, иначе незагруженные ядра могут работать на пониженной частоте, что исказит полученное значение полного времени. Отношение effective_cycles/total_cycles будет равняться числу использовавшихся ядер для отлично масштабируемого кода, и равняться 1 для абсолютно последовательного кода. Причем результат не зависит от того, какая часть из всех ядер системы была задействована во время исполнения. Однако ценность этой техники может быть нивелирована, если в коде встречаются пожирающие процессорное время циклы активного ожидания, так что циклы ожидания должны быть реализованы корректно. Для более детального анализа рекомендуется использовать Intel Thread Profiler.
Отклонения от идеальной масштабируемости могут быть обусловлены особенностями структуры кода и синхронизационной логики, но также они могут быть вызваны высокой конкуренцией за общие ресурсы системы. Целью данной статьи как раз и является системный поиск подобных проблем и их решение.
Ограниченность ресурсов
Последний компонент списка имеет несколько иное влияние на производительность, чем все остальные, так как синхронизация потоков (threads) и процессов зависит от блокируемого доступа к линиям КЭШа. Различие это наиболее очевидно с той точки зрения, что более быстрый / более объемный кэш не всегда способен обойти влияние падения масштабируемости, как в случае с другими элементами этого списка.
Для этих ограничений есть два основных сценария масштабирования приложения, которые будут рассмотрены ниже, разбиение фиксированного объема работы между ядрами и линейное увеличение количества работы, выполняемой всеми ядрами. Эти два сценария имеют несколько разный смысл, если говорить о проблемах масштабируемости, и, следовательно, различаются по искомым признакам.
Пропускная способность
Чтобы понять какой вклад в падение производительности вносит трафик по шине, необходимо определить, какой, собственно, трафик проходит по шине во время выполнения программы (суммарный и по отдельным компонентам) и какова пиковая пропускная способность платформы используемой при анализе. Пиковая пропускная способность платформы зависит от большого числа сторонних факторов. Это и конфигурация аппаратных блоков предвыборки данных (hardware prefetchers), и количество, тип и расположение в слотах планок оперативной памяти, и частота системной шины, частота процессора, и условия, позволяющие достигнуть когерентности КЭШей. Поэтому ни одна метрика не может считаться определяющей пропускную способность платформы на основе Intel Core 2. Единственный приемлемый метод определить ее – провести синтетический тест пропускной способности. Одиночный длительный цикл алгоритма TRIAD похоже наилучшим образом подходит для этих целей. Так как предел пропускной способности для многоядерного расчета скорее всего будет отличен от одноядерного, вышеозначенный тест должен поддерживать параллельный счет либо за счет потоков, либо за счет разбиения на отдельные процессы.
Предел пропускной способности системы влияет на производительность несколько иначе, чем большинство замедляющих факторов. Влияние большинства растет линейно с ростом их определяющей метрики, как в случае кэш-промахов на последнем уровне КЭШа, где влияние на производительность определяется как соответствующее количество событий ожидания. В этом же случае производительность падает, как бы натыкаясь на барьер, который не заметен до тех пор, пока приложение не исчерпает все ресурсы платформы. То есть зависимость производительности от использования пропускной способности системы скорее ступенчатая, чем линейная, как в случае с другими событиями. Так, например, время доступа к памяти нелинейно возрастает, так как достигнут предел пропускной способности. Пронаблюдать за этим эффектом можно замеряя задержку доступа к шине при увеличении количество одновременно рассчитываемых триад. Задержка доступа к шине может быть измерена событиями производительности в счетном режиме (в противоположность сэмплированию) как отношение:
В большинстве случаев компонент ifetch (instruction fetch, выборка инструкции) маловажен, особенно в ситуации с пиковой пропускной способностью, а, следовательно, может быть проигнорирован.
Существует множество источников, вносящих свой вклад в трафик по системной шине. События производительности процессоров Intel Core 2 позволяют использовать множество методик для определения как полной, так и индивидуальной загрузки шины этими компонентами. Насыщенность системной шины определить очень просто. Она может быть представлена как часть циклов шины использовавшихся для передачи данных:
Или напрямую, как количество байт переданных по шине в составе кэш-линий:
Удобной метрикой в этом случае является просто количество кэш-линий на цикл, так как аппетит N параллельных версий данного приложения / потока составит N раз от этого значения. Так что если предел платформы определен в этих значениях, наиболее вероятная загруженность шины при параллельном счете может быть легко определена во время анализа единичного потока.
События BUS_TRANS_* можно использовать иерархически, чтобы вычленить компоненты, использующие шину. Их краткое описание представлено в нижеследующей таблице, а также они очень подробно разобраны в онлайн справке VTune Performance Analyzer.
Событие | Описание |
BUS_TRANS_ANY | Все транзакции по шине: Mem, IO, Def, Partial |
BUS_TRANS_MEM | Все кэш-линии, частичные и недействительные |
BUS_TRANS_BURST | Все кэш-линии: Brd, RFO, WB, Совмещеная Запись |
BUS_TRANS_BRD | Все чтения кэш-линий: Data, Ifetch |
BUS_TRANS_IFETCH | Все кэш-линии инструкций |
BUS_TRANS_RFO | Всего кэш-линий при запросе на монопольное использование |
BUS_TRANS_WRB | Все записи кэш-линий (модифицированные кэш-линии) |
Существует множество стандартных способов сократить трафик по шине, которые могут быть применены в случае достижения предела платформы. Сюда можно отнести следующие методы:
Вышесказанное ни в коем случае не претендует на роль исчерпывающего списка возможных вариантов, это скорее список самых очевидных. Любой, кто на самом деле пытался, скажет, что последнее вообще проще сказать, чем сделать.
Извиняюсь за многобукав и некоторую сумбурность, но материал действительно несколько суховат. Перевод делал еще в прошлом году, так что извиняюсь за некоторую потерю актуальности.
Масштабируемость: что это такое?
Как-то передо мной встал вопрос, что такое масштабируемость и как это связано с зависимостью/независимостью от центрального процессора? В результате получилась небольшая статья, которую и предлагаю Вашему вниманию.
Как процессорная зависимость связана с масштабируемостью, т.е. возможностью роста производительности карточки с ростом производительности процессора? В большинстве случаев имеется некоторый отрезок процессорной мощности, при котором карточка демонстрирует почти линейный рост производительности. Связано это с тем, что процессор не успевает готовить данные для графического ускорителя, и любые данные обрабатываются до поступления следующей порции. При этом, очевидно, что чем больший участок тракта вычислений берет на себя графический акселератор, тем меньше нагрузка на процессор, а значит, CPU быстрее готовит данные, и, в результате, сужается участок линейного масштабирования. Отсюда следует, что чем менее процессорно-зависима карточка-ускоритель, тем она обычно менее масштабируема.
Начиная с какого-то момента, графический акселератор начинает все больше и больше тормозить процессор, и при неограниченном росте производительности последнего скорость рендеринга становится постоянной, стремясь к пиковой производительности ускорителя.
Конечно, эта модель несколько упрощенная. В реальных системах процессору всегда найдется, чем заняться, к тому же пропускные способности шин, передающих данные, на сегодня весьма ограничены. Что, кстати, является еще одним узким местом на пути достижения максимальной производительности.
В качестве оценки предельной производительности карточки можно использовать известные характеристики количества треугольников, которые она может обработать в секунду, и скорость закраски (fill-rate), т.е. количество текстурированных и отфильтрованных пикселов, выводимых в одну секунду. Возьмем для примера две карточки: 3Dfx Voodoo и nVidia Riva TNT.
Как видим, теоретические данные очень неплохо согласуются с практическими (эти параметры приблизительно соответствуют Quake 2).
Что следует из этих цифр? Очень простой вывод. Начиная с какого-то уровня, производительность 3D-ускорителя уже не играет роли (глазу все равно, 160 или 60 fps он видит). Все теперь упирается в процессорную зависимость, т.е. в то, какой процессор нужен, чтобы достичь подобных пиковых значений. Вот почему я с большим скепсисом читаю характеристики вновь появляющихся 3D-ускорителей. Также легко видеть, что приведенные ускорители (как и подавляющее большинство остальных) ограничены именно скоростью закраски, тогда как для процессора основная нагрузка исходит от процесса геометрических преобразований, т.е., усилия разработчиков сосредоточены несколько не в том месте, где надо бы.
Intel® Xeon® масштабируемых процессоров и суффиксов
Тип материала Информация о продукции и документация
Идентификатор статьи 000059657
Последняя редакция 01.11.2021
Номера и суффиксы процессоров Intel® Xeon® могут указывать производительность, функции и поколение. Для получения конкретной информации см. информацию ниже.
Первая цифра четырехзначной последовательности указывает на уровень процессора
Уровень процессора | |
9 | Платина |
8 | Платина |
6 | Золото |
5 | Золото |
4 | Серебро |
3 | Бронзовый |
Вторая цифра указывает на поколение процессора
Поколение процессора | |
1 | 1-е поколение |
2 | 2-е поколение |
3 | 3-е поколение |
Третье и четвертое цифры указывают на номер модели
Эти номера не являются конкретной функцией. В общем случае, чем лучше процессор, тем больше номер модели.
Примечание | Для просмотра или сравнения определенных функций (например, количество ядер, максимальная тактовая частота в режиме Turbo и т. Intel® Xeon®) процессоров, посетите веб-сайт спецификаций продукции Intel и выполните поиск или перейдите к определенным номерам процессоров. |
Суффикс может следовать указаниям
Параметры | Процессоры Intel® Xeon® 1-го поколения (прежнее название Skylake) | Процессоры Intel® Xeon® 3-го поколения (ранее Ice Lake-SP или Cooper Lake) | ||
B | N/A | Незначительные изменения спецификации электрического оборудования по сравнению с SKU другого процессора без изменения количества ядер, частот и функций, а также без воздействия на температурные требования платформы) | N/A | |
C | N/A | N/A | Один разъем | |
F | Поддержка версии коммутационной матрицы процессора со встроенным Intel® Omni-Path Connector | N/A | N/A | |
H | Конфигурация модели для конкретных клиентов; подробная информация является конфиденциальной информацией Intel | N/A |
Емкость памяти | Процессоры Intel® Xeon® 1-го поколения (прежнее название Skylake) |