Производительность процессора



Под производительностью процессора (Performance) принято отождествлять скорость выполнения инструкций (InstructionPerSecond, IPS)

Если рассматривать тактовую частоту процессора (F) как его скорость работы получаем

Характеристик, оценивающие производительность процессора вне зависимости от его характеристик всего 2 – количество инструкция за такт (InstructionPerClock, IPC) и частота работы процессора (F).

Эмпирическим путем установлено, что при увеличении (разгоне) тактовой частоты процессора на 20% его производительность возрастает на 13%. При этом потребляемая процессором мощность возрастает на 73%!

20-процентному росту тактовой частоты соответствует 73-процентный рост потребляемой мощности.

 

Многопроцессорныесистемы

Предел частоты работы центрального процессора в диапазоне 4-5 ГГц и уменьшение размеров элементов при производстве микросхем привело первоначально к появлению двух и более процессорных систем. Наличие второго процессора привело к появлению новых команд и как следствие новых операционных систем.

Первыми операционными системами, работающие в многопроцессорных системам стали клоны Unix, Linux, WindowsNT т.д. Методика обработки данных для многопроцессорных систем симметричная или ассиметричная. Первоначально выбирается основной процессор (называется он 0 процессор), который выполняет задачу диспетчеризации запросов. На нем выполняется первоначальное разделение заданий по существующим процессорам. При этом можно разбить одну задачу на примерно равные подзадачи и направить их на все существующие процессора (симметричная обработка) или можно взять разные, не связанные между собой задачи и выполнить их параллельно на отдельных процессорах (ассиметричная обработка). Узкое место многопроцессорных систем в том, что время передачи данных от основного процессора до дополнительных процессоров довольно значительное и приходится ждать, когда придет подтверждение от дополнительных процессоров о завершении выполнения. 

Кроме этого нагрузка на 0 процессор при диспетчеризации запросов довольно значительная. В среднем при подключении очередного процессора теряется около 15-20% производительности от первоначальной вследствие «проседания» 0 процессора и шинного принципа организации современных компьютеров. Исследования на производительность показали, что оптимальным является наличие 2-4 процессоров. После установки 8-10 процессоров производительность вычислительной системы начинает уменьшаться (система работает сама на себя).

 

Рис. 12 –многопроцессорные системы

Ещё одной проблемой многопроцессорных систем является большое тепловыделение. Каждый процессор греется как 60-120 Вт лампочка и нужно отводить тепло. Для 4-х ядерных систем воздушное охлаждение уже является проблемой, а уж для 8-10 ядерных просто бедой.

Многоядерные системы

Одним из решений по уменьшению тепловыделения и времени обмена между процессорами является размещение нескольких вычислительных ядер на одном кристалле (процессоре). Снижение тепловыделения при этом связано с уменьшением количества транзисторов при проектировании многоядерных систем. Анализ производительности многоядерной системы показывает, что оптимальным значением является 4-6 ядер, а после 10-12 производительность начинает спадать.

Таким образом, наиболее эффективнымбудет сочетание 2-4 процессоров с 4-6 ядрами на каждом.

Сравнение потребляемой мощности при одинаковой производительности одноядерного и многоядерного процессора.

 

Рис.13многоядерные процессора

 

Переход к двухъядерному процессору можно обеспечить увеличение производительности в 1,8 раза при неизменной потребляемой мощности.

Кроме ограничения по частоте и тепловыделению имеется ещё одно существенное ограничение – закон Амдала.

Джин Амдал сформулировал закон в 1967 году, обнаружив простое по существу, но непреодолимое по содержанию ограничение на рост производительности при распараллеливании вычислений: «В случае, когда задача разделяется на несколько частей, суммарное время её выполнения на параллельной системе не может быть меньше времени выполнения самого длинного фрагмента».

Таким образом, существующее последовательное программирование не пригодно для работы в многопроцессорных системах.

Рис.14 – действие закона Амдала

Оперативная память

Следующим элементом, оказывающим наиболее значительное влияние на производительность вычислительной системы – оперативная память

Рис.15 производительность оперативной памяти и процессоров

Оперативная память, используемая в современных компьютерах - это прежде всего динамическая память (этот тип памяти не самый быстрый, но самый дешевый) – каждая ячейка которой может быть представлена конденсатором с определенным временем удержания заряда. Чтобы заряд оставался, ячейку необходимо перезаряжать. Ячейки образуют матрицу (таблицу) со строками и столбцами.

Отставание производительности оперативной памяти от процессоров связано с увеличением времени (количества циклов процессора) на выполнение сервисных операций – Считывание, стирание, перезаряд и т.д.

 

Рис.16 – задержки

Таким образом, производительность оперативной памяти напрямую зависит от 3 величин:

· CAS Latency (CL) – Латентность CAS.

· RAS to CAS Delay (TRCD) – Задержка RAS to CAS

· RAS Precharge (TRP) – Времязарядки RAS

Аббревиатура CAS обозначает Column Address Strobe (строб-сигналадресаколонки), а RAS — Row Address Strobe (строб-сигналадресастроки).

Часто, хотя и не всегда, производители микросхем ОЗУ используют четвертый и пятый тайминги. Ими являются RowActiveTime (TRAS), обычно приблизительно равный сумме второго тайминга (TRCD) и квадрата тайминга CL, а также CommandRate.

 

CAS Latency(CL)-поискячейки

Тайминг CAS Latency является одним из самых важных таймингов модуля оперативной памяти. Он определяет время, которое требуется модулю памяти, чтобы выбрать необходимый столбец в строке памяти после поступления запроса от процессора на чтение ячейки.

RAS to CAS Delay (TRCD)-времядоступа

Этот тайминг определяет число тактов, которое проходит между снятием сигнала RAS, означающего выбор определенной строки памяти и подачей сигнала CAS, при помощи которого осуществляется выбор определенного столбца (ячейки) в строке памяти.

RAS Precharge Time (TRP)-времяперезарядки

Этот параметр задает количество времени в тактах, которое проходит между сигналом на предварительную зарядку Precharge и открытием доступа к следующей строке данных.

Row Active Time(TRAS)-времяреактивностисроки

Это тайминг определяет время, в течение которого является активной одна строка модуля памяти. Такжевнекоторыхисточникахонможетназываться SDRAM RAS Pulse Width, RAS Active Time, Row Precharge Delay или Active Precharge Delay.

Иногда для характеристики модуля памяти также используется таймингCommandRate. Он определяет общую задержку при обмене командами между контроллером памяти и модулем ОЗУ. Обычно равен всего 1-2 тактам.

КомбинацияCL-TRCD-TRP-TRAS.Указывается на выпускаемых модулях оперативной памяти. Она показывает, сколько тактов процессора уходит на обслуживание. Например, обозначение 5-6-6-18 свидетельствует о том, что у микросхемы памяти значение CAS Latency равно 5 тактам, RAS to CAS Delay и RAS Precharge равны 6 тактам, значение RowActiveTime – 18 тактам.Первый показатель особенно важен.

При оценке производительности памяти – тайминги позволяют определить наилучшие. Например, имеется две линейки памяти(1600 11-11-11-23и 2300 15-15-15-36). Несмотря на то, что вторая память работает на большей частоте – сервисные задержки делают её менее предпочтительной.

1600/(11+11+11+23) > 2300/(15+15+15+36)

 

Объем оперативной памяти

Рис. 17 – Нехватка оперативной памяти


К примеру, если на компьютере установлено 32Мб и система использует

16 Мб, при работе 4 процессов, требующих по 4Мб каждый, расходуется 80% на операции чтения/записи, получим что CPU = 1 –0.8**4 = 0.6 ~ 60%. Добавление 16Мб позволило увеличить этот показатель до 83%. Добавление ещё 16Мб до 93%.

При этом мы практически достигнем максимума, поскольку 20% - это очень хороший показатель. Дальнейшее увеличение памяти не даст ощутимого прироста производительности.

Потребление оперативной памяти зависит не только от количества запущенных процессов, но и пропускной способности центрального процессора. Для современных процессоров достаточным является 8Гб, в случае тяжелых приложений (3D моделирование, рендеринг видео, виртуальные машины) - 16 ГБ. Более высокие объемы требуют более мощных процессоров.

 

Системная плата

Системная (материнская) плата– следующая по значимости. Качественная плата позволит избежать большого количества проблем и дает возможность Upgrade и разгона процессора, оперативной памяти, видеокарты. Правда величина такого разгона никогда не превышает 10%. При выборе следует ориентироваться микросхемы северного и южного мостов. Первый отвечает за работу с быстрыми устройствами. Второй за работу с медленными устройствами. Хорошая плата обязательно содержит сглаживающие фильтры на шине питания процессора. Визуально видны три-четыре дросселя рядом с процессором. Радиаторы указывают на более дешевый вариант. 

Для процессоров AMD важна поддержка шины HyperTransport на южном мосте (такую поддержку можно найти в чипах nForce и VIA). В шине HyperTransport применяется пакетная передача данных по динамически выделяемым каналам. Контроллер (о том, что это такое см. ниже) устройства может получить в свое распоряжение полосу от 2 до 32 бит (2, 4, 8, 16, 32) для организации двунаправленной связи. Ассиметричная архитектура интерфейса HyperTransport позволяет передавать неравные потоки данных между устройствами. Выделение линий производится в соответствии с потребностями подключенных устройств. Низкоскоростные устройства могут занимать каналы по 2 бита. Для высокоскоростных устройств предусмотрена возможность резервирования каналов в 32 бита (также туда и обратно). В первом случае обеспечивается связь до 400 Мбайт/с. При ширине динамического канала, равной 32 битам, пропускная способность равна 6,4 Гбайт/с в каждую сторону. Максимальное значение тактовой частоты, поддерживаемое шиной, составляет 800 МГц. Эквивалентной - 1,6 ГГц (т.к. данные передаются по обоим фронтам сигнала). Соответственно пиковая пропускная способность достигает 12,8 Гбайт/св обе стороны. Для сравнения, шина AGP 4x способна передавать данные на скорости 1,066 Гбайт/с. Как видно, преимущества HyperTransport перед ее предшественниками неоспоримы. Использование HyperTransport позволяет использовать относительно медленную память (PC3200), для современных процессоров.

Для процессоров Intel важна частота работы южного моста, количество и скорость работы каналов данных. Чем выше частота, тем лучше. Поэтому для таких систем используется дорогая и быстрая память (PC2-5300 PC-6300).

Контролер

Контроллеры - это микросхемы, выполняющие функции по обработке сигналов, которыми обмениваются всевозможные устройства ПК. Контроллер позволяет общаться различным узлам компьютера, играя роль переводчика. Здесь по аналогии с людьми, относящимися к различным языковым группам. Вроде бы у всех мнения достойные, однако, без переводчика к взаимному согласию не прийти. Так и в компьютерах, язык команд видеокарты непонятен центральному процессору или чипсету и наоборот. Контроллер разъясняет обеим сторонам, как следует работать, чтобы достичь желаемого эффекта. Контроллеры некоторых устройств уже встроены в системную плату изготовителем. Например, контроллер ввода вывода для таких устройств, как клавиатура и мышь. Все что мы говорили выше для процессоров справедливо и для контроллеров. Рассмотрим понятия "адресное пространство контроллера" и "разрядность контроллера".


Дата добавления: 2018-05-02; просмотров: 394; Мы поможем в написании вашей работы!

Поделиться с друзьями:






Мы поможем в написании ваших работ!