Семейства видеокарт AMD(ATI) RADEON Справочная информация. Виды видеокарт радеон


Характеристики видеокарт Radeon, как выбрать

Если вы ищите качественные видеокарты Радион, то компания AMD является одной из лидеров по их производству и функциональности, что позволяет запускать и пользоваться новейшими играми и приложениями.Техника, выпущенная компанией, в течение нескольких последних лет, дает возможность полноценно работать с 3D-графикой. Но для выполнения определенных задач, нужны разные видеокарты, которые и будут рассмотрены ниже.Для ознакомления с характеристиками АМД, можно посмотреть специальную таблицу, где показана функциональность и производительность той или иной видеокарты. Частота памяти видеокарты серьезно влияет на ее скорость в целом. Среднее ее значение достигает 1000 МГц для памяти HBM и около 8000 для GDDR5. Но зависимость производительности карты от частоты не прямо пропорционально, так как основным показателем, влияющем на производительность, является именно разрядность шины.От основных характеристик шины напрямую зависит «пропускная способность» памяти видеокарты. То есть, чем больше ширина видеокарты, тем быстрее обрабатываются данные графического процессора (GPU). Сейчас графические платы не используют на 64 бита, их разрядность начинается с 128 и выше бит.

Список лучших моделей AMD, обладающих следующей разрядностью:- 256-битные – серии RX 380, 480, 470;- 512-битные – серия 390 R9;

- 4096-битные – серии R9 Fury, Nano;- 128-битные – серия RX.В основном, высокая производительность этих карт получается при помощи дополнительных, многослойных модулей памяти, которые позволяют уменьшить частоту, при этом увеличив мощность графического процессора.Fury и Nano серии AMD Radeon отличаются возможностью запуска приложений, которые требуют много ресурсов именно графического плана, и для игр с высоким ФПС показателем.GDDR5 – еще совсем недавно была последним, и лучшим вариантом для плат графики, но она постепенно уходит на второй план. Одна из преуспевающих технологий – HBM, ее особенности:- увеличенная производительность;- меньшая потребность электроэнергии;- особенность организации подсистем памяти.

Именно поэтому новые модели R9 Fury, Nano, Fury X, с частотой всего 1000 МГц, способны работать на 33% быстрее в сравнении с R9-390X.

К примеру, еще одна бюджетная модель RX 460, при частоте 1212 МГц, способна выдать в пять раз меньше производительности, так как она стоит в слоте GDDR5, а ее разрядность и вовсе 128 бит.

Современные графические Радеон устройства вмещают в себя объем памяти от 4 до 8 гигабайт. И это при том, что самые новые современные игры требуют намного меньше 4 гб памяти для запуска и нормальной игры.Но для HBM – это не столь важно, здесь внимание уделяется именно пропускной способности, которая выше GDDR.Транзисторы являются основными элементами конструктора любого процессора, они пропускают или блокируют электрический ток в нужный момент и в нужном направлении.

От количества транзисторов зависит производительность видеокарты, а сам показатель зависит еще и от размера транзисторов, которые использовались при изготовлении технологии. Большая часть разработчиков графических процессоров, как и АМД, пользуются транзисторами 28 нанометров.

Передача данных видеокарты изначально зависит от произведения эффективной частоты, как и памяти на разрядность. Чем выше предоставленное значение, тем быстрее может быть передана информация, что улучшает работоспособность игр.Разные видеокарты потребляют разный объем энергии, зависит это от следующих факторов:- технологии, которые используются при создании видеокарты;- тип ее памяти;- мощность этой платы.Таким образом, даже в одной и той же серии можно найти как модель с высоким потреблением энергии, так и с низким. К примеру, R9 390X и 390 требуют 275 Вт мощности и блок питания не ниже чем на 500 Вт.

Этот же показатель и у плат R9 Fury, fury x. R9 Nano требует 175 Вт, но по производительности превосходит остальные. А вот RX 460 и вовсе потребляет 75 Вт.

Конструкция специальной схемы для охлаждения графического процессора зависит от его энергопотребления:- бюджетные, или менее производительные, графические платы охлаждаются при помощи стандартного набора вентиляторов;

- GPU способные работать с современными играми, требуют более серьезного охлаждения, например, жидкостного. В R9 Nano система вентиляции включает в себя не только куллер, но еще и специальную испарительную камеру с тепловыми трубками. А у Fury версии, под самим радиатором установлена специальная пластина из металла.AMD – компания-конкурент NVidia, продолжает выпускать еще больше видеокарт. К примеру серия Fury, почти по всем показателям превосходит прошлое поколение видеокарт. Хоть это и относится и к более новым, но бюджетным версиям графических плат типа RX.

vgtk.ru

Видеокарты Radeon: Характеристики, особенности и возможности

Компания AMD выпускает не только качественные и известные своей производительностью (хотя и энергоёмкие) процессоры, но и видеокарты Radeon, характеристики которых достаточны для запуска самых производительных игр.

Эта техника, особенно выпущенная в течение последних 2 лет, позволяет работать и с ресурсоёмкими приложениями (3D-графикой). Хотя для того чтобы подобрать подходящую модель и определить, достаточно ли её возможностей для выполнения ваших задач, стоит рассмотреть параметры графических процессоров подробнее.

Рис. 1. Разнообразие видеокарт AMD Radeon

Для того чтобы знакомиться с характеристиками оборудования было проще, можно составить таблицу с указанием основных величин, влияющих на производительность и функциональность видеокарты. К ним относятся параметры шины (частота и разрядность), тип памяти, используемый при изготовлении графического процессора техпроцесс, скорость работы данных и объём памяти. Можно остановить внимание и на потреблении электроэнергии, от которой зависит мощность блока питания компьютера и способ охлаждения устройства.

Частота памяти и разрядность шины

Частота памяти видеокарты, в первую очередь, влияет на скорость её работы. Среднее значение этого показателя равно 1000 МГц для памяти HBM и 6000–8000 для GDDR5. При этом зависимость производительности карты от её частоты не всегда прямо пропорциональна, так как вторым показателем, влияющим на пропускную способность устройства, является разрядность шины.

От характеристик шины, в первую очередь, зависит пропускная способность памяти видеокарты. Чем больше её ширина, тем быстрее обрабатываются данные графическим процессором (GPU). Так, платы на 64 бит уже практически не используются в современных компьютерах, хотя и до сих пор имеются в продаже в интернет-магазинах. Более современные модели видеокарт имеют разрядность 128 и 256 бит, топовые версии – 512 бит и выше.

Десять лучших на сегодняшний день моделей AMD обладают следующей разрядностью:

  • серии RX 470, 480 и 380 – 256-битные;
  • 390-я серия R9 – 512 бит;

Рис. 2. Видеокарта серии R9 390X с основными характеристиками

  • последние модели, R9 Fury и Nano, комплектующиеся памятью нового типа – 4096 бит;
  • одна из выпускаемых по новой технологии с техпроцессом 18 нм моделей, RX, имеет разрядность всего в 128 бит, из-за чего и отличается невысокой скоростью передачи данных, хотя и стоит сравнительно дёшево, представляя бюджетный вариант для геймеров.

Высокая разрядность последних видеокарт AMD, получаемая благодаря использованию многослойных модулей памяти, позволяет иметь меньшую частоту, обеспечивая большую мощность.

При этом удельная энергоёмкость оборудования (1 Вт мощности на 1 Гбайт/с скорости передачи данных) становится ниже – модели R9 с памятью HBM потребляют меньше электричества по сравнению с другими картами.

Главная особенность Radeon Fury и Nano – возможность запуска более требовательных к графике приложений и ресурсоёмких игр с высоким показателем FPS (частотой кадров).

Тип и объём памяти

Память GDDR5, ещё недавно считавшаяся лучшим вариантом для графической платы, начинает устаревать. Более того, производители заявляют, что её возможности подходят к своему пределу, и начинают искать новые решения. Одним из них является технология HBM, которая отличается:

  • повышенной производительностью;
  • меньшей потребностью в электроэнергии;
  • особенностью организации подсистемы памяти.

По этой причине, современные и более дорогие видеокарты R9 Fury, Fury X и Nano, имея небольшую частоту в 1000 МГц, работают на 33% быстрее по сравнению с флагманом прошлого поколения R9 390X – 512 ГБ/с вместо 384.

Такая же сравнительно новая, но бюджетная модель RX 460 при неплохой частоте 1212 МГц обладает в 5 раз меньшей скоростью работы по сравнению с самой мощной моделью производителя, так как не только имеет память GDDR5, но и разрядность в 128 бит.

Рис. 3. Графические процессоры Radeon R9 460 разных производителей

Объём памяти у современных графических устройств Radeon находится на уровне 4096–8192 МБ. При этом современные игры требуют уже не меньше 4 ГБ памяти для запуска с нормальными настройками.

Хотя для памяти HBM этот показатель не так важен – внимание стоит уделить пропускной способности, которая у неё выше, чем у GDDR.

Техпроцесс

Основными элементами конструкции процессора, в том числе и графического, являются транзисторы, пропускающие или блокирующие электрический ток в определённом направлении.

От их количества зависит производительность видеокарты, а этот показатель, в свою очередь, зависит от размера транзисторов и используемой при их изготовлении технологии. Большинство разработчиков видеокарт, включая AMD, пользуются техпроцессом с размером транзисторов 28 нм. Такое значение показателя есть у всех современных моделей, кроме серии RX 400.

Рис. 4. Технология 14 нм по сравнению с предыдущей технологией 22 нм

Графические процессоры нового поколения создаются на базе технологии 14 нм. А в будущем карты Radeon будут выпускаться с использованием техпроцесса 7 нм. Предполагается, что 14-нанометровая технология обеспечивает графическому ядру повышение производительности в 2–3 раза и поддерживает до 3 независимо работающих мониторов.

Пропускная способность

Скорость передачи данных с помощью видеокарт в первую очередь зависит от произведения эффективной частоты их памяти на разрядность. Чем больше это значение, тем быстрее передаётся информация, а, значит, и лучше работают игры.

При этом у новой памяти HBM разрядность в 8 раз выше, а, значит, частота может быть ниже. Например, для модели R9 Fury X пропускная способность равна (4096/8)байт*1 ГГц = 512 Гбайт/с. Такого значения более чем достаточно для запуска любой игры на максимальных настройках. Видеокарта RX 460 с разрядностью 128 бит может передавать всего 112 Гбайт/с информации (=7000*128/8).

Энергопотребление и охлаждение

Энергопотребление различных видеокарт зависит от разных факторов:

  • технологии, используемой при создании процессора;
  • типа памяти;
  • мощности графической платы.

При этом даже в одной серии карт можно найти модели с высоким потреблением энергии и низким. Так, например, модели R9 390 и 390Х потребляют до 275 Вт мощности и требуют блока питания не менее чем на 500 Вт.

Такой же показатель у более производительных карт R9 Fury и Fury X. Тогда как R9 Nano потребляет всего 175 Вт, хотя по производительности не уступает остальным и даже превосходит их. А недорогая модель RX 460 потребляет только 75 Вт, имея оптимальное соотношение мощности к энергопотреблению.

Питание до 75 Вт обеспечивается одним слотом PCI Express. Превышение этого значения компенсируется дополнительными 8-контактными гнёздами, через каждое из которых можно подать до 150 Вт.

Это значит, что для обеспечения энергией современных карт AMD одного PCI-разъёма недостаточно и требуется дополнительные мощности.

Конструкция системы охлаждения тоже зависит от энергопотребления графического процессора:

  • менее производительные модели охлаждаются обычной системой вентиляторов;

Рис. 5. Охлаждение 256-битной видеокарты

  • процессоры, способные запускать современные игры, требуют и более серьёзного охлаждения – жидкостного. Например, у R9 Nano система вентиляции включает не только кулер, но и испарительную камеру с тепловыми трубками. А у R9 Fury под радиатором установлена металлическая пластина.

Рис. 6. Система жидкостного охлаждения для процессоров с памятью HBM

Выводы

Компания AMD, так же как и её основной конкурент Nvidia, продолжает увеличивать большинство характеристик своих видеокарт. И серия Fury по большинству показателей (кроме энергопотребления) превосходит предыдущее поколение. Хотя это относится только к старшим версиям – бюджетные графические платы RX, созданные на основе нового техпроцесса 14 нм, уступают старым флагманам и сравнимы с недорогими моделями прошлого поколения. Поэтому, выбирая карту для своего ПК, основное внимание придётся всё-таки уделить финансовой стороне вопроса – большие затраты позволят получить и лучшие характеристики.

pomogaemkompu.temaretik.com

GeForce или Radeon, какую видеокарту выбрать?

Что такое видеокарта сегодня известно каждому. Без этой, по истине важной для любого компьютера детали, обойтись невозможно.

Видеокарты бывают встроенные и внешние. Встроенные видеокарты ставят, как правило, на материнские платы формата m-ATX. Именно такие материнки используют в мини десктопах.

Основной задачей видеокарты является вывод картинки с компьютера на монитор. Однако, современные видеокарты не ограничиваются простым выводом изображения, они имеют встроенный графический микропроцессор, который может производить дополнительную обработку, разгружая от этих задач центральный процессор компьютера. Все современные видеокарты поддерживают приложения OpenGL на аппаратном уровне. В последнее время также имеет место тенденция использовать вычислительные способности графического процессора для решения неграфических задач.

К настоящему моменту на рынке доминируют два главных производителя видеокарт, это компании Nvidia и ATi.

Множество производителей компьютерных комплектующих выпускают свои модели видеокарт на основе архитектуры Nvidia или ATi. Лидерами индустрии являются компании Asus, Msi (Microstar) и Palit. Видеокарты этих производителей отличаются повышенной надёжностью, отличными характеристиками и доступной ценой. Правда Palit — это самые бюджетные видеокарты, поэтому их изделия не так надёжны и качественны как изделия от Asus или Msi.

Бренд от Nvidia называющийся GeForce немножко круче, чем бренд от ATi — Radeon. На GeForce идут все игры, на Radeon — почти все. Видеокарты на GeForce обычно немножко дороже видеокарт на Radeon, так же GeForce более энергетически прожорливы, чем Radeon. Учтите, что для любой современной игровой видеокарты требуется качественный блок питания мощностью от 450 ватт.

Основные характеристики видеокарт

Характеристик по которым следует выбирать видеокарту не так уж и много. Первая, но не основная — ширина шины памяти — измеряется количеством бит информации, передаваемых за такт.

Объём видеопамяти — объём собственной оперативной памяти видеокарты. Выполняет роль кадрового буфера, в котором хранится изображение, генерируемое и постоянно изменяемое графическим процессором и выводимое на экран монитора (или нескольких мониторов). В видеопамяти хранятся также промежуточные невидимые на экране элементы изображения и другие данные.

Видеопамять бывает нескольких типов, различающихся по скорости доступа и рабочей частоте. Современные видеокарты комплектуются памятью типа DDR, DDR2, GDDR3, GDDR4 и GDDR5. Следует также иметь в виду, что помимо видеопамяти, находящейся на видеокарте, современные графические процессоры обычно используют в своей работе часть общей системной памяти компьютера, прямой доступ к которой организуется драйвером видеоадаптера через шину AGP или PCIE.

На этот параметр стоит обратить внимание когда Вы будете выбирать видеокарту. Для игр и работой с графикой следует выбирать с 1024 mb и выше. Для офиса 512 вполне хватит.

Частоты ядра и памяти — измеряются в мегагерцах, чем больше, тем быстрее видеокарта будет обрабатывать информацию. В прайс листах, как правило не указывается.

Разрешающая способность — размер картинки выводимой на монитор. Если у вас большой экран, то вам нужна видеокарта поддерживающая большое разрешение. В принципе современные видеокарты поддерживают разрешение до 1920x1080 этого вполне хватает.

Разъемы под внешние устройства. Самые распространённые это HDMI,VGA, DVI.

HDMI — интерфейс для видео высокой чёткости, позволяющий передавать цифровые видеоданные высокого разрешения и многоканальные цифровые аудиосигналы с защитой от копирования.

DVI (англ. цифровой видеоинтерфейс) — стандарт на интерфейс и соответствующий разъём, предназначенный для передачи видеоизображения на цифровые устройства отображения, такие как жидкокристаллические мониторы и проекторы.

VGA — аналоговые и изначально были предназначены для мониторов на электронно-лучевых трубках (ЭЛТ). Они передают сигнал построчно, при этом изменение напряжения означает изменение яркости. Для устройств на ЭЛТ это было нужно для изменения интенсивности луча электронов.

Поддержка технологий NVIDIA SLI и ATI CrossFireX

Надо обратить внимание на поддержку одинакового типа технологий, если материнская плата поддерживает SLI, то именно SLI должны поддерживать и видеокарты. Если материнская плата поддерживает CrossFireX, то видеокарты должны поддерживать CrossFireX. Это может потребоваться если вы собираетесь использовать одновременно больше одной видеокарты.

v-i-d-e-o.info

Семейства видеокарт AMD(ATI) RADEON Справочная информация

Справочная информация о семействе видеокарт Radeon XСправочная информация о семействе видеокарт Radeon X1000Справочная информация о семействе видеокарт Radeon HD 2000Справочная информация о семействе видеокарт Radeon HD 4000Справочная информация о семействе видеокарт Radeon HD 5000Справочная информация о семействе видеокарт Radeon HD 6000Справочная информация о семействе видеокарт Radeon HD 7000Справочная информация о семействе видеокарт Radeon 200Справочная информация о семействе видеокарт Radeon 300

Спецификации чипов семейства R[V]4XX и некоторых из RV3XX

кодовое имя R481R480R430R423R420RV410RV380RV370
базовая статья здесьздесьздесь
технология (нм) 130110130110130110
транзисторов (М) 16012075
пиксельных процессоров1684
текстурных блоков 1684
блоков блендинга 1684
вершинных процессоров 62
шина памяти 256 (64х4)128 (64х2)
типы памятиDDR, DDR2, GDDR3DDR, DDR2
системная шина чипа AGP 8xPEG 16хAGP 8xPEG 16х PEG 16х
RAMDAC2 х 400МГц
интерфейсыTV-OutTV-In (нужен чип захвата) 2 x DVI (нужны внешние интерфейсные чипы)
вершинные шейдеры2.0
пиксельные шейдеры 2.0b2.0
точность пиксельных вычислений FP24
точность вершинных вычислений FP32
форматы компонент текстур FP32, FP16 (без фильтрации)I8DXTC*, S3TC 3Dc
форматы рендеринга FP32 и FP16 (без блендинга и MSAA)I8
MRT есть
Aнтиалиасинг2х, 4x и 6х MSAAпсевдослучайное расположение отсчетов на решетке 12х12
генерация Z 1х в режиме без цвета, 2х в режиме MSAA
буфер шаблоновдвустороннийобычный
технологии теней специальные технологии отсутствуют

Спецификации референсных карт на базе чипов семейств R[V]4XX и RV3XX

картачипшина блоков PS/TMU/VSчастота ядра (МГц)частота памяти (МГц)объем памяти (Мбайт)ПСП (Гбайт)биттексель рэйт (Мтекс)филлрэйт (Мпикс)
RADEON X800 PRO R420AGP 12/12/6475450(900)256 GDDR328.8(256)6400
RADEON X800 XT PER420AGP16/16/6520560(1120)256 GDDR335.8(256)8320
RADEON X300RV370PEG16х 4/4/2325200(400)128DDR6.4(128) 1300
RADEON X300 SE RV370PEG16х 4/4/2325200(400)128DDR3.2(64) 1300
RADEON X600 PRO RV380PEG16х 4/4/2400300(600)128DDR9.6(128) 1600
RADEON X600 XT RV380PEG16х 4/4/2500370(740)128DDR11.8(128) 2000
RADEON X800 XTR420AGP16/16/6500500(1000)256 GDDR332.0(256)8000
RADEON X800 XTR423PEG16х 16/16/6500500(1000)256 GDDR332.0(256)8000
RADEON X700 [LE] RV410PEG16х 8/8/6400350(700)128 GDDR311.2(128)3200
RADEON X700 PRO RV410PEG16х 8/8/6425430(860)256 GDDR313.8(128)3400
RADEON X700 XT RV410PEG16х 8/8/6475525(1050)128 GDDR316.8(128)3800
RADEON X800 SER420AGP8/8/6425400(800)256 GDDR325.6(256)3400
RADEON X800 R430PEG16х 12/12/6400350(700)256 GDDR322.4(256)4800
RADEON X800 XL R430PEG16х 16/16/6400500(1000)256 GDDR332.0(256)6400
RADEON X850 PRO R480PEG16х 12/12/6507520(1040)256 GDDR333.3(256)6804
RADEON X850 XT R480PEG16х 16/16/6520540(1080)256 GDDR334.6(256)8320
RADEON X850 XT PER480PEG16х 16/16/6540590(1180)256 GDDR337.8(256)8640
RADEON X700 LE RV410AGP8/8/6400350(700)128 GDDR311.2(128)3200
RADEON X700 PRO RV410AGP8/8/6425430(860)256 GDDR313.8(128)3400
RADEON X800 R430AGP12/12/6400350(700)256 GDDR322.4(256)4800
RADEON X800 XL R430AGP16/16/6400500(1000)256 GDDR332.0(256)6400
RADEON X850 PRO R481AGP12/12/6507520(1040)256 GDDR333.3(256)6804
RADEON X850 XT R481AGP16/16/6520540(1080)256 GDDR334.6(256)8320
RADEON X850 XT PER481AGP16/16/6540590(1180)256 GDDR337.8(256)8640
RADEON X300 SE 128 (HM) RV370PEG16х 4/4/2325300(600)32DDR4.8(64) 1300
RADEON X300 SE 256 (HM) RV370PEG16х 4/4/2325300(600)128DDR4.8(64) 1300
RADEON X740 XLRV410PEG16х 8/8/6425450(900)128 GDDR314.4(128)3400
RADEON X700 SE RV410AGP4/4/6400250(500)128 GDDR34.0(64)1600
RADEON X550RV370PEG16х 4/4/2400250(500)128DDR8.0(128) 1600
RADEON X800 XL R430PEG16х 16/16/6400500(1000)512 GDDR332.0(256)6400
RADEON X850 XT CFE R480PEG16х 16/16/6520540(1080)256 GDDR334.6(256)8320
RADEON X800 CFE R430PEG16х 16/16/6400500(1000)128/256 GDDR332.0(256)6400

карта

чип шина

блоков PS/TMU/VS

частота ядра (МГц) частота памяти (МГц) объем памяти (Мбайт)ПСП (Гбайт)биттексель рэйт (Мтекс) филлрэйт (Мпикс)

Подробности: R420, серия RADEON X800

Спецификации R420
  • Кодовое имя чипа R420
  • Технология 130 нм (TMSC, low-k, медные соединения)
  • 160 миллионов транзисторов
  • FС корпус (перевернутый чип, без металлической крышки)
  • 256 бит интерфейс памяти
  • До 512 мегабайт DDR/DDR2/GDDR3 памяти
  • AGP 8x шинный интерфейс (также есть PCI-Express версия чипа - R423)
  • 16 Пиксельных процессоров, по одному текстурному блоку на каждом
  • 6 Вершинных процессоров
  • Вычисление, блендинг и запись до 16 полных (цвет, глубина, буфер шаблонов) пикселей за такт
  • Вычисление и запись до 32 значений глубины и буфера шаблонов за такт
  • MSAA 2x/4x/6х, с гибко программируемыми паттернами отсчетов. Сжатие буфера кадра и буфера глубины в MSAA режимах. Возможность менять MSAA паттерны от кадра к кадру (Temporal AA)
  • Анизотропная фильтрация степени до 16х включительно
  • Все необходимое для поддержки пиксельных и вершинных шейдеров версии 2.0
  • Дополнительные возможности пиксельных шейдеров на основе расширенной версии 2.0 - 2.0.b
  • Дополнительные возможности вершинных шейдеров, сверх базовых 2.0
  • Новая техника сжатия текстур, оптимизированная для сжатия двухкомпонентных карт нормалей (т.н. 3Dc, степень сжатия 4:1)
  • Поддерживается рендеринг в буфера плавающего формата, с точностью FP16 и FP32 на компоненту, возможность блендинга отсутствует
  • Поддерживаются трехмерные и FP (плавающие) форматы текстур, без текстурной фильтрации
  • Поддержка «двустороннего» буфера шаблонов
  • MRT (Multiple Render Targets — рендеринг в несколько буферов)
  • 2 x RAMDAC 400 МГц
  • 2 x DVI интерфейса
  • TV-Out и TV-In интерфейс (требуются интерфейсные чипы)
  • Возможность программируемой обработки видео - пиксельные процессоры задействуются для обработки видео потока (задачи компрессии, декомпрессии и постобработки)
  • 2D ускоритель с поддержкой всех функций GDI+
Общая схема чипа R420

Пытливый читатель сразу отметит, что схема практически совпадает с NV40. Ничего удивительного - обе фирмы стараются создать оптимальное решение и уже несколько поколений исповедуют проверенную и эффективную организацию общей структуры графического конвейера. Существенные отличия кроются внутри блоков и в первую очередь - в пиксельных и вершинных процессорах.

Как и у NV40, в наличии шесть вершинных процессоров и четыре независимых пиксельных процессора, каждый из которых работает с одним квадом (фрагментом 2х2 пикселя). Скорее всего, в отличие от NV40, присутствует только один уровень кэширования данных текстур. В наличии четыре независимых процессора квадов, каждый из которых может быть отключен - таким образом, в зависимости от потребностей рынка и наличия бракованных чипов можно отключать один, два или даже три процессора, производя, таким образом карты, обрабатывающие 4, 8, 12 или 16 пикселей за такт.

А теперь, по традиции увеличим степень детализации в самых интересных местах:

Вершинные процессоры и выборка данных
Приведем блок схему вершинного процессора R420:

Сам процессор на схеме обозначен желтым прямоугольником, остальные окружающие его блоки показаны для более полной картины. Заявлено, что R420 содержит 6 независимых процессоров (мысленно скопируем желтый блок шесть раз). Вершинные блоки не соответствуют ни полной спецификации vs 3.0 (отсутствует возможность доступа к текстурам и динамические ветвления) ни расширенной спецификации 2.0 в понимании NVIDIA (т.н. версии 2.0.а, которая предполагает поддержку предикатов и динамических переходов). Что касается арифметической производительности, то за один такт вершинный процессор R420 может выполнить одну векторную операцию (до 4-х компонент FP32) и одну скалярную FP32 операцию одновременно, так же как и вершинный процессор NV40.

Напомним, как выглядит сводная табличка параметров вершинных процессоров современных ускорителей с точки зрения вершинных шейдеров DirectX 9 API:

Версия вершинных шейдеров2.0 (R3XX, R42X)2.a (NV3X)3.0 (NV4X, G7X, R5XX)
Число инструкций в коде шейдера256256512 и более
Число исполняемых инструкций6553565535 65535 и более
ПредикатыНетЕстьЕсть
Временных регистров121332
Константных регистров256 и более256 и более256 и более
Статические переходыДаДаДа
Динамические переходыНетДаДа
Глубина вложенности динамических переходовНет2424
Выбор значений текстурНетНетДа (4)

Еще один интересный аспект, который исследуется в практических статьях - производительность эмуляции FFP (T&L). Напомним, что R3XX во многом проигрывал чипам NVIDIA из-за отсутствия специальных аппаратных блоков расчета освещения, ускорявших эмуляцию T&L вот уже в трех поколениях чипов NVIDIA.

Пиксельные процессоры и организация закраски

Рассмотрим пиксельную архитектуру R420 в порядке следования данных. Итак, после установки параметров треугольника нас ждет:

Остановимся на самых интересных фактах. Во-первых, если ранее в R3XX было максимум два процессора квадов, обрабатывающих за такт блок из четырех пикселей (2х2) то теперь таких процессоров стало четыре. Они полностью независимы и каждый из них может исключаться из работы (например, для создания облегченной версии чипа с тремя процессорами при наличии брака в одном из них).

Отметим, что во многом схема похожа на NV40, но есть и кардинальные отличия, на которых мы остановимся подробнее. Итак, сначала треугольник разбивается на блоки первого уровня (8х8 или 4х4 в зависимости от разрешения рендеринга) и происходит первая ступень отбрасывания невидимых блоков, на основе данных полностью размещенного на чипе мини Z буфера. Его объем не афишируется, но, судя по всему, в R420 он занимает несколько менее 200 килобайт. Всего на этой стадии может быть откинуто до 4 блоков за такт, т.е. до 256 невидимых пикселей.

Затем происходит вторая ступень разбиения - на сей раз, на квады размером 2х2 и происходит раннее отсечение полностью невидимых квадов, на основе хранимого в видео памяти Z буфера второго уровня, с гранулярностью покрытия 2х2. Отметим, что в зависимости от режима MSAA один элемент этого буфера может соответствовать 4 (нет), 8(MSAA 2х), 16 (MSAA 4х) или даже 24 (6х MSAA) точкам в буфере кадра, вот почему его выделили в отдельную структуру, занимающую промежуточный уровень между мини буфером глубины полностью расположенном на чипе и окончательным буфером глубины базового уровня. Таким образом, в продуктах NVIDIA мы имеем дело с двухуровневой организацией HSR и буфера глубины, а в продуктах ATI - с трехуровневой.

Затем происходит установка квадов, и их распределение по активным пиксельным процессорам. А вот еще дальше начинаются самые существенные отличия R420 от NV40:

Алгоритм работы пиксельного процессора NVIDIA: Цикл по командам шейдера

  • Считать микрокод следующей команды
  • Сконфигурировать текстурный модуль и все ALU
  • Цикл по всем квадам в очереди
    • Прогнать квад через процессор, TMU и ALU
  • Конец цикла по квадам
Конец цикла по командам шейдера

Алгоритм работы пиксельного процессора ATI

Цикл по 4 фазам

  • Цикл по все квадам в очереди
    • Цикл по выбираемым текстурам в этой фазе (до 8)
      • Выбрать значение текстуры
    • Конец цикла по текстурам
  • Цикл по вычислительным командам в этой фазе (до 128)
    • Выполнить команду
  • Конец цикла
  • Конец цикла по квадам
Конец цикла по 4 фазам.

Итак, NVIDIA постепенно исполняет команды (а точнее суперскалярные пачки команд, включая команды выборки текстур), прогоняя через каждую команду все квады находящиеся в обработке. ATI же разбивает шейдер на четыре фазы (вот откуда ограничение на глубину зависимых выборок не более 4), в каждой из которых сначала осуществляется выборка всех данных текстур необходимых для этой фазы, а затем уже все вычисления над полученными данными. В том числе, и вычисление новых координат, для выборки текстур в следующей фазе.

Какой подход лучше? Сказать однозначно нельзя. Подход ATI хуже приспособлен к сложным шейдерам с управлением потоком команд или многочисленными зависимыми выборками. С другой стороны, вычисления внутри каждой из четырех фаз происходят по похожей на CPU схеме - выполняются все команды, команда за командой, для одного квада, затем берется следующий квад и т.д. Таким образом, во время вычислений можно использовать полноценный пул из временных регистров, без какой либо потери производительности и пенальти за использование более 4 регистров, которое мы имеем в NV40. Кроме того, подход ATI требует менее длинных по числу стадий конвейеров. Следовательно, расходуется меньше транзисторов и потенциально достигаются более высокие тактовые частоты (или, что одно и то же, более высокий выход годных чипов на фиксированной частоте). Хорошо предсказуема производительность того или иного шейдера, легче писать их код, когда не надо заботиться о равномерной группировке текстурных и вычислительных команд или расходе временных регистров.

Из недостатков - многочисленные ограничения. Ограничение на число зависимых выборок, ограничение на число команд в одной фазе, необходимость хранить весь микрокод шейдера для четырех фаз «под рукой», т.е. прямо в пиксельном процессоре. Существует возможность задержек в случае интенсивных зависимых выборок текстур, следующих друг за другом (это сглаживается наличием набора одновременно обрабатываемых квадов, но их число не столь велико, как у NVIDIA).

Фактически, подход ATI оптимален для реализации шейдеров 2.0, без динамического контроля исполнения и с серьезно ограниченной длиной кода. Любые попытки «прикрутить» к подобной архитектуре пиксельного процессора неограниченную длину шейдеров и тем более неограниченную гибкость в текстурных выборках неизбежно вызовут множество проблем.

На схеме пиксельного процессора обозначена логика F-буфера - механизма для записи и восстановления параметров временных переменных шейдера. Это ухищрение позволяет исполнять шейдеры, превышающие по длине или числу зависимых (да и обычных тоже) выборок текстур ограничения пиксельного процессора ценой дополнительных проходов, что само по себе не является бесплатным решением и далеко от идеала. По мере роста сложности шейдера число проходов и сохраняемых временно в видеопамяти данных будет возрастать, а вместе с ними будет возрастать и штраф по сравнению с архитектурами, подобными тем, что мы видим у NVIDIA, которые не ограничены длиной или сложностью шейдера.

Впрочем, вернемся к особенностям архитектуры пиксельных процессоров R420. Формат данных в процессорах при вычислениях - FP24, но операции с текстурными координатами при выборке текстур в TMU проводятся с большей точностью. Тут все как и в R3XX, на каждый пиксель приходится по два ALU, причем каждый из них может выполнить две различные операции по схеме 3+1 (как и в R3XX, но там ALU был один). Подробнее об этом написано в статье DX Current. Не поддерживается произвольное маскирование и перестановка компонент после операции, все только в рамках шейдеров 2.0 и чуть более длинных 2.0.b.

Таким образом, в зависимости от кода шейдера может быть выполнено от одной до четырех различных FP24 операций за такт, над векторами (размерность до 3) и скалярами и осуществлен один доступ к уже выбранным из текстуры в данной фазе данным. Производительность такой связки напрямую зависит от компилятора и кода, но очевидно, что мы имеем

  • Минимум: один доступ к выбранным данным текстуры за такт
  • Минимум: две операции за такт без доступа к текстуре
  • Максимум: четыре операции за такт без доступа к текстуре
  • Максимум: четыре операции за такт с доступом к текстуре

Что в пиковом варианте превышает возможности NV40. Но не забываем, что реально это решение менее гибко (постоянная схема 3+1) с точки зрения совмещения команд в суперскалярные пачки при компиляции. По сравнению с R3XX вычислительная эффективность новых конвейеров выросла вдвое и вместе с двукратным увеличением их числа и приростом тактовой частоты мы получаем солидное превосходство по сравнению с предыдущим поколением.

Все новые усовершенствования, такие как увеличенная длина шейдеров и новые регистры, доступны в новой версии шейдеров 2.0.b. Рассмотрим сводную таблицу возможностей разных версий:

Версия пиксельного шейдера2.0 (R3XX)2.a (NV3X)2.b (R4XX)3.0 (NV4X/G7X, R5XX)
Вложенность выборок текстур до4Без ограничений4Без ограничений
Выборок значений текстур до32Без ограниченийБез ограниченийБез ограничений
Длина кода шейдера32 + 64512512512 и более
Исполняемых инструкций шейдера32 + 6451251265535 и более
Интерполяторы2 + 82 + 82 + 810
Предикатынетданетда
Временных регистров12223232
Константных регистров323232224
Произвольная перестановка компонентнетданетда
Инструкции градиента (DDX/DDY)нетданетда
Глубина вложенности динамических переходовнетнетнет24

Вернемся к схеме пиксельных процессоров и обратим внимание на ее нижнюю часть. Там расположены блоки, отвечающие за сравнение и модификацию значений цвета, прозрачности, глубины и буфера шаблонов, а также MSAA. В отличие от NV40, поддерживающей генерацию до 4х MSAA отсчетов на основе одного пикселя, R420 генерирует до 6. Причем, производительность расчета Z и буфера шаблонов, как и у NV40, удвоена относительно базовой скорости закраски - 32 значения в такт. Соответственно, 2х MSAA дается без пенальти по скорости, а 4х и 6х занимают 2 и 3 такта. Впрочем, в случае использования пиксельных шейдеров длиной хотя бы в несколько команд, это перестает быть заметным ограничением и не играет особой роли. Пропускная способность памяти становится более важной. Разумеется, в MSAA режимах сжимаются как данные о цвете, так и о глубине, и в оптимальном случае коэффициент сжатия приближается к числу MSAA сэмплов, т.е. в режиме MSAA 6х достигает 6:1.

В отличие от NV40, использующей RGMS (повернутую сетку отсчетов), R420, как и все чипы семейства R3XX, поддерживает псевдостохастические паттерны MSAA на базовой сетке 8х8. В итоге, качество сглаживания краев и наклонных линий при максимальных уровнях объективно выше. В новых драйверах доступен т.е. Temporal AA - временной АА. Суть его в простом изменении паттернов от кадра к кадру. Таким образом, если картинка соседних кадров будет без заметного мерцания усредняться нашим глазом или инертным ЖК монитором, то мы получим некоторое улучшение качества сглаживания, словно мы использовали больше отчетов MSAA. Производительность при этом не падает, но и эффект может проявляться по разному, в зависимости от монитора и частоты смены кадров в приложении.

Технологические новшества R420

Два основных новшества R4XX по сравнению с R3XX, помимо увеличения числа временных регистров и длины шейдера в пиксельном процессоре, которые мы причисляем к эволюционному развитию:

  1. Новый алгоритм F-буфера, позволяющий не вычислять тот или иной проход разбитого на части пиксельного шейдера для тех пикселей, которые в этом не нуждаются. Способен заметно оптимизировать производительность пиксельных шейдеров с условиями и ветвлениями в OpenGL, исполняемых в несколько проходов с помощью F-буфера.
  2. Новый метод компрессии текстур 3Dc, специально предназначенный для сжатия двухкомпонентных карт нормалей. Традиционные методы компрессии текстур рассчитаны на обычные текстуры - сжатие с потерями учитывает особенности нашего зрения в восприятии изображений. Однако они не подходят для сжатия карт нормалей - по сути, таблиц векторов.

Подробности: RV410, серия RADEON X700

Спецификации RV410
  • Кодовое имя чипа RV410
  • Технология 110 нм (TMSC, low-k, медные соединения)
  • 120 миллионов транзисторов
  • FС корпус (перевернутый чип, без металлической крышки)
  • 128 бит интерфейс памяти (двухканальный контроллер)
  • До 256 мегабайт DDR/DDR2/GDDR3 памяти
  • Встроенный PCI-Express x16 шинный интерфейс
  • 8 Пиксельных процессоров, по одному текстурному блоку на каждом
  • 6 Вершинных процессоров
  • Вычисление, блендинг и запись до 8 полных (цвет, глубина, буфер шаблонов) пикселей за такт
  • Вычисление и запись до 16 значений глубины и буфера шаблонов за такт
  • MSAA 2x/4x/6х, с гибко программируемыми паттернами отсчетов. Сжатие буфера кадра и буфера глубины в MSAA режимах. Возможность менять MSAA паттерны от кадра к кадру (Temporal AA)
  • Анизотропная фильтрация степени до 16х включительно
  • Все необходимое для поддержки пиксельных и вершинных шейдеров версии 2.0
  • Дополнительные возможности пиксельных шейдеров на основе расширенной версии 2.0 - 2.0.b
  • Новая техника сжатия текстур, оптимизированная для сжатия двухкомпонентных карт нормалей (т.н. 3Dc, степень сжатия 4:1)
  • Поддерживается рендеринг в буфера плавающего формата, с точностью FP16 и FP32 на компоненту, возможность блендинга отсутствует
  • Поддерживаются трехмерные и FP (плавающие) форматы текстур, без текстурной фильтрации
  • Поддержка «двустороннего» буфера шаблонов
  • MRT (Multiple Render Targets — рендеринг в несколько буферов)
  • 2 x RAMDAC 400 МГц
  • 2 x DVI интерфейса
  • TV-Out и TV-In интерфейс (для последнего требуется интерфейсный чип)
  • Возможность программируемой обработки видео - пиксельные процессоры задействуются для обработки видео потока (задачи компрессии, декомпрессии и постобработки)
  • 2D ускоритель с поддержкой всех функций GDI+
Спецификации референсной карты RADEON X700XT
  • Частота ядра 475 МГц
  • Эффективная частота памяти 1.05 ГГц (2*525 МГц)
  • Шина памяти 128 бит
  • Тип памяти GDDR3
  • Объем памяти 128 или 256 мегабайт
  • Пропускная способность памяти 16.8 гигабайт в сек.
  • Теоретическая скорость закраски 3.8 гигапикселя в сек.
  • Теоретическая скорость выборки текстур 3.8 гигатекселя в сек.
  • Один VGA (D-Sub) и один DVI-I разъем
  • TV-Out
  • Потребляет менее 70 Ватт энергии (т.е. на PCI-Express карте разъем для дополнительного питания не нужен, рекомендован источник питания суммарной мощностью 300 или более Ватт)

Как видно, особые архитектурные отличия от R420 отсутствуют, что не удивительно - RV410 является масштабированным (путем уменьшения числа пиксельных процессоров и каналов контроллера памяти) решением, основанным на архитектуре R420. Ситуация такая же, как и у пары NV40/NV43, в этом поколении принципы построения архитектуры обоих конкурентов весьма схожи. Что же касается отличий RV410 и R420 - то они количественные (на схеме выделены жирным), а не качественные, с точки зрения архитектуры чип практически не изменился.

Итак, в наличии шесть (как и у R420, что может быть полезно для некоторых приложений, упирающихся в геометрическую производительность) вершинных процессоров, и два (у R420 их четыре) независимых пиксельных процессора, каждый из которых работает с одним квадом (фрагментом 2х2 пикселя). Как и в случае с NV43, PCI-Express является «родным» (реализованным на чипе) шинным интерфейсом, а AGP 8х платы содержат дополнительный мост PCI-E -> AGP (показан на схеме).

Архитектура вершинных и пиксельных процессоров, а также видеопроцессора осталась прежней - эти элементы детально описаны в обзоре RADEON X800 XT. А теперь поговорим о потенциальных тактических соображениях о том, что и почему было урезано. Вершинные и пиксельные процессоры RV410, судя по всему, остались неизменными, а вот внутренние кэши могли быть уменьшены, как минимум пропорционально числу конвейеров. Впрочем, число транзисторов не дает особых поводов для беспокойства - учитывая не столь большие размеры кэшей было бы разумнее оставить (так же как и в случае NV43, скомпенсировав тем самым заметную нехватку пропускной полосы памяти). Все технологии экономии ПСП были полностью сохранены - сжатие буфера глубины и буфера кадров, ранее отсечение с иерархическим буфером глубины и т.д.

Интересно, что в отличие от NV43, который может делать блендинг, записывая не более четырех результирующих пикселей за такт, пиксельные конвейеры RV410 полностью соответствуют R420 в этом плане. Соответственно, в случае простых шейдеров с одной текстурой RV410 должен получить почти двукратное преимущество в скорости закраски. В отличие от NVIDIA, имеющей крупный по транзисторам массив ALU, осуществляющих постобработку, проверку, генерацию Z и блендинг пикселей в плавающем формате, RV410 имеет более скромные комбинаторы и поэтому их число не было так урезано. Впрочем, в большинстве практических случаев уменьшенная полоса памяти все равно не позволит записать 3.8 полных гигапикселя в секунду.

Не менее интересно решение оставить все шесть активных вершинных блоков. С одной стороны это сильный аргумент для DCC приложений, а с другой - мы знаем что там многое зависит от драйверов для OpenGL, традиционно сильной стороны NVIDIA.

Справочная информация о семействе видеокарт Radeon XСправочная информация о семействе видеокарт Radeon X1000Справочная информация о семействе видеокарт Radeon HD 2000Справочная информация о семействе видеокарт Radeon HD 4000Справочная информация о семействе видеокарт Radeon HD 5000Справочная информация о семействе видеокарт Radeon HD 6000Справочная информация о семействе видеокарт Radeon HD 7000Справочная информация о семействе видеокарт Radeon 200Справочная информация о семействе видеокарт Radeon 300

www.ixbt.com


Смотрите также