Идя стопами первопроходцев из "Multi-Threading под DOS: исследовательская работа №3"(icbook?)
методом "научного тыка" выяснил, что ядро i7/HM77(HM56) может неплохо "грузить" PCIe шину.
Критическим местом является наличие кеша (т.е. когда его много), тогда ядро на 1.9/2.3GHz
вываливает на шину до 2.1Gbit/s, от простенького Целерончика можно добиться 0.5Gbit/s,
в качестве "приемника полезной загрузки" выступала видеоката.
Если взять 8 ядер (под ДОСом), кинуть их на "рисование" каждым своего куска на мониторе имеем общую нагрузку ~15Gbit/s, что больше х8 (Gen1)!!
Включая/выключая ядра неплохо просматриваются "узкие места", при использовании адаптеров х1/х16, х4/х16 и х8/х16 с видеокартой (превращающих х16 в х1/х4/х8).
Как получается подобный трафик? Каждая посылка двойного слова по шине тащит за собой 20 байт окружения (заголовки пакетов /чексуммы и пр.) !!, причем в кодировке 8/10 т.е. посылая 4 байта - уходит 24(240бит), рисование используя MMX/SSE2 дает слабый выигрыш 8->28, 16->32. Кстати не после каждого БИОСа SSE2 включен на всех ядрах (хотя и поддерживается )
Тестировал на нескольких видеокартах, хорошие держат всю нагрузку(13Gbit/s), старые/слабые - несмотря на х16 форм-фактор реально имееют х3/х4. Понятное дело что видеовартам было бы "приятнее" принимать данные не попиксельно , а блоками , но это уже история не с CPU.
Идя стопами первопроходцев из "Multi-Threading под DOS: исследовательская работа №3"(icbook?)
методом "научного тыка" выяснил, что ядро i7/HM77(HM56) может неплохо "грузить" PCIe шину.
Критическим местом является наличие кеша (т.е. когда его много), тогда ядро на 1.9/2.3GHz
вываливает на шину до 2.1Gbit/s, от простенького Целерончика можно добиться 0.5Gbit/s,
в качестве "приемника полезной загрузки" выступала видеоката.
Если взять 8 ядер (под ДОСом), кинуть их на "рисование" каждым своего куска на мониторе имеем общую нагрузку ~15Gbit/s, что больше х8 (Gen1)!!
Включая/выключая ядра неплохо просматриваются "узкие места", при использовании адаптеров х1/х16, х4/х16 и х8/х16 с видеокартой (превращающих х16 в х1/х4/х8).
Как получается подобный трафик? Каждая посылка двойного слова по шине тащит за собой 20 байт окружения (заголовки пакетов /чексуммы и пр.) !!, причем в кодировке 8/10 т.е. посылая 4 байта - уходит 24(240бит), рисование используя MMX/SSE2 дает слабый выигрыш 8->28, 16->32. Кстати не после каждого БИОСа SSE2 включен на всех ядрах (хотя и поддерживается )
Тестировал на нескольких видеокартах, хорошие держат всю нагрузку(13Gbit/s), старые/слабые - несмотря на х16 форм-фактор реально имееют х3/х4. Понятное дело что видеовартам было бы "приятнее" принимать данные не попиксельно , а блоками , но это уже история не с CPU.
как-то так