Расчет на видеокарте, помогите с картой

28 ноября 2016, 22:31
Ответить

bstone, мне нужны твердые гарантии, пощупать хочу.

28 ноября 2016, 22:33
Ответить

Счастливый Конец, это твердая гарантия, т.к. программа «поработает 2 секунды». Ну а если шутки в сторону, то могу запустить на gtx 1060. Это близко к 1080, ядер чуть меньше и шина урезана, но для вычислительных задач она где-то на 15% отстает от 1080 всего. Относительно gtx 580 прирост в 2-3 раза возможен легко.

28 ноября 2016, 22:53
Ответить

bstone, gtx 1060. Это близко к 1080,

раза в 4 медленней )

Dmitry 500% Sheptalin

28 ноября 2016, 23:16
Ответить

Scanz, я не зря сказал «для вычислительных задач».

28 ноября 2016, 23:34
Ответить

Счастливый Конец, 1080 в нейросетках в разы рвет все остальные карты. Надо брать, чего тут думать. Ценник 45 тыр.
market.yandex.ru/catalog/55314/list?srnum=15128&hid=91031&text=geforce%20gtx%201080&glfilter=2142604855%3A1834797964&deliveryincluded=0&onstock=0&how=aprice

Если нужно считать именно даблы то лучше будет титан без х.
В вики все расписано
en.wikipedia.org/wiki/GeForce_10_series

Алексей Никитин

29 ноября 2016, 07:43
Ответить

Счастливый Конец, " ученый из меня не вышел "
попробуй в администрацию президента пойти… там как раз наоборот люди в " ученые " ушли… )))

Drozdov.S

29 ноября 2016, 08:30
Ответить

Скажем, зионы это обычные процы, дополненные набором серверных инструкций и опциями энергопотребления. На домашнем у меня стоит зион на обычной матери.

В зависимости от задачи еще надо выбирать между AMD и Nvidia. Например, биткоины майнили только на АМД, поскольку они намного быстрее выполняли расчет хешей.

Если вы не определились с железом, то посмотрите в сторону облачных вычислений — можно напрокат взять столько, сколько нужно на любое время.

Погоняйте бесплатно https://aws.amazon.com/ru/free/?sc_ichannel=ha&sc_icampaign=free-tier&sc_icontent=2234

28 ноября 2016, 22:38
Ответить

Гденьги ☭, я уже определился с железом, т.к. пишу сам на CUDA. А CUDA это NVIDIA, вопрос только в том, будет ли GTX 1080 сильно быстрее или прирост несущественный. Т.к. частоты GTX580 и GTX 1080 примерно одинаковы, но в GTX 1080 память быстрее по частоте, хотя шина всего 256-бит (у GTX 580 она 384-бит). Мне нужно сравнение. Облако не хочу.

28 ноября 2016, 22:47
Ответить

Счастливый Конец, так шина вам может вовсе не понадобиться. По-крайней мере, при майнинге шина была полностью не востребована, вам же не текстуры гонять.

Тупо сравнивая, прирост в 4 раза
gpu.userbenchmark.com/Compare/Nvidia-GTX-1080-vs-Nvidia-GTX-580/3603vs3150

28 ноября 2016, 22:57
Ответить

Гденьги ☭, у меня не майнинг. Там может данных с гулькин нос, и они все уложатся в shared memory, а у меня обмен с памятью идет и чем он лучше, тем быстрее.

28 ноября 2016, 23:16
Ответить

Счастливый Конец, CUDA-Performance
http://www.tomshardware.de/geforce-gtx-780-performance-review,testberichte-241287-26.html

Scorpio

28 ноября 2016, 22:59
Ответить

Scorpio, мне по любому пощупать надо. У меня double вычисления, а видеокарты обычно с float работают, а тех ядер что с double, их меньше. У меня на float ошибка накапливается, отказался.

28 ноября 2016, 23:08
Ответить

Давайте запущу на своей GTX780.
Раньше тоже баловался распараллеливанием оптимизации на Матлабе — действительно работает, но грааль так и не откопал)

andrey o

28 ноября 2016, 22:51
Ответить

Андрей Осипов, так 780 не интересует… у меня еще вторая есть, GT 730, результат хуже чем у GTX 580, но это и понятно, там и частота хуже и память. Конечно 780 порвет 580, но мне 1080 хочется.

28 ноября 2016, 22:55
Ответить

Счастливый Конец,

но мне 1080 хочется.

Вот с этого и надо было начинать :) Желания нужно удовлетворять.

28 ноября 2016, 23:05
Ответить

TT, да я бы удовлетворил, если бы оно того стоило. А так я в игры не играю, и если 1080 будет не сильно лучше — то считай, деньги впустую ушли.Вообще в игры не играю (проблемы со зрением).

28 ноября 2016, 23:20
Ответить

Счастливый Конец,

Вообще в игры не играю (проблемы со зрением)

Прошу прощения.

28 ноября 2016, 23:27
Ответить

Ну если банально по ядрам сравнивать, то 2560 ядер CUDA в 1080 GTX против 512 в 580ой. Плюс обновлённая архитектура, CUDA 8.0 и прочие ништяки архитектуры, повышающие скорость в расчёте на ядро и уменьшающие время простоя. Так что эффект будет. И будет, имхо, в разы, т.к. матричные вычисления на CUDA архитектуру отлично ложатся.

28 ноября 2016, 22:55
Ответить

Брутфорс грааля…

28 ноября 2016, 23:03
Ответить

TT, его сатоши до нас сбрутфорсил уже.

28 ноября 2016, 23:05
Ответить

Могу проверить на 1080.

Ludomanus Vulgaris

28 ноября 2016, 23:09
Ответить

тут вопрос не в видеокартах, а прежде всего в алгоритмах. у вас есть алгоритмы, которые бы 1) давали реально хорошие результаты, причем на будущем, а не на прошлом 2) жутко тормозили 3) допускали бы эффективное переписывание на GPGPU.

если да (честно да) на все три вопроса — то GTX 1080 стоит копейки по сравнению с тем, что дает первый пункт ;)

у меня только одна тема ушла на GPGPU, основная масса всего крутится на обычном кластере.

Vitty

28 ноября 2016, 23:11
Ответить

прога на винде? у меня есть квадры K5000, но только на маке

Yaroslav

28 ноября 2016, 23:15
Ответить

Yaroslav, да, windows, еще и GUI на .Net

28 ноября 2016, 23:26
Ответить

Счастливый Конец, кстати, какой враппер .NET для CUDA юзаешь?

28 ноября 2016, 23:28
Ответить

Пользуясь случаем — продам 2 HD7990 на воде =)

FrBr

28 ноября 2016, 23:17
Ответить

FrBr, почем? ;)

Vitty

28 ноября 2016, 23:19
Ответить

Vitty, 45 за комплект

FrBr

29 ноября 2016, 10:21
Ответить

Кстати, если много матричных операций, SVD, Холецкого, калмановская фильтрация и т.п., то возникает вопрос в том, что лучше использовать OpenCL + Radeon для двойной точности, чем 1080 и одинарку.

28 ноября 2016, 23:27
Ответить

Оракул, потому что внимательно читали, что написал ТС в отличие от…

habrahabr.ru/post/314296/

28 ноября 2016, 23:43
Ответить

Хм. Неужели алготрейдеры уже конкурируют на скорости вычисления матриц??

Roman Ivanov

29 ноября 2016, 00:09
Ответить

ivanovr, получается да =)) или решили «повыпендриваться» друг перед другом =)) программисты любят это дело

Андрей К

29 ноября 2016, 00:14
Ответить

В данной работе рассмотрена аппаратная реализация расчета деполимеризации белковой микротрубочки методом броуновской динамики на кристалле программируемой логической интегральной схемы (FPGA) Xilinx Virtex-7 с использованием высокоуровневого транслятора с языка Си Vivado HLS.

Aleksey Smirnoff

29 ноября 2016, 00:50
Ответить

Aleksey Smirnoff, ух шайтан, как круто.

Полистал статью, понял, что для меня это уже магия, а не наука.

29 ноября 2016, 13:07
Ответить

Ребята, в очередной раз убеждаюсь, что самые продвинутые люди во всех отношениях — среди трейдеров.
Впервые нарвался на пост, где некомпетентен во всем, хотя обладаю нехилым кругозором и навыками)))

Деполимеризация белковых микротрубок… мда
Да еще так хитро, через ресурсы видео-карты на CUDA.

А любой виндовский процесс можно распоточить и послать в видюху на обсчет?
Это сложно?

Йоганн

29 ноября 2016, 03:11
Ответить

Йоганн, нет конечно. и да, это сложно. некоторые алгоритмы вообще никак, некоторые с большими трудностями, некоторые легко. ну нейронные сетки например хорошо ложатся.

Vitty

29 ноября 2016, 10:29
Ответить

Йоганн, в статье трубки не на CUDA предлагают считать, а на программируемой логике.

Как я понял, железо адаптируется под нужды, а не наоборот.
Естественно, от этого выигрыш в эффективности.

И комментарии там весьма позновательны.

То есть производительность одной GTX 1080 примерно равна производительности одной FPGA. Кластер 512 ASICов производительней на 3 порядка. То есть один ASIC примерно равен по производительности одному GPU, но ASIC масштабируются «в лоб» намного лучше чем GPU. То есть можно взять 512 ASIC и получить производительность в 512 раз выше (в рамках одной симуляции), больше 512, вроде не получится уже. Производительность GPU масштабируется «в лоб» максимум раза в 2-4 ещё на данный момент

29 ноября 2016, 13:48
Ответить

а матричные операции на CPU своей программой исполняли?
или брали что-то по-настоящему быстрое типа BLAS?
я в своё время BLAS приспособил для обсчёта нейросетей и успокоился, мне хватило. правда потом я и нейросети практически забросил. тем более что они у меня были простенькие уж слишком.

нагуглил вот чувачок сравнивает перемножение матриц (dgemm)
devtalk.nvidia.com/default/topic/484564/cpu-gpu-dgemm/
CPU vs CPU + GPU
прирост получается в два раза. я бы сказал всего в два. т.е. не прям чтобы ах для пакетных операций, хотя для онлайна существенно.
я просто свой сервер за 30 тыс ₽ в 14 году собрал i7-4770K, без видеокарты. а тут предлагают за 45 видеокарту купить, интересно для каких случаев оно того стоит.

29 ноября 2016, 09:01
Ответить

ПBМ, ну, сравнение на 460 с 336 ядрами, бородатом SDK и медленной видеопамяти. Плюс надо заметить, что GeForce ну не очень заточена на двойную точность в CUDA. Фигли, они за это на Тесле капустку рубят. Так что корректно было бы сравнить, н-р, какой-нибудь самый шустрый из Intel'ов (н-р, какой-нибудь 10-тиядерный десктопный broadwell) и 1080 GTX. Использовать, соответственно, заточенные под Intel'овскую архитектуру и nVidia архитектуру BLAS'ы, благо, такие есть. Думаю, даже с учётом SSEx и прочих векторных плюшек на Интеллах сравнение будет разниться в десятки раз (для одинарной точности). А на теслах — так и для двойной.
А хотите за адекватные деньги быстрый GPGPU с двойной точностью — велкам в мир радеонов, как говорится, и OpenCL.

29 ноября 2016, 10:49
Ответить

ПBМ, да, своей программой считал. Хотел проверить насколько это выгоднее, считать на GPU. Оказалось в 50-100 раз быстрее, не везде конечно. Но все равно впечатляет.

29 ноября 2016, 12:44
Ответить

Счастливый Конец, ну 100 раз это конечно круто.
а попробуйте ради интереса через ATLAS матрицы погонять, сколько будет?
тут вот http://mikiobraun.github.io/jblas/ товарищ показывает разницу в 10-15 раз с обычной программой. это конечно не 100..:(

29 ноября 2016, 14:52
Ответить

попробуйте в облаке, в азуре (правда там Теслы) сначала и ту и другую карту, увидите динамику, экстраполируете, и прикинете что и как.

AlexeyTikhonov

29 ноября 2016, 09:15
Ответить

AlexeyT, да у меня не такие мощные запросы :) мне хватит и одной железки в комп, к тому же она не так уж и дорогая. Присмотрел https://market.yandex.ru/product/13932333/offers?hid=91031&track=tabs&how=aprice
всего 48тр где то (±)

29 ноября 2016, 12:42
Ответить

Счастливый Конец, ну не знаю,
перед тратой денег, лучше вообще понимать, есть ли выгода

AlexeyTikhonov

29 ноября 2016, 12:53
Ответить

Счастливый Конец, на киберпонедельник (вторник) можно поискать на амазоне за копейки.

slickdeals.net/forums/forumdisplay.php?f=9

29 ноября 2016, 14:03
Ответить

-1

CUDA не поддерживает параллельные расчёты, поэтому видеокарты профи не используют.
Не парьтесь зря потратите время.

DIVER PROFIT

29 ноября 2016, 09:16
Ответить

OilтрейдиOil, интересно стало. А зачет тогда столько ядер туда придумали?

Андрей К

29 ноября 2016, 09:30
Ответить

OilтрейдиOil, странно, а NVIDIA говорит что CUDA - это архитектура параллельных вычислений от NVIDIA. кому из вас верить?

29 ноября 2016, 09:33
Ответить

ПBМ, в интернете у одной из академий есть семинар одного известного кванта года так 2012 — 2013. Он там рассказывает про параллельные вычисления. Из плюсов — ядер много, из минусов — частота по сравнению с cpu никакая.

Андрей К

29 ноября 2016, 09:36
Ответить

Андрей К, я подробно не лазал, но наверняка и кэш у проца побольше.
но всё-таки увеличение скорости в два раза при использовании GPU это круто. я просто хотел показать, что даже на CPU если взять хорошую матричную библиотеку, желательно оптимизированную под именно этот CPU (а у меня даже не было такой) — то будет уже очень круто.

29 ноября 2016, 09:53
Ответить

ПBМ, https://software.intel.com/en-us/intel-mkl не подходит? Да, если задача связана с перемножением матриц малых размерностей, то тут CUDA — выстрел по воробьям из пушки. Крайне неэффективно будет, чем, например, расчёт на том же Intel'е с использованием всех его особенностей.
Да, там интел свою многоядерную плюшку запустил подобного толка. Интересно, кто-нибудь сравнивал производительность их решений с nVidia и Ati в отношении больших, средних и малых матриц, например?

29 ноября 2016, 10:50
Ответить

Бобровский Дмитрий, у меня интел что-то не пошел. т.е. вообще не почуствовал от него никакого профита.
я пользовался atlas/lapack через обёртку для java http://mikiobraun.github.io/jblas/
получилось очень быстро. притом что там оптимизация только для 32bit по-моему. если собрать нормально ATLAS для i7 то наверное летать будет ещё быстрее.

кстати на новом уровне знаний, я теперь думаю что можно попробовать это сделать, довольно быстро с помощью docker&windows. а то возиться раньше было не охота.

29 ноября 2016, 14:43
Ответить

ПBМ, https://software.intel.com/en-us/intel-mkl/details Ну, тут показано преимущество оптимизированной под архитектуру библиотеки. Там порядки расхождения поражают, если честно.

29 ноября 2016, 17:55
Ответить

Бобровский Дмитрий, мб я с потоками что-то не подшаманил. делал на mkl прмерчик и мне не понравилось просто, бросил
gcdart.blogspot.ru/2013/06/fast-matrix-multiply-and-ml.html
разница вроде не драматичная как интел показывает (тесты старые, не важно)

29 ноября 2016, 20:30
Ответить

Андрей К, так CUDA под другое заточено. Основная идея в SIMD. И в куче мух, которые запинывают слона.

29 ноября 2016, 10:53
Ответить

Андрей К, универсальный проц и специализированный шейдер — их некорректно сравнивать.

29 ноября 2016, 14:05
Ответить

OilтрейдиOil, блин… чтоже делать то? я уже написал программу считающую паралельно на видеокарте… а оказывается так нельзя :(

29 ноября 2016, 12:40
Ответить

Счастливый Конец, слух, а на чём писал конкретно, если не секрет? У меня просто вариант R+CUDA напрямую враппить, но хз что по скорости, второй вариант — RCpp+dll'ка толковая под GPGPU.

30 ноября 2016, 10:26
Ответить

Бобровский Дмитрий, все в VS2015, Cuda 8.0 (SDK). GUI на C#, который дергает мою VC DLL через
[DllImport(«mycuda64.dll»)]
publicstaticexternint GetDeviceCount();

в DLL передаются массивы, которые обсчитываются на CUDA и обратно. Можно и через Managed Cuda сделать взаимодействие с ядром CUDA.

30 ноября 2016, 10:45
Ответить

Счастливый Конец, неплохо так. Я, правда, всё больше и больше смотрю в сторону OpenCL, но видимо пока что части своего кода начну переносить на CUDA. Кстати, есть на примете хорошая GPGPU библиотека для MLE? Ну, или где толковая реализация расписана оных под GPGPU?

30 ноября 2016, 12:19
Ответить

Бобровский Дмитрий, нет, специально не искал

30 ноября 2016, 15:48
Ответить

Знакомый майнер: «Пусть покупает 1070 и херней не страдает»

Григорий

29 ноября 2016, 09:45
Ответить

Григорий, 1070 не очень хочется, а разница в цене не так уж велика.
пока склоняюсь к вот такой карте https://market.yandex.ru/product/13932333/offers?hid=91031&track=tabs&how=aprice

и частота ядра прилична 1750, и памяти 10500 по сравнению с другими 1080

29 ноября 2016, 12:38
Ответить

Счастливый Конец, из дворца сообщают:

1070 в 1,5 дешевле 1080 и примерно на 1/8 слабее. А кое в чем сильнее в разы

Палит воняет и горит )))

Брать гигу, Асус, Мси.

Если для него 30 и 50 тысяч — одно и то же, пусть берет 1080.

Григорий

29 ноября 2016, 18:41
Ответить

Григорий, а что за дворец? спорта? культуры? или сервис-центра? Так все новое воняет пластиком.
Как вариант рассматриваю также вот этот гигабайт https://market.yandex.ru/product/14115896/offers?hid=91031&track=tabs&deliveryincluded=1&cpa=real&how=aprice

и частота памяти (10400) и ядра (1780) отличные. Цена только не очень… 54тр.
Мы тут уже проверили GTX 1060, по факту оказалось медленнее чем старенькая GTX 580.
Медленнее конкретно в моем случае, а он и есть критерий.