Nvidia: "Доходы, связанные с Сингапуром, не указывают на перенаправление в Китай"

    • 31 января 2025, 17:57
    • |
    • Moris
  • Еще

Трамп встречается сегодня с генеральным директором NVIDIA Дженсеном Хуангом в Белом Доме, а затем обсуждает экспортный контроль.

О Nvidia распространяется по рынку множество дезинформации, включая вопросы о Сингапуре и китайцах. NVIDIA вчера опубликовала заявление:«Доходы, связанные с Сингапуром, не указывают на перенаправление в Китай. В наших публичных документах указано, что счет выставляется “bill to” not “ship to” locations of our customers.  Многие из наших клиентов имеют предприятия в Сингапуре и используют их для продажи продукции, предназначенной для США и западных стран. Мы настаиваем на том, чтобы наши партнеры соблюдали все применимые законы, и если мы получим какую-либо информацию об обратном, действуйте соответственно», — представитель NVIDIA.

Трудно отделаться от мысли, что после распространения информации о DeepSeek и обвале на этой новости в понедельник акций NVIDIA на 17%, так называемый «ров», защищающий ее доминирование и конкурентное преимущество на мировом рынке, исчезли. «Американские горки» акций NVIDIA продолжились во вторник ростом на 9%, а в среду и четверг падением на 6% и 3% соответственно. Сегодня снижение продолжается.



( Читать дальше )
  • обсудить на форуме:
  • NVIDIA

Модель ИИ «Qwen» от Alibaba раздавила DeepSeek как муху по своим возможностям.

    • 30 января 2025, 21:32
    • |
    • Moris
  • Еще

Еще одна сенсация потрясла фондовый рынок вслед за сенсационной моделью DeepSeek, которая обвалила компанию NVDA и уничтожила ее неоспоримое конкурентное преимущество перед другими производителями чипов.

Alibaba в ответ на DeepSeek запустила «Qwen» — модель искусственного интеллекта, которая пишет, генерирует изображения/видео и выполняет поиск в Интернете. Qwen превосходит по своим возможностям DeepSeek, ChatGPT-o1 и Claude sonnet.

Вот 5 примеров того, на что Qwen способен:

1. Написать код и использовать артефакты для его тестирования. Qwen не просто генерит код, он может запускать его, отлаживать и использовать артефакты для тестирования в реальном времени.
2. Генерировать изображения с предельной точностью. Забудьте об общем искусстве искусственного интеллекта. Квен может создавать очень подробные изображения, следующие инструкциям, которые могут конкурировать с генераторами искусственного интеллекта высшего уровня. Уровень точности просто сумасшедший.



( Читать дальше )

DeepSeek, по сути взломал один из святых Граалей ИИ

    • 27 января 2025, 19:31
    • |
    • Moris
  • Еще

Эксперимент DeepSeek-R1-Zero показал нечто замечательное: используя чистое обучение с подкреплением с тщательно продуманными функциями вознаграждения, им удалось заставить модели развивать сложные способности рассуждения полностью автономно. Речь шла не только о решении проблем — модель органически научилась генерировать длинные цепочки мыслей, самостоятельно проверять свою работу и выделять больше вычислительного времени для более сложных задач.

Техническим прорывом здесь стал их новый подход к моделированию вознаграждения. Вместо того чтобы использовать сложные нейронные модели вознаграждения, которые могут привести к «взлому вознаграждения» (когда модель находит фиктивные способы увеличить свои вознаграждения, которые на самом деле не приводят к лучшей производительности модели в реальном мире), они разработали умную систему на основе правил, которая сочетает вознаграждения за точность (проверку окончательных ответов) с вознаграждениями за формат (поощрение структурированного мышления). Этот более простой подход оказался более надежным и масштабируемым, чем модели вознаграждения на основе процесса, которые пробовали другие.



( Читать дальше )

Китайский стартап в области искусственного интеллекта DeepSeek выпустил DeepSeek-V3 — модель LLM с открытым исходным кодом, которая по производительности не уступает ведущим американским моделям.

    • 26 января 2025, 23:41
    • |
    • Moris
  • Еще

Китайский стартап в области искусственного интеллекта DeepSeek выпустил DeepSeek-V3 — модель LLM с открытым исходным кодом, которая по производительности не уступает ведущим американским моделям, но требует гораздо меньших затрат на обучение. Большая языковая модель использует архитектуру со смешанным набором экспертов и 671 млрд параметров, из которых только 37 млрд активируются для каждой задачи. Такая избирательная активация параметров позволяет модели обрабатывать информацию со скоростью 60 токенов в секунду, что в три раза быстрее, чем в предыдущих версиях. В тестах производительности DeepSeek-V3 превосходит Meta Llama 3.1 и другие модели с открытым исходным кодом, соответствует или превосходит GPT-4o в большинстве тестов и демонстрирует особую эффективность в задачах по китайскому языку и математике. Только Claude 3.5 Sonnet от Anthropic стабильно превосходит его при выполнении некоторых специализированных задач. Компания сообщает, что потратила 5,57 млн ​​долларов на обучение с помощью аппаратной и алгоритмической оптимизации, по сравнению с оценочной суммой в 500 млн долларов, потраченной на обучение Llama-3.1.



( Читать дальше )

теги блога Moris

....все тэги



UPDONW
Новый дизайн