На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Business FM

65 768 подписчиков

Свежие комментарии

  • Boris Merfi
    замов задерживают то в одном ведомстве, то в другом, а все руководители сама честность. про рыжего вся страна уже лет...В Москве задержал...
  • Фаина Юсупова
    Вот не хочется ругаться,но не ужели кто-то верит что это сделали русские или китайские корабли?Только могут семи сдел...Швеция арестовала...
  • Evgeni Velesik
    Как?В России могут по...

ChatGPT, Qwen или Alibaba: какая нейросеть лучше?

Бесплатный DeepSeek обещает уровень платного флагмана OpenAI, а Alibaba утверждает, что ее новый Qwen обогнал и того, и другого. «Бизнес FM» пообщалась с претендентами на лидерство в мире ИИ

На этапе выхода своих последних моделей все разработчики называли их лидерами по результатам если не всех, то многих стандартизированных тестов.

Для наглядности «Бизнес FM» попросила нашумевший DeepSeek, свежий Qwen от Alibaba и эталонный ChatGPT ответить на вопрос о том, что такое «дистилляция ИИ». По версии властей США, с помощью нее китайские разработчики DeepSeek могли паразитировать на продуктах OpenAI и экономить деньги.

Первой выступит нейросеть от OpenAI:

«Дистилляция модели ИИ — это метод оптимизации нейросетей, при котором большая, мощная модель (учитель) передает знания уменьшенной модели (ученику), сохраняя при этом высокую точность. Вместо обучения с нуля ученик обучается на предсказаниях учителя, включая вероятностное распределение классов (soft labels), что помогает ему лучше понимать сложные зависимости. Это позволяет создавать компактные, быстрые и менее ресурсоемкие модели, которые подходят для мобильных устройств, встроенных систем и облачных сервисов с ограниченными вычислительными возможностями. Дистилляция широко применяется в обработке изображений, речи и текста, улучшая производительность моделей без значительной потери качества».

Флагман OpenAI, модель o1, доступна только по платной подписке, поэтому для чистоты эксперимента с точки зрения пользователя «Бизнес FM» использовала старшую из бесплатных версий ChatGPT.

Китайский DeepSeek утверждает, что его продукт был создан буквально за несколько месяцев и за микроскопические деньги, но не уступает даже o1. Вот его ответ:

«Дистилляция ИИ — метод сжатия большой модели (учитель) в компактную (ученик): ученик обучается на вероятностных выходах учителя (а не на жестких метках), сохраняя точность при меньшем размере. Это ускоряет вывод, снижает потребление памяти и энергии, позволяя внедрять ИИ на слабые устройства (смартфоны, интернет вещей). Примеры — уменьшенные версии BERT или GPT, близкие к оригиналам по качеству, но эффективнее. Плюсы: экономия ресурсов, доступность для умных устройств. Минусы: малая потеря точности, время на обучение. Итог: мощный ИИ становится практичным с минимальными компромиссами».

Alibaba ворвался на рынок ИИ в китайский Новый год, который пришелся на 29 января. Ретейл-гигант утверждает, что последняя версия его модели Qwen обходит всех конкурентов, но обвала, сравнимого с реакцией на DeepSeek, на биржах не произошло.

«Дистилляция модели ИИ — это метод обучения, при котором знания из большой сложной модели (учителя) передаются в более компактную модель (ученика), чтобы сделать ее быстрее и эффективнее при сохранении высокой точности. Вместо использования исходных меток данных «ученик» обучается на основе выходов «учителя», например его вероятностных предсказаний, что позволяет маленькой модели имитировать поведение мощной системы с меньшими вычислительными затратами. Этот подход широко применяется для оптимизации производительности, снижения затрат на развертывание и создания легковесных версий моделей, таких как DistilBERT или мобильные версии сверточных сетей, сохраняя при этом качество работы».

В итоге ответы всех моделей получились в общем и целом понятными и разумными, хотя, на личный взгляд автора, у DeepSeek получилось уместить в ограниченные 80 слов немного больше нюансов и подробностей. Обе китайские нейросети доступны для пользователей в России, хотя DeepSeek пока немного подвисает, ссылаясь на количество запросов. ChatGPT и ряд других западных моделей в России не работают, хотя доступны через VPN.

 

Ссылка на первоисточник
наверх