Прогресс

DeepSeek обвинили в «дистилляции», а Alibaba претендует на титул лидера рынка ИИ

Власти США заявили о признаках того, что китайская нейросеть DeepSeek училась не самостоятельно, а через «дистилляцию» продуктов OpenAI. Одновременно китайский гигант Alibaba объявил о выходе новой версии своей модели Qwen, назвав ее почти во всем превосходящей лучших конкурентов

Обвинения в отношении DeepSeek, которая в начале недели обрушила акции Nvidia и технологические индексы западного мира, озвучил спецпредставитель Дональда Трампа по искусственному интеллекту.

Новости СМИ2

По словам Дэвида Сакса, есть «существенные доказательства» того, что китайская нейросеть обучалась не самостоятельно, а с помощью так называемой «дистилляции».

Подход подразумевает обучение модели не на сырых данных, а с помощью учителя — как утверждается, для DeepSeek им могли стать продукты OpenAI. В теории такой подход позволяет обучать новую модель куда быстрее и дешевле.

Как пишет Bloomberg, Microsoft еще осенью зафиксировал вмешательство в продукты OpenAI, в результате которого неизвестные смогли извлечь большие объемы данных. По версии источников агентства, злоумышленники могли быть связаны с DeepSeek — хотя доказательств этому не приводится.

О «дистиллировании» и состоятельности обвинений говорит главный архитектор систем искусственного интеллекта Исследовательского центра ИИ по направлению «Транспорт и логистика» НИЯУ МИФИ Роман Душкин:

Роман Душкин главный архитектор систем искусственного интеллекта исследовательского центра ИИ по направлению «Транспорт и логистика» НИЯУ МИФИ «Дистилляция» в машинном обучении означает, что мы берем какую-то большую модель, уже обученную, как она называется «предобученная большая модель». И это то, что сделал Open AI, условно говоря. И потом, при помощи этого процесса, который называется «дистилляция», знания из большой модели, уже обученной, переносятся в малую модель. И действительно, это делается намного быстрее, намного проще, не нужно тратить на это огромное количество ресурсов, использовать огромные собранные датасеты и так далее. Прочитав уже большое количество материала на эту тему, уверен почти на 100%, что модель DeepSeek разработана на базе каких-то существующих моделей с использованием трансфера знаний, то есть «дистилляции», с использованием еще каких-нибудь методов, но это не значит, что они плохие дураки, плагиаторы и прочее. Они молодцы. То, что США внезапно начали обвинять Китай в этом, это, знаете, попытка битья по хвостам, потому что по-хорошему, «дистиляция» это то, чем занимаются все. То есть это обычный процесс, когда кто-то кому показывает какую-то модель, и они говорят: «О, мы сейчас из вашей модели в свою модельку знания перетащим какие-то». И, собственно, одна сторона обвиняет другую постфактум, только потому, что у них акции упали, ну это, знаете, как детский сад в песочнице. Да, можно сейчас попытаться притянуть за уши плагиат и заимствования, но что бы там не вычитали американские юристы в своих пользовательских соглашениях, я уверен, что китайцам на это будет глубоко наплевать».

Одновременно на Востоке появился новый претендент на мировое лидерство в ИИ. Как заявил гигант Alibaba, его новая модель Qwen 2.5-Max «почти по всем параметрам» превосходит и DeepSeek, и продукты OpenAI, и флагманские нейросети других западных разработчиков. Reuters отмечает неожиданную дату релиза — в первый день китайского Нового года, который большинство китайцев проводят в кругу родственников. По версии агентства, Alibaba чувствует угрозу со стороны DeepSeek. Свои оценки представляет гендиректор Dbrain и автор телеграм-канала AI Happens Алексей Хахунов:

Алексей Хахунов гендиректор Dbrain и автор телеграм-канала AI Happens «Когда кто-то говорит, что какая-то модель по качеству работает, как OpenAI o1 или гугловские модели Gemini, в полной степени опираться на это нельзя. Но модели семейства Qwen от компании Alibaba на самом деле очень давно есть на рынке, и это действительно лучшие Tier-1 модели open source, которые есть. Поэтому сомнений в том, что это классные модели, нет. Например, мы сами в бизнесе в том числе используем именно модели Qwen. Дата релизов, на самом деле, почти всех моделей обычно завязаны на то, что кто-то из конкурентов выпускает свою модель и дальше все остальные компании за этим подтягиваются. То есть можно посмотреть на то, как работает OpenAI и Google, Google делает большую презентацию, OpenAI после этого выпускает модель, Google после этого делает свой релиз. Это связано с тем, что у компаний есть набор моделей, которые уже обучены, но они их не релизили, потому что они чаще всего проходят внутреннее тестирование».

Выход Qwen не сильно впечатлил рынки: технологический Nasdaq стабилен в пределах 1%, Nvidia открылась падением на 2% после вчерашнего 6-процентного отскока. Вероятная причина — отсутствие данных о затратах Alibaba на обучение новой модели. Судя по всему, они были существенными, а соответственно западные инвесторы не были сильно удивлены, что китайский технологический гигант немного обошел флагмана OpenAI полугодовой давности. DeepSeek обвинения в «дистилляции» чужих моделей не комментировал. Да и зачем им, все же работает.

Ссылка на первоисточник

Понравилась статья? Подпишитесь на канал, чтобы быть в курсе самых интересных материалов

Технологии

Business FM

Популярные статьи

Свежие комментарии

Прогресс

DeepSeek обвинили в «дистилляции», а Alibaba претендует на титул лидера рынка ИИ