На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Business FM

65 782 подписчика

Свежие комментарии

  • Halszka Brzozowska
    A kto jeszcze wierzy naiwnie w czystość intencji USA? Amerykanie nie zmienili się od ponad 200 lat! Nie można ufać, ż...The Guardian: в к...
  • Сергей Карабухин
    ..Легче прикинуться идиотом-дурачком, чтоб только не нести ответственность за совершённые преступления перед человече...Выпущенные Газпро...
  • Чак
    Молодой мальчик, все смешные предложения уже были. Пусть учит современную историю России.Вологодский губер...

РБК: у российских нейросетей произошел кризис роста

Машины уже изучили почти все русскоязычные тексты в интернете, при этом им не подходят тексты от других нейросетей. По словам экспертов, разработчики ищут новые подходы для поиска данных

Нейросети уже изучили почти все тексты на русском языке в Сети, и им тяжело дальше развиваться. Об этом РБК рассказали в Центре искусственного интеллекта МТС.

По словам экспертов, сейчас разработчики ищут новые подходы для поиска данных. Машинам не подходят тексты, сгенерированные другими нейросетями, а их в интернете стало много. К тому же такой вид искусственного интеллекта как языковая модель не работает с изображениями и видео, и для него выборка материалов для анализа тоже ограничена. Из-за нехватки текстов, а также из-за санкций и дефицита квалифицированных специалистов в ближайшие годы российский рынок продуктов с нейросетями будет расти медленнее, чем мировой. О том, что с этим можно сделать уже сейчас, говорит эксперт по искусственному интеллекту и робототехнике Эдуард Пройдаков:

— Здесь два выхода— это более активно заниматься оцифровкой библиотек. Есть Ленинка, в которой миллионы томов — их цифруют, для этого существуют специальные сканеры. Плюс у нас масса неоцифрованных архивов. В Америке этот процесс и начали раньше, и масштабы оцифровки другие. Они там вкладывают в это колоссальные средства — то есть это еще и деньги. Второе — эти модели еще обучают на социальных сетях, но там есть несколько проблем: очень много сообщений в соцсетях генерируется ботами, то есть это не чисто человеческий, а опять же созданный машиной. Вторая проблема — это предвзятость: там много ругательств, криминала, и это все надо фильтровать. Эта чистка не может производиться полностью автоматически, значит, этим опять же должны заниматься люди, и это дорого стоит.

— Имеет ли смысл нанимать людей, которые будут специально для обучения искусственного интеллекта писать текст?

— Писать нет, но в машинном обучении есть разные методы, и есть основное глубокое обучение, оно производится по размеченным текстам. То есть текст делится на фрагменты, эти фрагменты снабжаются некими тегами, чтобы обучающая программа понимала, к чему этот текст относится. Называется обучение с учителем. Так вот, самая дорогая вещь — это как раз разметка. Этим занимаются отдельные фирмы, очень успешные. Основной прорыв, который сейчас наблюдается, — это генеративный искусственный интеллект: создаются две модели, и они друг с другом соревнуются. За четыре дня модель научилась играть в шахматы на уровне чемпиона, две модели прогнали между собой миллионы партий.

Дефицит текста и другого контента для развития искусственного интеллекта уже получил среди мировых разработчиков название «стена данных» — это та преграда, в которую они однажды рискуют упереться. Хотя в русском языке обычно говорим «упереться в потолок».

В июле в журнале Nature вышла статья об исследовании британско-канадских ученых, которые нарочно обучали языковые модели на текстах других нейросетей. Все попытки приводили к неминуемой деградации: модель начинала хуже подбирать слова, местами ее тексты превращались в набор букв.

 

Ссылка на первоисточник

Картина дня

наверх