Машины уже изучили почти все русскоязычные тексты в интернете, при этом им не подходят тексты от других нейросетей. По словам экспертов, разработчики ищут новые подходы для поиска данных
Нейросети уже изучили почти все тексты на русском языке в Сети, и им тяжело дальше развиваться. Об этом РБК рассказали в Центре искусственного интеллекта МТС.
По словам экспертов, сейчас разработчики ищут новые подходы для поиска данных. Машинам не подходят тексты, сгенерированные другими нейросетями, а их в интернете стало много. К тому же такой вид искусственного интеллекта как языковая модель не работает с изображениями и видео, и для него выборка материалов для анализа тоже ограничена. Из-за нехватки текстов, а также из-за санкций и дефицита квалифицированных специалистов в ближайшие годы российский рынок продуктов с нейросетями будет расти медленнее, чем мировой. О том, что с этим можно сделать уже сейчас, говорит эксперт по искусственному интеллекту и робототехнике Эдуард Пройдаков:
— Здесь два выхода— это более активно заниматься оцифровкой библиотек. Есть Ленинка, в которой миллионы томов — их цифруют, для этого существуют специальные сканеры. Плюс у нас масса неоцифрованных архивов. В Америке этот процесс и начали раньше, и масштабы оцифровки другие. Они там вкладывают в это колоссальные средства — то есть это еще и деньги. Второе — эти модели еще обучают на социальных сетях, но там есть несколько проблем: очень много сообщений в соцсетях генерируется ботами, то есть это не чисто человеческий, а опять же созданный машиной. Вторая проблема — это предвзятость: там много ругательств, криминала, и это все надо фильтровать. Эта чистка не может производиться полностью автоматически, значит, этим опять же должны заниматься люди, и это дорого стоит.
— Имеет ли смысл нанимать людей, которые будут специально для обучения искусственного интеллекта писать текст?
— Писать нет, но в машинном обучении есть разные методы, и есть основное глубокое обучение, оно производится по размеченным текстам. То есть текст делится на фрагменты, эти фрагменты снабжаются некими тегами, чтобы обучающая программа понимала, к чему этот текст относится. Называется обучение с учителем. Так вот, самая дорогая вещь — это как раз разметка. Этим занимаются отдельные фирмы, очень успешные. Основной прорыв, который сейчас наблюдается, — это генеративный искусственный интеллект: создаются две модели, и они друг с другом соревнуются. За четыре дня модель научилась играть в шахматы на уровне чемпиона, две модели прогнали между собой миллионы партий.
Дефицит текста и другого контента для развития искусственного интеллекта уже получил среди мировых разработчиков название «стена данных» — это та преграда, в которую они однажды рискуют упереться. Хотя в русском языке обычно говорим «упереться в потолок».
В июле в журнале Nature вышла статья об исследовании британско-канадских ученых, которые нарочно обучали языковые модели на текстах других нейросетей. Все попытки приводили к неминуемой деградации: модель начинала хуже подбирать слова, местами ее тексты превращались в набор букв.
Свежие комментарии