По материалам The Verge
Во вторник OpenAI анонсировала GPT-4, свою языковую модель нового поколения. Хотя компания предупредила, что различия между GPT-4 и его предшественниками «незаметны» с точки зрения обывателя, система обладает множеством новых возможностей. Например, она может обрабатывать изображения, а OpenAI говорит, что она в целом лучше справляется с творческими заданиями и решением задач.
Проверить эти утверждения непросто. Модели ИИ в целом чрезвычайно сложны, а такие системы, как GPT-4, спорадически растут и обладают множеством функций, скрытых и пока неизвестных возможностей. Проверка фактов также составляет проблему. Например, когда GPT-4 уверенно сообщает вам, что он создал новое химическое соединение, вы не узнаете, правда ли это, пока не спросите у нескольких настоящих химиков (впрочем, когда это мешало крикунам из Твиттера*) Как заявляет OpenAI в своем техническом отчете, самым большим ограничением GPT-4 является то, что он «галлюцинирует», выдавая информацию (то есть выдумывает ее) и часто «уверенно ошибается в своих прогнозах».
Невзирая на эти предостережения, GPT-4 определенно интересен с технической точки зрения и уже интегрируется в массовые продукты. Итак, чтобы понять, что нового появилось, издание The Verge собрало несколько примеров его умений и способностей из новостей, Twitter* и от самой OpenAI, а также провело собственные тесты. И вот что получилось.
Может обрабатывать изображения вместе с текстом
Как было сказано выше, это самое большое практическое отличие GPT-4 от его предшественников. Система является мультимодальной, то есть она может анализировать как изображения, так и текст, тогда как GPT-3.5 может обрабатывать только текст. Это означает, что GPT-4 умеет анализировать содержимое изображения и связывать эту информацию с письменным вопросом (хотя и не может генерировать изображения, как DALL-E, Midjourney или Stable Diffusion.)
Что это значит на практике? В New York Times приводится пример, в котором GPT-4 показывают содержимое холодильника и спрашивают, какие блюда можно приготовить из этих ингредиентов. Разумеется, основываясь на картинке, GPT-4 предлагает несколько примеров как пикантных, так и сладких блюд. Однако стоит отметить, что одно из этих предложений — ролл — требует ингредиента, которого, кажется, там нет: тортильи.
Есть много других способов применения для этой функции. В демо-ролике от OpenAI компания показала, как GPT-4 может создавать код для веб-сайта, например, на основе нарисованного от руки эскиза. OpenAI также работает со стартапом Be My Eyes, который использует распознавание объектов и услуги добровольцев, чтобы помочь людям с проблемами зрения, с целью улучшения приложения компании за счет GPT-4.
Такую функциональность нельзя назвать полностью уникальной (многие приложения предлагают базовое распознавание объектов, например, Apple Magnifier), но OpenAI утверждает, что GPT-4 может «генерировать тот же уровень контекста и понимания, что и человек-доброволец», объясняя окружающий мир пользователю, создавая выжимку из перегруженных веб-страниц или отвечая на вопросы о том, что он «видит». Функциональность еще не запущена, но «окажется в руках пользователей через несколько недель», как говорится в сообщении компании.
Есть и другая фирма, которая, по-видимому, также экспериментировала с возможностями распознавания изображений GPT-4. Джордан Сингер, основатель Diagram, написал в твиттере*, что компания работает над добавлением этой технологии в свои инструменты для дизайнеров на основе ИИ, чтобы внедрить такие функции, как чат-бот, который может комментировать проекты, и инструмент для помощи в создании проектов.
А еще, как показано на изображениях ниже, GPT-4 может объяснять смешные картинки.
Лучше играет словами
OpenAI говорит, что GPT-4 лучше справляется с задачами, требующими творческого подхода или сложных рассуждений. Это утверждение сложно оценить, но по результатам ряда тестов оно кажется вполне справедливым, хотя различия с предшественниками пока не поражают воображения.
Во время демонстрации GPT-4 соучредитель OpenAI Грег Брокман попросил пересказать часть сообщения в блоге, используя только слова, начинающиеся с «g». Позже он попросил сделать то же самое, но с «a» и «q». «Мы добились успеха с [GPT-]4, но так и не достигли этого с 3.5», — сказал Брокман перед началом демонстрации. В видео от OpenAI GPT-4 отвечает достаточно понятным предложением, содержащим только одного слово, которое не начинается с буквы «g», а потом выдает полностью правильный вариант после того, как Брокман просит его исправиться. В то время как GPT-3, похоже, даже не пробовал выполнить задание.
В The Verge тоже поэкспериментировали с этой функцией, скормив ChatGPT текст для пересказа с использованием одних лишь слов, начинающихся с «n», и сравнили модели GPT-3.5 и 4 (в данном случае это были выдержки из статьи The Verge про NFT.) С первой попытки GPT-4 лучше справился с пересказом текста, но менее успешно следовал заданию.
Однако когда обе модели попросили исправить свои ошибки, GPT-3.5 практически сдался, тогда как GPT-4 выдал почти идеальный результат. Он по-прежнему включал предлог on, но, по правде говоря, его пропустили, когда просили исправить результат.
Также обе модели попросили превратить статью в стихотворение. И хотя читать стихи о NFT – это слишком больно, GPT-4 определенно справился с этой задачей лучше; его вирши выглядят значительно более сложными, в то время как GPT-3.5 развлекся на манер бездарного рэпера.
Может обрабатывать больше текста
Языковые модели ИИ всегда были ограничены объемом текста, который они могут хранить в своей кратковременной памяти (этот текст включает как вопрос пользователя, так и ответ системы). Но OpenAI резко расширила эти возможности для GPT-4. Теперь система может обрабатывать целые научные статьи и рассказы за один раз, что позволяет ей отвечать на более сложные вопросы и связывать между собой больше деталей в любом запросе.
Стоит отметить, что в GPT-4 нет счетчика символов или слов как такового, но ввод и вывод измеряются в единицах, известных как «токены». Этот процесс токенизации довольно сложен, но все, что нужно знать, это то, что токен равен примерно четырем символам и что 75 слов обычно составляют около 100 токенов.
Максимальное количество токенов, которые GPT-3.5-turbo может использовать в любом заданном запросе, составляет около 4000, это немногим более 3000 слов. Для сравнения, GPT-4 может обрабатывать около 32 000 токенов, что, по данным OpenAI, составляет около 25 000 слов. Компания говорит, что «все еще оптимизирует» модель для более длинных контекстов, но повышение этой планки означает, что модель должна разблокировать варианты использования, которые раньше было не так просто задействовать.
Может проходить тесты
Одной из выдающихся метрик из технического отчета OpenAI по GPT-4 было прохождение им ряда стандартизированных тестов, включая экзамен на адвоката BAR, тест LSAT для поступающих в юридические вузы, тест GRE для поступления на любой последипломный курс в США, ряд модулей AP (курсы повышенной сложности в старших классах американской школы) и — по какой-то неизвестной, но очень забавной причине — вводные, сертификационные и продвинутые курсы сомелье от ассоциации Court of Master Sommeliers (только теоретическая часть!).
Вы можете увидеть сравнение результатов GPT-4 и GPT-3 в некоторых из этих тестов ниже. Обратите внимание, что GPT-4 довольно стабильно справляется с различными модулями AP, но по-прежнему мучается с теми, которые требуют более творческого подхода (например, экзамены по английскому языку и английской литературе).
Это впечатляющие результаты, особенно по сравнению с тем, чего могли бы добиться системы искусственного интеллекта прошлых лет, но для понимания достижений требуется некий контекст. Инженер и писатель Джошуа Леви лучше всего выразил это в своем твиттере*, описав логическое заблуждение, которому поддаются многие, глядя на эти результаты: «То, что программа может пройти тест, разработанный для людей, не означает, что она обладает теми же способностями, что и люди, прошедшие тот же тест».
Ученый-компьютерщик Мелани Митчелл подробно рассмотрела этот вопрос в своем блоге, в котором обсуждалась эффективность ChatGPT на различных экзаменах. Как указывает Митчелл, способность систем ИИ проходить эти тесты зависит от их способности сохранять и воспроизводить определенные типы структурированных знаний. Это не обязательно означает, что эти системы могут затем обобщать эти базовые знания. Другими словами: ИИ может быть наилучшим примером для обучения прохождению тестов.
Уже используется в массовых продуктах
В рамках анонса GPT-4 OpenAI поделилась несколькими историями об организациях, использующих эту модель. К ним относятся функция ИИ-репетитора, разрабатываемая Академией Кана, которая призвана помочь учащимся с написанием курсовой и снабжать учителей идеями для уроков, а также интеграция с Duolingo, которая обещает аналогичный интерактивный опыт обучения.
Предложение от Duolingo называется Duolingo Max и содержит две новые функции. Одна из них даст «простое объяснение» того, почему ваш ответ в упражнении был правильным или неправильным, и позволит вам запросить другие примеры или разъяснения. Другая — это режим «ролевой игры», который позволяет вам практиковаться в использовании языка в различных сценариях, например, заказывать кофе по-французски или планировать поход на испанском языке (в настоящее время это единственные два языка, доступные для этой функции.) Компания заявляет, что GPT-4 делает так, что «не будет двух одинаковых разговоров».
Другие компании используют GPT-4 в похожих сферах. Intercom объявила, что обновляет своего бота службы поддержки клиентов, используя эту модель, и пообещала, что система будет подключаться к документам поддержки бизнеса и отвечать на вопросы, в то время как платежный процессор Stripe будет использовать систему для внутренних целей, чтобы отвечать на вопросы сотрудников на основе своей технической документации.
Все последнее время работает в новом Bing
После объявления OpenAI Microsoft подтвердила, что модель, помогающая улучшить работу чата Bing, это на самом деле GPT-4. Что не является открытием. Microsoft уже заявляла, что использует «большую языковую модель OpenAI следующего поколения», но избегала называть ее GPT-4. В целом, теперь все, что мы знаем о взаимодействии с Bing, можно распространять и на GPT-4.
И, наконец…
Все еще делает ошибки
Очевидно, что чат Bing не идеален. Бот пытался газлайтить пользователей, делал глупые ошибки, а одного из журналистов спросил, не хочет ли он посмотреть фурри-порно. Отчасти все объясняется тем, как Microsoft внедрила GPT-4, но подобный опыт дает некоторое представление о том, как могут косячить чат-боты, построенные на этих языковых моделях.
Не то чтобы это было какой-то огромной проблемой. Это всего лишь напоминание о том, что все, кто занимается созданием и внедрением GPT-4 и других языковых моделей, уже в курсе: модели делают ошибки. Много ошибок. И любое применение, будь то в роли репетитора, продавца или программиста, должно сопровождаться предупреждением об этом огромными буквами.
Генеральный директор OpenAI Сэм Альтман говорил об этом в январе, когда его спросили о возможностях тогда еще не анонсированного GPT-4: «Люди жаждут разочароваться, и они разочаруются. Такой хайп… У нас нет настоящего AGI — а это то, чего от нас ждут».
Что ж, пока нет AGI, но есть система с более широкими возможностями, чем раньше. Теперь ждем самого главного: как именно и где она будет использоваться.
>>> модели делают ошибки. Много ошибок. И любое применение, будь то в роли репетитора, продавца или программиста, должно сопровождаться предупреждением об этом огромными буквами.
Вопрос — а человекообразные программисты ошибок не делают? То-то каждый раз, когда запустишь винду, она обновляется и исправляется по полчаса. Вопрос только в том, когда количество ошибок GPT будет меньше человеческих.
И кстати, где статья на Мобайл-ревью, написанная GPT, давно уже ждем!
GrishaTav_SE, >И кстати, где статья на Мобайл-ревью, написанная GPT
Так они все написаны нейросетями…
Белых Роман, Не, если бы писала сетка, обученная на реальном индексе удовлетворенности Айфоном — она бы их и хвалила в каждой статье. А тут либо масштабный сбой нейросетки, либо все же люди писали 🙂
Рано или поздно мартышка (ИИ) таки наберет «Войну и мир» 🙂
А что такое "фурри-порно"?
>> модели делают ошибки. Много ошибок. И любое применение, будь то в роли репетитора, продавца или программиста, должно сопровождаться предупреждением об этом огромными буквами.
При таких вводных, оно должно сопровождаться предупреждением, что для данных задач модель неприменима. Вообще! Напрочь! Никак!
Вообще, основная беда нынешних моделей — их статичность. Как развивается человек? Вначале получает общее образование в школе. После школы получает специализацию в ВУЗе. Потом еще большую в процессе работы. Возможно даже дважды. Например стать администратором Баз Данных, со специализацией на Oracle. И в конце концов, досконально знать проект, над/с которым он работает в последнее время — схема данных, наиболее частые запросы и прочее.
На каждом этапе поле деятельности уменьшается, но глубина познания растет. Модель же похожа на очень-очень-очень эрудированного попугая. Отвечая на запросы, ведя с пользователем дискуссию или давая подсказки программистам, объем знаний (количество параметров и матрица весов) остаются неизменными.
Поручикъ Ржевскій, Спросите у ChatGPT или просто у Google 🙂
GrishaTav_SE, > И кстати, где статья на Мобайл-ревью, написанная GPT, давно уже ждем!
>Модели ИИ в целом чрезвычайно сложны, а такие системы, как GPT-4, спорадически растут и обладают множеством функций, скрытых и пока неизвестных возможностей.
В средние века примерно так же алхимики лапшу на уши вешали 😀
Очередная фигня для школьников чтобы давать ответы на экзамене
вообще это революция которая случилась у нас на глазах.без шуток, но в моих программистких пет проектах чат бот мне уже помогает очень сильно — ускоряет мою работу. так что теперь слово за нашим Яндексом\Маилл ру и теми у кого есть террабайты данных — делайте свое родной и тоже выпускайте. иначе не заметите как решения штурмовать дом\отправить ракету с той стороный будет принимать тот кто не устает и не ошибается…. Добро пожаловать,Сара Коннор.
Lecron, если ее загрузить в робота-экскурсовода, то этого хватит, зачем от него требовать развития
GrishaTav_SE, Была тут такая сетка. Называлась "Серёжа Кузьмин" )
Юрий Соколов, Думаете сможет провести экскурсию по дом-музею Чехова в Таганроге, рассказать об экспонатах и расширенно ответить на изредка возникающие вопросы посетителей? Нет. Модель надо тренировать на расширенном диапазоне данных, который вряд ли вошел в обучающий корпус.
А еще, что я он нее ожидаю, если ответ неизвестен, так и сказать "Не знаю", а не гнать всякую пургу похожую на правду.
Модели типа GPT всегда будут делать ошибки, поскольку могут производить только псевдослучайные тексты. То есть по факту, ChatGPT — это бредогенератор, только прокачанный. Почему-же тогда в ответах можно увидеть смысл? Потому, что в некоторых случаях накоплено больше статистики, чем в остальных. Отсюда не стоит применять GPT модели для тех случаев, когда требуется инсайдерская информация или специфические профессиональные знания.
LightVolk, А чем помогает? Написать несколько простых строчек ? Или как ?
Lecron, На самом деле, высказывание о том, что человек учится, а нейро-сеть этого не делает — это ошибка. Она точно также обучается, у человека это называется "опыт", у нее это называется "версионность". Причем обучается гораздо быстрее, чем 5 лет в универе и еще 10 лет на производстве. Так что да, есть опасения что она в профессиональных областях потеснит многих людей.
kastec, Нет, не ошибка. Учеба не столько процесс получения знаний, сколько работы над ошибками.
Про "быстрее, чем 5 лет" вы ошиблись. Не обучается, а может обучаться. Точнее ДОобучаться. На базе GPT, чье общее образование нужно для общей работоспособности. И дообучаться по каждой профессии отдельно. Ибо не хватит вычислительных ресурсов для охвата всех знаний человечества в одной модели.
И все равно остаются уникальные проекты. Которые по сути множество итеративных процессов, на каждой итерации которого определяется тупиковость и перспективность решений. Первые отбрасываются, а вторые используются СРАЗУ для следующих итераций. Но на данный момент эпохи "версионности", каждая версия — склеротик. Который ежедневно гуляет по граблям и каждый раз чтобы поехать, изобретает велосипед.
Единственное для чего на самом деле можно использовать ChatGPT — это писать про него и собирать трафик. За последний месяц про это написали все, включая сельскохозяйственные, театральные и кулинарные сайты… И вы туда же.
ChatGPT, напиши статью, что эппл фсё…)))
Ктулху, Все у нее хорошо с профессиональными знаниями. Я игрался с GPT-3 в области логистики вывоза мусора, и предложения были вполне адекватными, как будто я общался со специалистом.
Jury Gerasimov, Ну так внедряй, в чём проблема? Фишка тут в том, что разные профессиональные знания и умения по разному распространены по интернету в свободном доступе. И какие-то описаны лучше, как например логистика. С другой стороны описано оно может быть хорошо, но вот детали реализации могут быть опущены. Как результат тут могут быть проблемы. Например на хабре недавно была такая статья: habr.com/ru/post/723238/ всё круто, пока человек не пытается создать специфическое решение. Логистическое, кстати.
ЗЫ. В моём предыдущем высказывании стоит заменить последнее слово на умения. Но я уже не могу этого сделать.
Lecron, Только сеток — их пока всего несколько, а человекообразных — сколько там миллиардов. Одного обучишь, завтра приходит другое человекообразное и снова косячит по полной. Пока обучаешь второго — первый уже все забыл 🙂
Lecron, >>> А еще, что я он нее ожидаю, если ответ неизвестен, так и сказать "Не знаю", а не гнать всякую пургу похожую на правду.
Ой, а как в людях включить такую фичу, особенно в продаванах?
Lecron, Ни в коем разе! Это потом с этим самым у меня везде баннеры будут? А вдруг там что-то плохое? о_О
в принципе, в самом начале все про современное состояние этих продуктов уже сказано: "самым большим ограничением GPT-4 является то, что он «галлюцинирует», выдавая информацию (то есть выдумывает ее) и часто «уверенно ошибается в своих прогнозах».". т.е., пока с живым специалистом не проконсультируешься, пользоваться "выхлопом" нельзя. ну так и с живыми "икспердами" все то же самое ровно…
Bubo Bubo, "в стиле ведущего аналитика компании Mobile Research Group". Я, кстати, пробовал — она не знает, кто все эти люди. Но более примитивный запрос "напиши, чем айфон плох", в принципе, отрабатывает неплохо.
Владимир Репин, сами пробовали? Мне реально в работе пригодилось, сэкономил очень прилично времени. Конкретная область — расширенная работа с коллекциями в .NET. Придумало толковый алгоритм, который я бы мучил долго, в том числе, гуглением.
Ктулху, Общался в области программирования — да, иногда генерит код, который только с виду похож на рабочий, но часто помогает иначе взглянуть на сложную проблему.
Поручикъ Ржевскій, чтобы не забанили, скажу, что первое слово — это англицизм от слова "fur", то есть мех.
Филипп Мастяев, максимум пользы получается, когда ты можешь сразу проверить то, что тебе предложено. Например, запустить код и увидеть, даёт ли он ожидаемый результат. Это без шуток реально ускоряет работу.
Bassist, по этому пункту согласен. а вот бояться, что народ начнет массово научные статьи писать и учебники с помощью этих инструментов, все же надо. потому что большие объемы текста вычитать сложно, и вероятность выхода в печать этих AI-галлюцинаций достаточно высока
Bassist, В тактическом плане — возможно. В стратегическом — фиг.
Не зря везде говорят, не копипастите блоки кода из интернета/SO. Нужно понимание происходящего. для ускорения и уменьшения бойлерплейта, вполне хватает инструментов IDE. И это в том случае, если код заработал. Иначе, на отладку может уйти больше времени, чем на собственноручное создание.
Резюме: Чем проще задачи, тем больше пользы от нейросетей. Но учиться-то на чем-то надо.
Lecron, а если я уже более-менее всему научился? Мне как раз гораздо быстрее закопипастить, потому что я понимаю, что делаю.
Всегда шутил: чем отличается мидл от синьора? Мидл читает вопрос на СО, а синьор сразу идёт к ответам.
ReadN, Когда не разобрался в вопросе
Bassist, Возможно вы выполняете работу ниже своей квалификации. У меня больше уходит времени понять где менять и как менять, чем выразить намерение на языке программирования. Причем намного больше. Впрочем, от кодогенератора, каковое явление появилось задолго до ИИ-помощников, отказываться не собираюсь. Всему своё место. В прошлом посте, лишь обозначил негативные стороны, которые за хайпом старательно стараются незамечать.
Lecron, угадали, это больше про фриланс у меня было. Основная проблема и есть в том, чтобы понять, что именно спросить у нейросети. Потом провалидировать результаты — и всё, дело в шляпе
Bassist, Ой. Всё. Деталей не надо! )))
Поручикъ Ржевскій, чтоб не было баннеров никаких, нужно использовать Adguard. Давно уже забыл про эти страсти про "за мной следят". Адгард работает как часики! Может быть, и есть какие-то баннеры. Что с того? Я их не вижу.
Иногда адгард выключается, и вот тогда я прихожу в ужас, как же загажены сайты рекламой.
😤