Как создать свою собственную модель языка Bitcoin

Создание собственной модели языка Bitcoin

Это мнение Александара Светски, автора “The UnCommunist Manifesto” и основателя языковой модели Spirit of Satoshi, сфокусированной на биткойнах.

Языковые модели сейчас очень популярны, и многие просто берут базовые модели (чаще всего ChatGPT или что-то подобное) и связывают их с векторной базой данных. Таким образом, когда люди задают вопрос “модели”, она отвечает с контекстом из этой векторной базы.

Что такое векторная база данных? Я подробнее объясню это в будущем эссе, но простой способ понять – это сбор информации, хранящейся в виде данных, которые языковая модель может запрашивать и использовать для более точных ответов. Представьте себе “Стандарт биткойна”, разделенный на параграфы и хранящийся в этой векторной базе данных. Вы задаете вопрос этой новой “модели” о истории денег. Базовая модель фактически запрашивает базу данных, выбирает наиболее релевантный контекст (некоторый параграф из “Стандарта биткойна”) и затем подает его на вход базовой модели (во многих случаях ChatGPT). Модель должна дать более релевантный ответ. Это круто и работает в некоторых случаях, но не решает основных проблем основных моделей, связанных с шумом и предвзятостью при их обучении.

Это то, чем мы занимаемся в Spirit of Satoshi. Мы построили модель, подобную описанной выше, около шести месяцев назад, и вы можете попробовать ее здесь. Вы заметите, что она дает неплохие ответы, но не может вести беседу и плохо справляется с шиткойнами и вещами, которые знал бы настоящий биткоинер.

Вот почему мы изменили свой подход и создаем полноценную языковую модель с нуля. В этом эссе я расскажу немного об этом, чтобы вы поняли, что это включает в себя.

Более “основанная” языковая модель для биткойна

Миссия по созданию более “основанной” языковой модели для биткойна продолжается. Оказалось, что это сложнее, чем я думал, не из-за “технической сложности”, а скорее из-за “чертовой монотонности”.

Все дело в данных. И не в их количестве, а в качестве и формате данных. Вы, наверное, слышали, как нерды об этом говорят, и не цените это, пока не начнете подавать эти данные в модель и получите результат… который не всегда соответствует ожиданиям.

Конвейер данных – это и есть весь труд. Вам нужно собрать и отобрать данные, затем извлечь их. Затем вам нужно программно очистить их (невозможно сделать первичную очистку вручную).

Затем вы берете программно очищенные исходные данные и преобразуете их в несколько форматов данных (представьте пары вопрос-ответ или семантически связанные фрагменты и параграфы). Это тоже нужно делать программно, если вы работаете с большими объемами данных – что именно и происходит в случае языковой модели. Забавно, но другие языковые модели на самом деле хороши для этой задачи! Вы используете языковые модели для создания новых языковых моделей.

Затем, поскольку там, скорее всего, остается много мусора и бесполезных данных, сгенерированных выбранной вами языковой моделью при программном преобразовании данных, вам нужно провести более интенсивную очистку.

Здесь вам понадобится помощь людей, потому что на данном этапе, кажется, люди все еще единственные существа на планете, обладающие необходимым агентством для определения качества. Алгоритмы могут это делать, но не так хорошо, особенно в более тонких сравнительных контекстах, которые свойственны биткойну.

В любом случае, делать это в масштабах очень сложно, если у вас нет армии людей, готовых помочь вам. Эта армия может быть наемными солдатами, оплачиваемыми кем-то, например OpenAI, у которой больше денег, чем у бога, или они могут быть миссионерами, что присуще биткойновому сообществу (мы очень удачливы и благодарны за это в Spirit of Satoshi). Люди проходят через элементы данных и один за другим выбирают, сохранять, отбрасывать или изменять данные.

Когда данные проходят через этот процесс, вы получаете чистые данные на выходе. Конечно, здесь есть и другие нюансы. Например, вам нужно гарантировать, что плохие актеры, пытающиеся испортить ваш процесс очистки, будут отсеяны или их входы будут отброшены. Вы можете сделать это разными способами, и каждый делает это по-своему. Вы можете проверять людей на входе, вы можете построить некоторую внутреннюю модель согласия по очистке, чтобы данные соответствовали определенным требованиям, и т.д. В Spirit of Satoshi мы используем смесь обоих подходов, и, я думаю, мы увидим, насколько эффективно это будет работать в ближайшие месяцы.

Теперь… когда у вас есть этот красивый чистый набор данных в конце этой “трубы”, вам нужно отформатировать его еще раз для подготовки к “обучению” модели.

Этот последний этап, где используются графические процессоры (GPU), действительно то, о чем большинство людей думают, когда слышат о создании языковых моделей. Все остальное, о чем я рассказывал, обычно игнорируется.

Этот заключительный этап включает обучение серии моделей, эксперименты с параметрами, смешивание данных, количество данных, типы моделей и т. д. Это может быстро стать дорогим, поэтому вам лучше иметь надежные данные и начинать с маленьких моделей, постепенно увеличивая их размер.

Все это экспериментально, и то, что вы получаете в конце, это… результат…

Удивительно, что мы, люди, придумываем. В любом случае…

В Spirit of Satoshi наш результат все еще в процессе создания, и мы работаем над ним несколькими способами:

  1. Мы просим добровольцев помочь нам собрать и отобрать наиболее актуальные данные для модели. Мы делаем это в The Nakamoto Repository. Это хранилище каждой книги, эссе, статьи, блога, видео на YouTube и подкаста, связанных с биткоином, а также периферийных работ Фридриха Ницше, Освальда Шпенглера, Джордана Питерсона, Ханс-Германа Хоппе, Мюррея Ротбарда, Карла Юнга, Библии и т. д. Вы можете искать там все, что угодно, и получить ссылку, текстовый файл или PDF. Если доброволец не может найти что-то или считает, что это должно быть включено, он может “добавить” запись. Если он добавляет мусор, запись не будет принята. Идеально, если добровольцы будут представлять данные в формате .txt вместе со ссылкой.
  2. Члены сообщества также могут помочь нам очистить данные и заработать сатоши. Помните этап миссионерской работы, о котором я упоминал? Вот он. Мы представляем целый набор инструментов в рамках этого проекта, и участники смогут играть в “FUD бастер”, “оценивать ответы” и делать много других вещей. Пока что это похоже на опыт “лайк/дизлайк/комментарий” в стиле Tinder на интерфейсе данных для очистки информации в конвейере. Это способ для людей, которые много лет изучали и понимали биткоин, превратить эту “работу” в сатоши. Нет, они не разбогатеют, но они могут помочь внести вклад в то, что они могут считать достойным проектом, и заработать что-то на этом пути.

Вероятностные программы, а не искусственный интеллект

В нескольких предыдущих эссе я утверждал, что термин “искусственный интеллект” ошибочен, потому что, хотя он и искусственный, но не является интеллектуальным, и более того, паника, связанная с искусственным общим интеллектом (AGI), была полностью необоснованной, потому что нет никакого риска того, что это создание вдруг станет самосознательным и уничтожит нас всех. Через несколько месяцев я становлюсь еще более уверенным в этом.

Я вспоминаю отличную статью Джона Картера “Мне уже надоело генеративное искусственное интеллект” и он был настолько прав.

Нет ничего волшебного, или интеллектуального, во всем этом искусственном интеллекте. Чем больше мы играем с ним, тем больше времени мы тратим на его создание, тем больше мы понимаем, что здесь нет самосознания. Здесь нет настоящего мышления или рассуждений. Здесь нет агентства. Это просто “вероятностные программы”.

Проблема заключается в том, что метки, которые мы используем, и термины, которые мы бросаем, будь то “ИИ” или “машинное обучение” или “агенты”, на самом деле вызывают большую часть страха, неопределенности и сомнений.

Эти метки – всего лишь попытка описать набор процессов, которые действительно не похожи на то, что делает человек. Проблема с языком заключается в том, что мы сразу начинаем антропоморфизировать его, чтобы понять его. И в этом процессе это слушатель или зритель вдыхает жизнь в чудовище Франкенштейна.

У искусственного интеллекта нет жизни, кроме той, которую вы даете ему своим воображением. Это очень похоже на любую другую вымышленную эсхатологическую угрозу.

(Вставьте примеры связанные с изменением климата, пришельцами или чем-то еще, что происходит в Twitter/X.)

Это, конечно, очень полезно для глобо-хомо бюрократов, которые хотят использовать любой такой инструмент/программу/машину для своих собственных целей. Они придумывают истории и повествования с тех пор, как научились ходить, и это просто последняя история, которую они выдумывают. И поскольку большинство людей являются леммингами и будут верить всему, что скажет кто-то, звучащий на несколько IQ-точек умнее, они будут использовать это в своих интересах.

Я помню, что мы говорили о регулировании, которое готовится. Я заметил, что на прошлой неделе или на неделе до этого появились “официальные рекомендации” или нечто подобное для генеративного искусственного интеллекта — любезность наших бюрократических повелителей. Что это означает, никто на самом деле не знает. Это замаскировано в том же бессмысленном языке, что и все их другие регуляции. В результате, как всегда, “Мы пишем правила, мы используем инструменты так, как нам угодно, вы должны использовать их так, как мы вам говорим, иначе…”.

Самая смешная часть в том, что множество людей обрадовались этому, думая, что они каким-то образом стали безопаснее от никогда не существовавшего монстра. Фактически, они, вероятно, будут приписывать этим агентствам “спасение нас от ИИ общего интеллекта”, потому что он так и не материализовался.

Мне это напоминает это:

Когда я разместил эту картинку на Твиттере, количество идиотов, которые откликнулись с искренней верой в то, что предотвращение этих катастроф является результатом увеличения бюрократического вмешательства, показало мне все, что я должен был знать о уровне коллективного интеллекта на этой платформе.

Тем не менее, вот мы снова. Та же история, новые персонажи.

К сожалению, мы можем сделать мало что-то с этим, кроме как сосредоточиться на своих делах. Мы продолжим делать то, что нам было поставлено.

Я стал менее восторженным по поводу “GenAI” в целом, и мне кажется, что многое изначального восторга сходит на нет, поскольку внимание людей снова переключается на инопланетных существ и политику. Я также меньше убежден в том, что здесь есть что-то действительно трансформационное — по крайней мере, в той степени, в которую я думал полгода назад. Возможно, я окажусь неправым. Я думаю, что эти инструменты имеют скрытый, неизвлеченный потенциал, но это только так: потенциал, который еще не реализован.

Я думаю, нам нужно быть более реалистичными в отношении того, что они представляют собой (вместо искусственного интеллекта лучше называть их “вероятностными программами”), и это может на самом деле означать, что мы проводим меньше времени и энергии на мечты и больше на создание полезных приложений. В этом смысле я все же остаюсь любопытным и осторожно оптимистичным в отношении того, что что-то реально материализуется, и верю, что где-то в пересечении Биткоина, вероятностных программ и протоколов, таких как Nostr, что-то очень полезное появится.

Я надеюсь, что мы можем принять в этом участие, и буду рад, если вы тоже возьмете в этом участие, если вас это интересует. В этом смысле, я оставлю вас со своим днем, и надеюсь, что эта десятиминутная информация была полезной иллюстрацией того, что нужно для создания языковой модели.

Это гостевая статья от Александра Светски. Мнения, выраженные в ней, полностью их собственные и не обязательно отражают точку зрения BTC Inc или Bitcoin Magazine.

We will continue to update BiLee; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

мнение

'Стратегия Web4 Европейской комиссии может оказаться провалом.'

На Web 3.0 осталось еще много работы. Европейская комиссия спешит переходить к тому, что она называет Web 4.0.

мнение

Мнение Bitget действовал этично по отношению к аккаунту крипто-влиятеля

Грейси Чен, директор по управлению Bitget, утверждает, что ее биржа обязана была принять меры, когда крипто-влиятель ...

мнение

Ripple VP Политические обстоятельства, обосновывающие внедрение Цифровых валют центрального банка

Центральные банковские цифровые валюты имеют практически неограниченные возможности, но в конечном счете успех их мас...

мнение

ЕФДОТ Гонщик Любит двигаться быстро и инновировать

Художник создал NFT-версию со-основателя Friend.tech для нашего пакета Самых Влиятельных.

мнение

Блумберг называет допрос Chainalysis 'кампанией по клевете' и поднимает вопросы о нравственности СМИ

В статье под названием «Wall Street-Backed Crypto Tracer Faces ‘Junk Science’ Attack» информационный ресурс приводит ...

мнение

Африка новая страна свободы

Несмотря на неопределенные или неприйнятные правовые положения во многих юрисдикциях, африканским пользователям битко...