Интересные обсуждения
темы заинтересовавшие velkin
LLM тупиковая ветвь развития
12.08.2025
|
trrtrr
|
▪️Каждая ветвь эволюции современных LLMs дается со все большим трудом при незначительном росте производительности и эффективности.
Это стало понятно с провальной GPT-4.5 Orion и это подтвердил релиз GPT-5 (сейчас лучшая и самая мощная модель, но от OpenAI ожидали прорыва, которого не произошло).
Существуют известные ограничения:
🔘Технологические и ресурсные ограничения связаны прежде всего с вычислительными ресурсами и оборудованием: увеличение количества параметров модели или объёма обучающих данных требует экспоненциально большего количества графических процессоров, оперативной памяти и электроэнергии.
🔘Ограничения набора данных проявляются в доступности качественных данных. Лидеры индустрии уже использовали почти все легкодоступные текстовые данные сети. Дальнейшее улучшение требует либо дорогостоящей лицензии на закрытые дата-сеты, либо генерации синтетических данных – но последнее пока не привело к прорыву.
Сохранение закона масштабирования больше не гарантировано, а актуализируется принцип убывающей отдачи. Достигнут предел или потолок эффективности.
Грубо говоря, каждый условный процентный пункт прироста интегральной производительности стоит все больше денег и ресурсов. Если всего три года назад производительность росла экспоненциально при незначительных расходах, сейчас полностью противоположный баланс – незначительные улучшения стоят сотен миллиардов долларов, которые невозможно монетизировать.
▪️Проблема заключается в фундаментальных ограничениях архитектуры современных LLMs.
Все современные флагманские модели (ChatGPT, Claude, Gemini, Grok и другие) построены на архитектуре трансформеров, которая прекрасно подходит для анализа текста и обучения на огромных массивах данных, но имеет встроенные слабые места.
● Фундаментальная невозможность расширения контекстного окна.
Основная причина ограниченности контекстного окна кроется в сердце архитектуры трансформера — механизме самовнимания (self-attention). Для определения связей между элементами последовательности модель должна вычислить «оценку внимания» для каждой пары токенов. Это приводит к тому, что вычислительные и ресурсные затраты растут квадратично по отношению к длине последовательности.
Проще говоря, удвоение длины контекста в четыре раза увеличивает объем необходимых вычислений и памяти. Этот экспоненциальный рост создает жесткий физический и финансовый барьер: в какой-то момент дальнейшее расширение окна становится непомерно дорогим и медленным.
При расширении контекстного окна в 100 раз с 10 тыс до 1 млн токенов требуется в 10000 (10 тыс) раз больше вычислительных ресурсов. Архитектура транформеров в свой основе чудовищно неэффективна.
● Кроме того, такие модели работают в режиме пакетной обработки, не имея постоянной долгосрочной памяти: вся память ограничена контекстным окном одной сессии. Это затрудняет поддержание знаний или навыков за пределами короткого диалога без полного переразвития модели, что исключает накопление опыта и «прививания навыков», корректных инструкций LLM.
Есть различные алгоритмы оптимизации удержания широкого контекстного окна (не буду вдаваться в математику), но тут всплывает другая проблема.
● Помимо вычислительных ограничений, есть и проблемы стабильности и качества при расширении контекста – архитектурные ограничения, затрудняющие эффективное воспроизведение информации на всей ширине контекстного окна.
Даже если игнорировать стоимость, простое увеличение размера окна не гарантирует повышения качества работы модели.
В архитектуре трансформеров, на котором базируются все без исключения современные LLMs вшит «деструктивный ген», фактически лимитирующий развитие.
В целом, длину контекстного окна ограничивает комбинация факторов: вычислительные ресурсы (квадратичная сложность), объём памяти устройств и необходимость переобучать модель работать с новыми, большими позициями. Поэтому бесконечно увеличивать окно невыгодно и сложно, и индустрия параллельно исследует и другие подходы – например, хранение знаний во внешних базах и выборочный поиск информации вместо подачи всего контекста разом, но это все внешние костыли.
Интеграция ИИ в коммерческое и бизнес применение невозможна с ограниченным и крайне нестабильным контекстным окном, но НИ ОДНА компания НЕ предоставила эффективного решения.
Это базовые, но не все ограничения трансформеров.
▪️Пробел в памяти: самое серьезное ограничение заключается в том, что у трансформеров нет постоянной, долговременной памяти. Они не способны обучаться на лету в ходе взаимодействия с пользователем. Каждый новый факт или навык требует дорогостоящего процесса дообучения или полного переобучения модели. Это кардинально отличает их от биологического интеллекта, который обучается непрерывно и инкрементально. Контекстное окно — это лишь временный буфер, а не механизм для накопления и интеграции знаний.
Сейчас LLMs – абсолютно изолированный от внешнего мира «черный ящик», архитектурно НЕ имеющий возможность самообучаться и в своей основе не может считаться интеллектом, т.к. первый признак интеллекта – способность к обучению.
▪️Проблема «заземления»: модели обучаются на текстах, а не на взаимодействии с реальным миром. Их «понимание» — это статистический анализ закономерностей в данных, а не осмысленное соотнесение символов с реальными объектами, действиями и их последствиями. LLMs не способны строить абстрактные представления о том, как устроен мир. Это гарантированно приводит к галлюцинациям – генерации правдоподобной, но ложной или бессмысленной информации.
Это ограничение лишь частично можно обойти в рамках, так называемого, «физического ИИ», который упомянул Хуанг, но раскрытие данного направления требует серии отдельных постов.
▪️Врожденная негибкость: архитектура трансформера статична. После завершения обучения веса нейронов фиксируются. Модель не может динамически создавать новые связи («синапсы») или изменять свою структуру в ответ на новый опыт, как это делает человеческий мозг. Эта нехватка пластичности означает, что LLM не являются по-настоящему адаптивными системами.
▪️Неразвитость когнитивных функций. Нынешние архитектуры страдают от ограниченной способности к явному рассуждению и пониманию причинно-следственных связей. Они статистически предсказывают следующее слово на основе шаблонов в данных, но не обладают врождённым «здравым смыслом» или истинным пониманием мира. В результате даже лучшие LLM часто ошибаются в фактах и не умеют надёжно планировать многошаговые решения.
Качество данных является не архитектурным, а технологическим ограничением и как раз решается за счет алгоритмов обучения, но об этом в других материалах.
В совокупности эти ограничения показывают, что архитектура трансформеров, несмотря на всю ее мощь, является тупиковой ветвью на пути к созданию универсального интеллекта. Дальнейшее масштабирование может привести к появлению более изощренных и эрудированных «статистических попугаев», но не к рождению истинного разума.
Любая технология в своем развитии следует S-образной кривой: за периодом медленного старта следует взрывной рост, который затем сменяется плато, где дальнейшие улучшения становятся все более сложными и дорогостоящими. Множество данных указывает на то, что большие языковые модели вступают в эту фазу плато.
Понимает ли Сэм Альтман все это? Вне всяких сомнений да, абсолютно, но публичное признание затруднит многомиллиардные раунды финансирования и расщепит адовый хайп вокруг ИИ, обрушим капитализацию ИИ компания на порядок.
Продолжение следует (скорее всего после данных по инфляции в США)
https://t.me/spydell_finance/8121
Это стало понятно с провальной GPT-4.5 Orion и это подтвердил релиз GPT-5 (сейчас лучшая и самая мощная модель, но от OpenAI ожидали прорыва, которого не произошло).
Существуют известные ограничения:
🔘Технологические и ресурсные ограничения связаны прежде всего с вычислительными ресурсами и оборудованием: увеличение количества параметров модели или объёма обучающих данных требует экспоненциально большего количества графических процессоров, оперативной памяти и электроэнергии.
🔘Ограничения набора данных проявляются в доступности качественных данных. Лидеры индустрии уже использовали почти все легкодоступные текстовые данные сети. Дальнейшее улучшение требует либо дорогостоящей лицензии на закрытые дата-сеты, либо генерации синтетических данных – но последнее пока не привело к прорыву.
Сохранение закона масштабирования больше не гарантировано, а актуализируется принцип убывающей отдачи. Достигнут предел или потолок эффективности.
Грубо говоря, каждый условный процентный пункт прироста интегральной производительности стоит все больше денег и ресурсов. Если всего три года назад производительность росла экспоненциально при незначительных расходах, сейчас полностью противоположный баланс – незначительные улучшения стоят сотен миллиардов долларов, которые невозможно монетизировать.
▪️Проблема заключается в фундаментальных ограничениях архитектуры современных LLMs.
Все современные флагманские модели (ChatGPT, Claude, Gemini, Grok и другие) построены на архитектуре трансформеров, которая прекрасно подходит для анализа текста и обучения на огромных массивах данных, но имеет встроенные слабые места.
● Фундаментальная невозможность расширения контекстного окна.
Основная причина ограниченности контекстного окна кроется в сердце архитектуры трансформера — механизме самовнимания (self-attention). Для определения связей между элементами последовательности модель должна вычислить «оценку внимания» для каждой пары токенов. Это приводит к тому, что вычислительные и ресурсные затраты растут квадратично по отношению к длине последовательности.
Проще говоря, удвоение длины контекста в четыре раза увеличивает объем необходимых вычислений и памяти. Этот экспоненциальный рост создает жесткий физический и финансовый барьер: в какой-то момент дальнейшее расширение окна становится непомерно дорогим и медленным.
При расширении контекстного окна в 100 раз с 10 тыс до 1 млн токенов требуется в 10000 (10 тыс) раз больше вычислительных ресурсов. Архитектура транформеров в свой основе чудовищно неэффективна.
● Кроме того, такие модели работают в режиме пакетной обработки, не имея постоянной долгосрочной памяти: вся память ограничена контекстным окном одной сессии. Это затрудняет поддержание знаний или навыков за пределами короткого диалога без полного переразвития модели, что исключает накопление опыта и «прививания навыков», корректных инструкций LLM.
Есть различные алгоритмы оптимизации удержания широкого контекстного окна (не буду вдаваться в математику), но тут всплывает другая проблема.
● Помимо вычислительных ограничений, есть и проблемы стабильности и качества при расширении контекста – архитектурные ограничения, затрудняющие эффективное воспроизведение информации на всей ширине контекстного окна.
Даже если игнорировать стоимость, простое увеличение размера окна не гарантирует повышения качества работы модели.
В архитектуре трансформеров, на котором базируются все без исключения современные LLMs вшит «деструктивный ген», фактически лимитирующий развитие.
В целом, длину контекстного окна ограничивает комбинация факторов: вычислительные ресурсы (квадратичная сложность), объём памяти устройств и необходимость переобучать модель работать с новыми, большими позициями. Поэтому бесконечно увеличивать окно невыгодно и сложно, и индустрия параллельно исследует и другие подходы – например, хранение знаний во внешних базах и выборочный поиск информации вместо подачи всего контекста разом, но это все внешние костыли.
Интеграция ИИ в коммерческое и бизнес применение невозможна с ограниченным и крайне нестабильным контекстным окном, но НИ ОДНА компания НЕ предоставила эффективного решения.
Это базовые, но не все ограничения трансформеров.
▪️Пробел в памяти: самое серьезное ограничение заключается в том, что у трансформеров нет постоянной, долговременной памяти. Они не способны обучаться на лету в ходе взаимодействия с пользователем. Каждый новый факт или навык требует дорогостоящего процесса дообучения или полного переобучения модели. Это кардинально отличает их от биологического интеллекта, который обучается непрерывно и инкрементально. Контекстное окно — это лишь временный буфер, а не механизм для накопления и интеграции знаний.
Сейчас LLMs – абсолютно изолированный от внешнего мира «черный ящик», архитектурно НЕ имеющий возможность самообучаться и в своей основе не может считаться интеллектом, т.к. первый признак интеллекта – способность к обучению.
▪️Проблема «заземления»: модели обучаются на текстах, а не на взаимодействии с реальным миром. Их «понимание» — это статистический анализ закономерностей в данных, а не осмысленное соотнесение символов с реальными объектами, действиями и их последствиями. LLMs не способны строить абстрактные представления о том, как устроен мир. Это гарантированно приводит к галлюцинациям – генерации правдоподобной, но ложной или бессмысленной информации.
Это ограничение лишь частично можно обойти в рамках, так называемого, «физического ИИ», который упомянул Хуанг, но раскрытие данного направления требует серии отдельных постов.
▪️Врожденная негибкость: архитектура трансформера статична. После завершения обучения веса нейронов фиксируются. Модель не может динамически создавать новые связи («синапсы») или изменять свою структуру в ответ на новый опыт, как это делает человеческий мозг. Эта нехватка пластичности означает, что LLM не являются по-настоящему адаптивными системами.
▪️Неразвитость когнитивных функций. Нынешние архитектуры страдают от ограниченной способности к явному рассуждению и пониманию причинно-следственных связей. Они статистически предсказывают следующее слово на основе шаблонов в данных, но не обладают врождённым «здравым смыслом» или истинным пониманием мира. В результате даже лучшие LLM часто ошибаются в фактах и не умеют надёжно планировать многошаговые решения.
Качество данных является не архитектурным, а технологическим ограничением и как раз решается за счет алгоритмов обучения, но об этом в других материалах.
В совокупности эти ограничения показывают, что архитектура трансформеров, несмотря на всю ее мощь, является тупиковой ветвью на пути к созданию универсального интеллекта. Дальнейшее масштабирование может привести к появлению более изощренных и эрудированных «статистических попугаев», но не к рождению истинного разума.
Любая технология в своем развитии следует S-образной кривой: за периодом медленного старта следует взрывной рост, который затем сменяется плато, где дальнейшие улучшения становятся все более сложными и дорогостоящими. Множество данных указывает на то, что большие языковые модели вступают в эту фазу плато.
Понимает ли Сэм Альтман все это? Вне всяких сомнений да, абсолютно, но публичное признание затруднит многомиллиардные раунды финансирования и расщепит адовый хайп вокруг ИИ, обрушим капитализацию ИИ компания на порядок.
Продолжение следует (скорее всего после данных по инфляции в США)
https://t.me/spydell_finance/8121
12.08.2025 15 комментариев |
Тем более можно онлайн наблюдать за процессом
неисполнения данного гипероптимистического прогноза в жизньНадо упомянуть, что предпринимается, какие костыли придумываются для того, чтобы такие ограничения обходить.
T>● Фундаментальная невозможность расширения контекстного окна.
Да, self-attention, квадратичность и т.д. Работы в эту сторону ведутся, например, делая эмбеддинги не из токенов, а из предложений. Кривая сложности при этом становится не такой отвесной. На больших данных улучшение на пару порядков — отличный результат.
T>● Кроме того, такие модели работают в режиме пакетной обработки, не имея постоянной долгосрочной памяти: вся память ограничена контекстным окном одной сессии. Это затрудняет поддержание знаний или навыков за пределами короткого диалога без полного переразвития модели, что исключает накопление опыта и «прививания навыков», корректных инструкций LLM.
Вот тут решение — RAG. Оно может казаться костыльным, но в принципе как-то сложно ожидать фундаментального сжатия всей обучающей выборки в условный 1 террабайт. Какие-то данные всё равно придётся хранить не в весах, а где-то снаружи. Да, сейчас это сторонние костыли, а не встроенный в нейросеть инструмент. Но частично проблема решается в практической плоскости.
T>● Помимо вычислительных ограничений, есть и проблемы стабильности и качества при расширении контекста – архитектурные ограничения, затрудняющие эффективное воспроизведение информации на всей ширине контекстного окна.
Опять же костыль в виде RAG.
T>▪️Пробел в памяти: самое серьезное ограничение заключается в том, что у трансформеров нет постоянной, долговременной памяти. Они не способны обучаться на лету в ходе взаимодействия с пользователем. Каждый новый факт или навык требует дорогостоящего процесса дообучения или полного переобучения модели. Это кардинально отличает их от биологического интеллекта, который обучается непрерывно и инкрементально. Контекстное окно — это лишь временный буфер, а не механизм для накопления и интеграции знаний.
Это да, косяк.
t> Каждая ветвь эволюции современных LLMs дается со все большим трудом при незначительном росте производительности и эффективности.
Ты хочешь сказать, что "пузырь ai" только сейчас стал для кого-то полной неожиданностью?
громко сказано
K> пузырь?
Ну пусть будет не "пузырь", а крайне ограниченные области применения (и там они реально рулят). Это что-то меняет? Проблема в том, что многие "уверовали" (как в двухтысячных), так что кризис разочарования уже неизбежны.
T>LLM — тупик
Многие ожидали, что вместо людей на заводах будут трудиться роботы, но оказалось, что китайцы выгоднее.
AI это не тупик, просто миллиарды бесхозных людей могут работать дешевле.
Живая материя в процессе эволюции стала очень оптимальна, начиная с атомного уровня.
AI займет свою нишу там, где это экономически целесообразно.
ЯИ>Многие ожидали, что вместо людей на заводах будут трудиться роботы, но оказалось, что китайцы выгоднее.
Именно поэтому уровень робототизации в Китае один из самых высоких в мире? Если не на первом месте, то в тройке точно.
N>Именно поэтому уровень робототизации в Китае один из самых высоких в мире? Если не на первом месте, то в тройке точно.
Но никто же не орёт, что роботы заменят человеков?
ЯИ>
То есть именно заменяют людей.
N>То есть именно заменяют людей.
Ну вот когда на 1000 работников будет 10000 роботов, тогда бы я переживал.
ЯИ>Здравствуйте, Nuzhny, Вы писали:
N>>Именно поэтому уровень робототизации в Китае один из самых высоких в мире? Если не на первом месте, то в тройке точно.
ЯИ>Но никто же не орёт, что роботы заменят человеков?
ЯИ>
А по какой формуле вы сопоставили одного робота на одного человека, чтобы соотношение 151/10000 имело хоть какой-то смысл? Роботы же разные есть. К примеру, нельзя сравнивать в робото-часах производительность какого-нибудь манипулятора, который перекладывает всякую мелочь с одного конвеера на другой с производительностью 3д принтера для печати домов (который по сути тоже робот). Вот в человеко-часах это уже можно измерять.
T>▪️Каждая ветвь эволюции современных LLMs
В итоге опять пришли к тому, что ИИ свелся к продвинутой счетной машине.
ИИ-у надо все на блюдечке с голубой каемочкой принести, тогда он родит. Но все самое сложное оказывается в наполнении блюдечка.
По-моему, пора озаботится эффективными методиками развития ЕИ.
T>▪️Каждая ветвь эволюции современных LLMs дается со все большим трудом при незначительном росте производительности и эффективности.
Ну почему тупик?
Невооружённым глазом видно, что ИИ теперь делает невообразимые ранее вещи. Например, сносно переводит с диковинных заморских языков на родную русскую речь и в обратную сторону, способен отредактировать написанный человеком текст от уровня "школьные сочинения мне никогда не давались", до уровня "учитель хотел поставить мне четвёрку с минусом, но поставил тройку с плюсом".
Просто на него возлагают неоправданные надежды. Вот он их и не оправдывает.
T>Продолжение следует
Продолжение будет такое: все кто отрицают LLM cядут в большую лужу. Потому что все упирается всего лишь в память и в вычислительную мощность. Когда они растут — соответственно растут и возможности LLM.
Отрицание роста — это бред, как и говорить про то, что этого никогда не настанет и т.д.
Что за бредовые ветки. Луддиты, є..пт.