Нейрон

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: {{well|Статья написана с использованием LLM '''ChatGPT 5.5''' и проверена участником Liliia Davletova}} {{другие значен...)
(Геометрическая интерпретация)
 
(3 промежуточные версии не показаны)
Строка 1: Строка 1:
{{well|Статья написана с использованием LLM '''ChatGPT 5.5''' и проверена участником [[Liliia Davletova]]}}
{{well|Статья написана с использованием LLM '''ChatGPT 5.5''' и проверена участником [[Liliia Davletova]]}}
-
{{другие значения|Нейрон (значения)}}
+
= Нейрон =
-
'''Нейро́н''' (от {{lang-el|νεῦρον}} — «нерв») — специализированная [[клетка]] [[нервная система|нервной системы]], способная принимать, обрабатывать, хранить и передавать информацию посредством [[электрический сигнал|электрических]] и [[химический сигнал|химических]] сигналов. Нейроны являются основными функциональными элементами [[головной мозг|головного мозга]], [[спинной мозг|спинного мозга]] и [[периферическая нервная система|периферической нервной системы]], образуя сложные сети, обеспечивающие [[восприятие]], [[память]], [[обучение]], [[мышление]], управление движениями и многие другие функции организма.
+
'''Нейрон''' (''artificial neuron'', ''formal neuron'', ''computational neuron'') — базовый вычислительный элемент [[искусственная нейронная сеть|искусственных нейронных сетей]], реализующий преобразование входного вектора в выходное значение посредством взвешенного суммирования и нелинейной [[функция активации|функции активации]]. Несмотря на биологически вдохновлённое название, современный искусственный нейрон представляет собой математическую модель, предназначенную для решения задач [[машинное обучение|машинного обучения]], [[глубокое обучение|глубокого обучения]], [[распознавание образов|распознавания образов]], [[регрессия|регрессии]], [[классификация|классификации]] и [[обучение с подкреплением|обучения с подкреплением]].
-
Изучением нейронов занимается [[нейронаука]], а математические и вычислительные модели нейронов лежат в основе [[искусственная нейронная сеть|искусственных нейронных сетей]] и современных методов [[машинное обучение|машинного обучения]].
+
Нейрон является фундаментальным строительным блоком большинства современных моделей глубокого обучения, включая [[многослойный перцептрон]], [[сверточная нейронная сеть|сверточные]], [[рекуррентная нейронная сеть|рекуррентные]] сети и [[трансформер]]ы.
-
== История изучения ==
+
== Математическая модель ==
-
Первые микроскопические исследования нервной ткани были выполнены в XIX веке. Прорыв произошёл благодаря методу серебрения, разработанному [[Камилло Гольджи]], который позволил визуализировать отдельные нервные клетки. Используя этот метод, [[Сантьяго Рамон-и-Кахаль]] сформулировал '''нейронную доктрину''', согласно которой нервная система состоит из отдельных клеток, взаимодействующих между собой через специализированные контакты.
+
Пусть на вход нейрона поступает вектор признаков
-
В XX веке исследования [[Алан Ходжкин|Алана Ходжкина]] и [[Эндрю Хаксли]] привели к созданию количественной модели возникновения [[потенциал действия|потенциала действия]], ставшей фундаментом современной электрофизиологии.
+
:<tex>\mathbf{x}=(x_1,\ldots,x_n).</tex>
-
== Строение ==
+
Каждому входу соответствует вес
-
[[Файл:Neuron.svg|thumb|300px|Типичное строение нейрона.]]
+
:<tex>\mathbf{w}=(w_1,\ldots,w_n).</tex>
-
Типичный нейрон состоит из нескольких функциональных частей.
+
Нейрон вычисляет линейную комбинацию входов
-
=== Сома ===
+
:<tex>z=\sum_{i=1}^{n} w_i x_i+b, </tex>
-
'''Сома''' (тело клетки) содержит [[ядро клетки|ядро]], [[митохондрия|митохондрии]], [[рибосома|рибосомы]] и другие органеллы. Здесь происходит синтез белков и поддержание жизнедеятельности клетки.
+
где <tex>b</tex> — [[смещение (bias)|смещение]] (bias).
-
=== Дендриты ===
+
После этого применяется функция активации
-
'''[[дендрит]]ы''' представляют собой короткие сильно разветвлённые отростки, принимающие сигналы от других нейронов. Один нейрон может иметь тысячи синаптических контактов на дендритах.
+
:<tex>y=\varphi(z), </tex>
-
=== Аксон ===
+
где <tex>\varphi</tex> — нелинейное отображение.
-
'''[[аксон]]''' — длинный отросток, передающий сигнал другим клеткам. Длина аксона варьирует от нескольких микрометров до более чем одного метра у человека.
+
Таким образом, искусственный нейрон представляет собой параметризованную функцию
-
Многие аксоны покрыты [[миелин]]овой оболочкой, увеличивающей скорость распространения сигнала посредством скачкообразного проведения между [[перехват Ранвье|перехватами Ранвье]].
+
:<tex>f(\mathbf{x};\mathbf{w},b)=\varphi(\mathbf{w}^\top\mathbf{x}+b). </tex>
-
=== Синапс ===
+
Во время [[обучение нейронной сети|обучения]] параметры <tex>\mathbf{w}</tex> и <tex>b</tex> оптимизируются методом [[градиентный спуск|градиентного спуска]] совместно с алгоритмом [[обратное распространение ошибки|обратного распространения ошибки]].
-
Передача информации между нейронами происходит через [[синапс]]ы.
+
== История ==
-
Различают:
+
Первую формальную модель нейрона предложили [[Уоррен Маккаллок]] и [[Уолтер Питтс]] в 1943 году. Их бинарный пороговый нейрон был способен реализовывать логические функции и положил начало математической теории искусственных нейронных сетей. Впоследствии [[Фрэнк Розенблатт]] предложил [[перцептрон]], добавив возможность автоматического обучения весов. Эти идеи легли в основу современной теории глубоких нейронных сетей.
-
* химические синапсы;
+
== Функции активации ==
-
* электрические синапсы.
+
-
В химическом синапсе электрический импульс вызывает выделение [[нейромедиатор]]ов (например, [[глутамат]]а, [[ГАМК]], [[дофамин]]а, [[серотонин]]а), которые связываются с рецепторами следующей клетки.
+
Нелинейность является принципиальным компонентом нейрона. Если использовать только линейную функцию активации, любая композиция слоёв сведётся к одному линейному преобразованию.
-
== Электрофизиология ==
+
Наиболее распространённые функции активации:
-
Основным способом передачи информации является [[потенциал действия]].
+
* [[пороговая функция]];
 +
* [[сигмоида]];
 +
* [[гиперболический тангенс]];
 +
* [[ReLU]];
 +
* [[Leaky ReLU]];
 +
* [[ELU]];
 +
* [[GELU]];
 +
* [[Swish]];
 +
* [[Softplus]];
 +
* [[Softmax]] (обычно используется в выходном слое многоклассовой классификации).
-
В состоянии покоя мембранный потенциал большинства нейронов составляет около −70 мВ. При достаточной деполяризации происходит быстрое открытие потенциал-зависимых натриевых каналов, после чего возникает потенциал действия.
+
В современных архитектурах наиболее популярными являются ReLU-подобные функции благодаря устойчивому распространению градиентов и высокой вычислительной эффективности.
-
Его основные особенности:
+
== Геометрическая интерпретация ==
-
* подчиняется закону «всё или ничего»;
+
Один нейрон реализует разделение пространства признаков гиперплоскостью
-
* распространяется без уменьшения амплитуды;
+
-
* кодирует информацию преимущественно частотой импульсов.
+
-
Эти процессы количественно описываются [[модель Ходжкина — Хаксли|моделью Ходжкина — Хаксли]], опубликованной в 1952 году.
+
:<tex>\mathbf{w}^\top\mathbf{x}+b=0. </tex>
-
== Классификация ==
+
По одну сторону гиперплоскости значение активации велико, по другую — мало.
-
По функции различают:
+
Следовательно, один нейрон способен строить только линейную разделяющую поверхность.
-
* [[чувствительный нейрон|сенсорные]] (афферентные) нейроны;
+
Именно поэтому одиночный перцептрон не способен решить задачу XOR. Для решения нелинейно разделимых задач необходимы скрытые слои, формирующие сложные нелинейные отображения.
-
* [[двигательный нейрон|двигательные]] (эфферентные) нейроны;
+
-
* [[вставочный нейрон|вставочные]] (интернейроны).
+
-
По числу отростков:
+
== Роль в глубоком обучении ==
-
* униполярные;
+
Хотя отдельный нейрон является весьма простой моделью, объединение большого числа нейронов позволяет получать чрезвычайно сложные вычислительные структуры.
-
* псевдоуниполярные;
+
-
* биполярные;
+
-
* мультиполярные.
+
-
По характеру действия:
+
Современные нейронные сети содержат от миллионов до сотен миллиардов параметров. При этом каждый отдельный нейрон выполняет лишь простое локальное преобразование.
-
* возбуждающие;
+
Высокая выразительная способность сети возникает благодаря сочетанию:
-
* тормозные;
+
-
* модулирующие.
+
-
== Нейронные сети мозга ==
+
* большого количества нейронов;
 +
* нелинейных функций активации;
 +
* композиции большого числа слоёв;
 +
* совместной оптимизации всех параметров.
-
Отдельный нейрон редко выполняет значимую вычислительную функцию самостоятельно. Основой обработки информации являются крупные [[нейронная сеть|нейронные сети]], содержащие от миллионов до десятков миллиардов взаимосвязанных клеток.
+
== Теоретические результаты ==
-
По современным оценкам, [[головной мозг человека]] содержит около 86 миллиардов нейронов и порядка 10<sup>14</sup>–10<sup>15</sup> синаптических соединений.
+
Одним из фундаментальных результатов современной теории нейронных сетей является '''теорема об универсальной аппроксимации'''.
-
Свойства мозга возникают как результат коллективной динамики огромного числа нейронов.
+
Она утверждает, что многослойная сеть с достаточным числом нейронов и нелинейной функцией активации способна приблизить любую непрерывную функцию на компактном множестве с произвольной точностью. Позднейшие работы существенно расширили этот результат, распространив его на различные архитектуры и классы функций активации.
-
== Пластичность ==
+
Следует отметить, что теорема носит существовательный характер: она гарантирует существование подходящей сети, но не утверждает, что её можно эффективно обучить.
-
Одним из важнейших свойств нейронов является [[нейропластичность]] — способность изменять эффективность существующих соединений и формировать новые.
+
Современная теория также изучает:
-
Основные механизмы включают:
+
* выразительную способность отдельных нейронов;
 +
* влияние глубины сети;
 +
* свойства различных функций активации;
 +
* устойчивость обучения;
 +
* интерпретируемость внутренних представлений.
-
* [[долговременная потенциация]];
+
== Биологическая интерпретация ==
-
* [[долговременная депрессия]];
+
-
* структурную перестройку дендритных шипиков;
+
-
* образование новых синапсов.
+
-
Пластичность рассматривается как клеточная основа [[обучение|обучения]] и [[память|памяти]].
+
Несмотря на терминологическое сходство, искусственный нейрон является крайне грубой абстракцией биологического нейрона.
-
== Методы исследования ==
+
В биологических нервных системах учитываются:
-
Современная нейронаука использует широкий набор методов:
+
* временная динамика сигналов;
 +
* спайковая активность;
 +
* химическая передача;
 +
* пластичность синапсов;
 +
* сложная морфология дендритов.
-
* [[электрофизиология]];
+
В большинстве моделей машинного обучения эти процессы игнорируются, поскольку значительно более простая модель оказывается достаточной для решения практических задач.
-
* [[patch clamp]];
+
-
* [[электроэнцефалография]];
+
-
* [[магнитно-резонансная томография]];
+
-
* [[функциональная магнитно-резонансная томография]];
+
-
* [[оптогенетика]];
+
-
* [[двухфотонная микроскопия]];
+
-
* [[криоэлектронная микроскопия]];
+
-
* одноклеточное [[секвенирование РНК]].
+
-
Развитие этих технологий позволило исследовать структуру и функции отдельных клеток с беспрецедентной точностью.
+
== Практические рекомендации ==
-
== Нейроны и искусственный интеллект ==
+
При проектировании современных архитектур редко рассматривают отдельные нейроны изолированно. Вместо этого внимание уделяется:
-
Идея искусственного нейрона восходит к модели [[искусственный нейрон|Маккаллока — Питтса]], предложенной в 1943 году. Несмотря на название, современные [[глубокое обучение|глубокие нейронные сети]] лишь отдалённо напоминают биологические нейроны.
+
* выбору функции активации;
 +
* нормализации ([[Batch Normalization]], [[Layer Normalization]]);
 +
* инициализации весов;
 +
* регуляризации ([[Dropout]], weight decay);
 +
* архитектуре сети;
 +
* оптимизатору.
-
Основные различия:
+
Тем не менее понимание математической модели отдельного нейрона необходимо для понимания принципов работы глубоких нейронных сетей.
-
 
+
-
* биологический нейрон имеет сложную дендритную обработку сигналов;
+
-
* синапсы обладают богатой динамикой и пластичностью;
+
-
* обучение происходит локально и непрерывно;
+
-
* искусственные сети обычно используют алгоритм [[обратное распространение ошибки]].
+
-
 
+
-
Современное направление '''нейроморфных вычислений''' стремится приблизить вычислительные системы к принципам работы биологических нейронов.
+
-
 
+
-
== Современные исследования ==
+
-
 
+
-
В последние годы исследования нейронов активно развиваются благодаря международным научным инициативам, включая проекты по построению полного [[коннектом]]а мозга.
+
-
 
+
-
Основные современные направления:
+
-
 
+
-
* построение полных карт нейронных связей;
+
-
* моделирование активности миллионов нейронов;
+
-
* изучение клеточного разнообразия мозга;
+
-
* создание цифровых моделей мозга;
+
-
* разработка нейроинтерфейсов;
+
-
* исследование механизмов сознания.
+
-
 
+
-
В 2023–2025 годах были опубликованы наиболее полные карты нейронных связей отдельных областей мозга млекопитающих, содержащие сотни тысяч клеток и миллиарды синапсов, что открыло новые возможности для понимания принципов вычислений в нервной системе.
+
== См. также ==
== См. также ==
-
* [[Нервная система]]
+
* [[искусственная нейронная сеть]]
-
* [[Нейронаука]]
+
* [[перцептрон]]
-
* [[Потенциал действия]]
+
* [[многослойный перцептрон]]
-
* [[Синапс]]
+
* [[функция активации]]
-
* [[Нейромедиатор]]
+
* [[градиентный спуск]]
-
* [[Коннектом]]
+
* [[обратное распространение ошибки]]
-
* [[Искусственный нейрон]]
+
* [[глубокое обучение]]
-
* [[Искусственная нейронная сеть]]
+
* [[Batch Normalization]]
-
* [[Машинное обучение]]
+
* [[Dropout]]
-
* [[Нейроморфные вычисления]]
+
* [[трансформер]]
-
 
+
-
== Примечания ==
+
-
 
+
-
{{примечания}}
+
== Литература ==
== Литература ==
-
* {{книга
+
* {{статья
-
|автор=Kandel E.R., Koester J.D., Mack S.H., Siegelbaum S.A.
+
|автор=McCulloch W. S., Pitts W.
-
|заглавие=Principles of Neural Science
+
|заглавие=A Logical Calculus of the Ideas Immanent in Nervous Activity
-
|издание=6th ed.
+
|издание=Bulletin of Mathematical Biophysics
-
|место=New York
+
|год=1943
-
|издательство=McGraw-Hill
+
|том=5
-
|год=2021
+
|номер=4
-
|isbn=978-1264258422
+
|страницы=115–133
-
}}
+
|doi=10.1007/BF02478259
-
 
+
}}
-
* {{книга
+
-
|автор=Bear M.F., Connors B.W., Paradiso M.A.
+
-
|заглавие=Neuroscience: Exploring the Brain
+
-
|издание=4th ed.
+
-
|издательство=Jones & Bartlett Learning
+
-
|год=2015
+
-
}}
+
* {{статья
* {{статья
-
|автор=Hodgkin A.L.; Huxley A.F.
+
|автор=Rosenblatt F.
-
|заглавие=A quantitative description of membrane current and its application to conduction and excitation in nerve
+
|заглавие=The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain
-
|издание=The Journal of Physiology
+
|издание=Psychological Review
-
|год=1952
+
|год=1958
-
|том=117
+
|том=65
-
|номер=4
+
|номер=6
-
|страницы=500–544
+
|страницы=386–408
-
|doi=10.1113/jphysiol.1952.sp004764
+
}}
-
}}
+
* {{статья
* {{статья
-
|автор=McCulloch W.S.; Pitts W.
+
|автор=Rumelhart D. E., Hinton G. E., Williams R. J.
-
|заглавие=A Logical Calculus of the Ideas Immanent in Nervous Activity
+
|заглавие=Learning Representations by Back-propagating Errors
-
|издание=Bulletin of Mathematical Biophysics
+
|издание=Nature
-
|год=1943
+
|год=1986
-
|том=5
+
|том=323
-
|страницы=115–133
+
|страницы=533–536
-
|doi=10.1007/BF02478259
+
}}
-
}}
+
* {{статья
* {{статья
-
|автор=Azevedo F.A.C. и др.
+
|автор=Cybenko G.
-
|заглавие=Equal Numbers of Neuronal and Nonneuronal Cells Make the Human Brain an Isometrically Scaled-Up Primate Brain
+
|заглавие=Approximation by Superpositions of a Sigmoidal Function
-
|издание=Journal of Comparative Neurology
+
|издание=Mathematics of Control, Signals and Systems
-
|год=2009
+
|год=1989
-
|том=513
+
|том=2
-
|номер=5
+
|номер=4
-
|страницы=532–541
+
|страницы=303–314
-
|doi=10.1002/cne.21974
+
}}
-
}}
+
* {{статья
* {{статья
-
|автор=Shapson-Coe A. и др.
+
|автор=Hornik K.
-
|заглавие=A petavoxel fragment of human cerebral cortex reconstructed at nanoscale resolution
+
|заглавие=Multilayer Feedforward Networks are Universal Approximators
-
|издание=Science
+
|издание=Neural Networks
-
|год=2024
+
|год=1989
-
|doi=10.1126/science.adk4858
+
|том=2
-
}}
+
|номер=5
 +
|страницы=359–366
 +
}}
* {{статья
* {{статья
-
|автор=Yin W. и др.
+
|автор=Tsoi A. C., Scarselli F.
-
|заглавие=A Foundation Model of Neural Activity Predicts Response to New Stimuli
+
|заглавие=Universal Approximation Using Feedforward Neural Networks: A Survey of Some Existing Methods, and Some New Results
-
|издание=Nature
+
|издание=Neural Networks
-
|год=2025
+
|год=1998
-
}}
+
|том=11
 +
|номер=1
 +
|страницы=15–37
 +
}}
-
* {{cite web
+
* {{книга
-
|url=https://braininitiative.nih.gov/
+
|автор=Goodfellow I., Bengio Y., Courville A.
-
|title=NIH BRAIN Initiative
+
|заглавие=Deep Learning
-
|publisher=National Institutes of Health
+
|издательство=MIT Press
-
|access-date=2026-06-30
+
|год=2016
-
}}
+
}}
-
* {{cite web
+
* {{книга
-
|url=https://www.humanbrainproject.eu/
+
|автор=Bishop C. M.
-
|title=Human Brain Project
+
|заглавие=Pattern Recognition and Machine Learning
-
|access-date=2026-06-30
+
|издательство=Springer
-
}}
+
|год=2006
 +
}}
 +
 
 +
* {{книга
 +
|автор=Hastie T., Tibshirani R., Friedman J.
 +
|заглавие=The Elements of Statistical Learning
 +
|издательство=Springer
 +
|год=2009
 +
}}
* {{cite web
* {{cite web
-
|url=https://alleninstitute.org/
+
|url=https://www.deeplearningbook.org/
-
|title=Allen Institute for Brain Science
+
|title=Deep Learning
-
|access-date=2026-06-30
+
|author=Goodfellow I., Bengio Y., Courville A.
-
}}
+
|accessdate=2026-06-30
 +
}}

Текущая версия

Статья написана с использованием LLM ChatGPT 5.5 и проверена участником Liliia Davletova


Содержание

Нейрон

Нейрон (artificial neuron, formal neuron, computational neuron) — базовый вычислительный элемент искусственных нейронных сетей, реализующий преобразование входного вектора в выходное значение посредством взвешенного суммирования и нелинейной функции активации. Несмотря на биологически вдохновлённое название, современный искусственный нейрон представляет собой математическую модель, предназначенную для решения задач машинного обучения, глубокого обучения, распознавания образов, регрессии, классификации и обучения с подкреплением.

Нейрон является фундаментальным строительным блоком большинства современных моделей глубокого обучения, включая многослойный перцептрон, сверточные, рекуррентные сети и трансформеры.

Математическая модель

Пусть на вход нейрона поступает вектор признаков

\mathbf{x}=(x_1,\ldots,x_n).

Каждому входу соответствует вес

\mathbf{w}=(w_1,\ldots,w_n).

Нейрон вычисляет линейную комбинацию входов

z=\sum_{i=1}^{n} w_i x_i+b,

где bсмещение (bias).

После этого применяется функция активации

y=\varphi(z),

где \varphi — нелинейное отображение.

Таким образом, искусственный нейрон представляет собой параметризованную функцию

f(\mathbf{x};\mathbf{w},b)=\varphi(\mathbf{w}^\top\mathbf{x}+b).

Во время обучения параметры \mathbf{w} и b оптимизируются методом градиентного спуска совместно с алгоритмом обратного распространения ошибки.

История

Первую формальную модель нейрона предложили Уоррен Маккаллок и Уолтер Питтс в 1943 году. Их бинарный пороговый нейрон был способен реализовывать логические функции и положил начало математической теории искусственных нейронных сетей. Впоследствии Фрэнк Розенблатт предложил перцептрон, добавив возможность автоматического обучения весов. Эти идеи легли в основу современной теории глубоких нейронных сетей.

Функции активации

Нелинейность является принципиальным компонентом нейрона. Если использовать только линейную функцию активации, любая композиция слоёв сведётся к одному линейному преобразованию.

Наиболее распространённые функции активации:

В современных архитектурах наиболее популярными являются ReLU-подобные функции благодаря устойчивому распространению градиентов и высокой вычислительной эффективности.

Геометрическая интерпретация

Один нейрон реализует разделение пространства признаков гиперплоскостью

\mathbf{w}^\top\mathbf{x}+b=0.

По одну сторону гиперплоскости значение активации велико, по другую — мало.

Следовательно, один нейрон способен строить только линейную разделяющую поверхность.

Именно поэтому одиночный перцептрон не способен решить задачу XOR. Для решения нелинейно разделимых задач необходимы скрытые слои, формирующие сложные нелинейные отображения.

Роль в глубоком обучении

Хотя отдельный нейрон является весьма простой моделью, объединение большого числа нейронов позволяет получать чрезвычайно сложные вычислительные структуры.

Современные нейронные сети содержат от миллионов до сотен миллиардов параметров. При этом каждый отдельный нейрон выполняет лишь простое локальное преобразование.

Высокая выразительная способность сети возникает благодаря сочетанию:

  • большого количества нейронов;
  • нелинейных функций активации;
  • композиции большого числа слоёв;
  • совместной оптимизации всех параметров.

Теоретические результаты

Одним из фундаментальных результатов современной теории нейронных сетей является теорема об универсальной аппроксимации.

Она утверждает, что многослойная сеть с достаточным числом нейронов и нелинейной функцией активации способна приблизить любую непрерывную функцию на компактном множестве с произвольной точностью. Позднейшие работы существенно расширили этот результат, распространив его на различные архитектуры и классы функций активации.

Следует отметить, что теорема носит существовательный характер: она гарантирует существование подходящей сети, но не утверждает, что её можно эффективно обучить.

Современная теория также изучает:

  • выразительную способность отдельных нейронов;
  • влияние глубины сети;
  • свойства различных функций активации;
  • устойчивость обучения;
  • интерпретируемость внутренних представлений.

Биологическая интерпретация

Несмотря на терминологическое сходство, искусственный нейрон является крайне грубой абстракцией биологического нейрона.

В биологических нервных системах учитываются:

  • временная динамика сигналов;
  • спайковая активность;
  • химическая передача;
  • пластичность синапсов;
  • сложная морфология дендритов.

В большинстве моделей машинного обучения эти процессы игнорируются, поскольку значительно более простая модель оказывается достаточной для решения практических задач.

Практические рекомендации

При проектировании современных архитектур редко рассматривают отдельные нейроны изолированно. Вместо этого внимание уделяется:

  • выбору функции активации;
  • нормализации (Batch Normalization, Layer Normalization);
  • инициализации весов;
  • регуляризации (Dropout, weight decay);
  • архитектуре сети;
  • оптимизатору.

Тем не менее понимание математической модели отдельного нейрона необходимо для понимания принципов работы глубоких нейронных сетей.

См. также

Литература

  • McCulloch W. S., Pitts W. A Logical Calculus of the Ideas Immanent in Nervous Activity // Bulletin of Mathematical Biophysics. — 1943. — Т. 5. — № 4. — С. 115–133.
  • Rosenblatt F. The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain // Psychological Review. — 1958. — Т. 65. — № 6. — С. 386–408.
  • Rumelhart D. E., Hinton G. E., Williams R. J. Learning Representations by Back-propagating Errors // Nature. — 1986. — Т. 323. — С. 533–536.
  • Cybenko G. Approximation by Superpositions of a Sigmoidal Function // Mathematics of Control, Signals and Systems. — 1989. — Т. 2. — № 4. — С. 303–314.
  • Hornik K. Multilayer Feedforward Networks are Universal Approximators // Neural Networks. — 1989. — Т. 2. — № 5. — С. 359–366.
  • Tsoi A. C., Scarselli F. Universal Approximation Using Feedforward Neural Networks: A Survey of Some Existing Methods, and Some New Results // Neural Networks. — 1998. — Т. 11. — № 1. — С. 15–37.
  • Goodfellow I., Bengio Y., Courville A. Deep Learning. — MIT Press, 2016.
  • Bishop C. M. Pattern Recognition and Machine Learning. — Springer, 2006.
  • Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. — Springer, 2009.
  • Goodfellow I., Bengio Y., Courville A. Deep Learning2026-06-30.