在处理一些人工智能或者机器学习问题时,对于一些分布的认识非常重要。比如我们最基础的卷积神经网络的神经元初始化参数,很多时候采用norm也就正太分布进行初始化效果是最好的,可是大家有没有思考过这背后蕴含的基本原理到底是什么呢?
正太分布
到底什么事正太分布?大家比较熟知的应该是比如人类的身高、社会的财富分配都近似的服从正太分布。说到底是一种居中的策略。但是事实上,自然界真的都是或者大多数情况下都是正太分布的吗?正太分布真的随机吗?
曾经有一个比较有名的装置来产生正太分布得到直观理解:
这个就是高尔顿漏摆。它最后会形成正太分布曲线。
实际上正太分布并不是自然界主导的分布。
重尾分布
比正太分布更加常见的,其实是重尾分布,大家都知道马太效应的存在,也就是说,穷者愈穷,富者愈富,少数的个体总是占据着大部分的资源。在很多时候都表现出这种头部效应。比如公司,大公司可能占据着市场80%的份额,而无数的小公司蚕食剩下的20%.最终资源、财富会源源不断的往头部集中。更准确的说,长尾分布是大自然重一个更加普遍的存在。