通用学习符号集 - 北京智源人工智能研究院

我们的目标：对机器学习中常用的数学符号提供一个通用的标准。

数学符号，就是用一套符号来表示数学概念、数学关系。自15世纪以来，已形成包含200个符号的数学符号体系集，它们令数学作为科研通用语言，对包括计算机在内的现代科学蓬勃发展，起着举足轻重的作用。

但在人工智能、机器学习等新兴学科领域，方兴未艾的数学符号集尚存在符号不统一、容易混淆的问题，这在某种程度上阻挠了人工智能理论和技术交流的快速发展。为此，我们提出了机器学习领域的通用数学符号集。

第一版中，我们所选的主要是机器学习领域中常用、重要且对文章理解比较关键的一些符号。包括：数据集合（Dataset）、函数（Function）、损失函数（Loss function）、激活函数（Activation function）、两层神经网络（Two-layer neural network）、一般深度神经网络（General deep neural network）、复杂度（Complexity）、训练（Training）、傅里叶频率（Fourier Frequency）、卷积（Convolution）等类别。同时我们提供了这些符号的LaTeX代码，方便大家使用。

我们正在完善更多机器学习领域的符号定义，欢迎大家持续关注我们以后的定期更新，也可参见 GitHub 项目。Latex宏包可以从 CTAN 和 GitHub 下载。欢迎大家到 GitHub 提 issues 一起帮助我们改进符号系统。

符号表

部分符号展示，更多见指南

\(S=\{\mathbf{z}_i\}_{i=1}^n=\{(\mathbf{x}_i,\mathbf{y}_i)\}_{i=1}^n\)
Dataset
\(\mathcal{H}\)
function space
\(f_{\mathbf{\theta}}:\mathcal{X}\to \mathcal{Y}\)
hypothesis function
\(L_{S}(\mathbf{\theta}), L_{n}(\mathbf{\theta}), R_{n}(\mathbf{\theta}), R_{S}(\mathbf{\theta})\)
empirical risk or training loss
\(f(\mathbf{x};\mathbf{\theta})=\sum_{j=1}^{m} a_j \sigma (\mathbf{w}_j\cdot \mathbf{x} + b_j) \)
two-layer neural network
\({\rm Rad}_{n} (\mathcal{H})\)
Rademacher complexity
GD
gradient descent
SGD
stochastic gradient descent
\(B\)
a batch set
\(|B|\)
batch size
\(\eta\)
learning rate
\(\mathbf{\xi}\)
continuous frequency

专家评语

包承龙

清华大学助理教授

The document provides comprehensive, clear mathematical notations that commonly used in machine learning. These consistent definitions are easily accessible for beginners and facilitate the communications of researchers from different backgrounds, which are important for the development of this interdisciplinary subject.

...展开

李铁军

北京大学教授

机器学习的普及迫切呼唤一套统一的数学记号，它将大大减轻研究者读论文时由不同符号体系造成的困扰。由志钦负责整理的“Suggested Notation for Machine Learning”广泛吸收已有文献约定，是沿着这一方向的重要贡献。

...展开

明平兵

计算数学与科学工程计算研究所研究员

机器学习作为一个高度交叉而又发展迅猛的学科，吸引了来自数学、物理、化学、生物、统计、工程甚至人文社科等不同学科的众多研究人员，并对这些学科迅速产生了巨大的影响。对于来自不同学科的研究人员来说，一个现实的问题就是如何消除交流障碍，而交流障碍的一个主要来源就是记号（符号）问题，而记号是一个学科的语言。对于不同学科，我们经常发现看起来相去甚远的两个记号很可能表达的是同一个概念。在一个学科已经得到大家公认的优美简单的记号在另一学科被重新发现、重新定义，而新定义的记号很可能远不如已有的记号来得方便。这个机器学习的记号统一计划(Suggested Notations for Machine Learning）是一个非常及时的举措，它有助于统一机器学习的语言，极大地消除交流障碍。当然，这个计划还需要来自不同学科的研究人员的积极参与和主动贡献，最后才能实现机器学习的主要记号的统一。

...展开

于海军

计算数学与科学工程计算研究所副研究员

机器学习已经有超过半个世纪的历史，在当今的大数据时代开始在各行各业发挥着至关重要的作用。然而其相关知识涉及数学，概率统计，计算机理论等众多学科。不同学科，不同流派所使用的数学记号和表述不尽相同，这给新进入此领域的科研人员和工程应用人员造成了不少的潜在麻烦。智源研究院发布的这套数学记号建议，结合理论分析和实际应用需要，针对机器学习的核心内容给出了一套自洽而简洁的数学符号体系。此体系的使用有望为机器学习领域相关人员阅读文献和撰写论文提供方便，减少因符号习惯不同而引起的误解。

...展开

袁洋

清华大学助理教授

写论文像是讲故事，而各种符号则是作者使用的语言。当别人使用你不熟悉的语言讲故事的时候，故事再精彩也会变得晦涩难懂，甚至需要进行必要的翻译——把符号替换成自己熟悉的那一套。而这样的事情并不罕见：我发现不光是不同领域，哪怕是相同领域但是身处不同研究组的学者，使用的符号系统都会有一些不同。这就给每位读者都带来了不必要的麻烦。因此，我觉得为机器学习领域提供通用符号标准很有意义，希望它能够为科研人员提供便利，推动领域发展。

...展开

朱占星

北京大学助理教授

Machine learning has developed as an interdisciplinary field and impacted many other domains significantly. This has attracted researchers from different domains to involve the development of machine learning, including those from statistics, applied math, physics, computer science, electrical engineering, etc. This definitely raise the requirement to communicate with each other smoothly, and particularly, a consistent notation system is in demand. This proposal is an important starting step towards this goal. Thanks for the authors’ efforts! Indeed, this notation systems requires researchers from all the related fields to contribute and provide suggestions.

...展开

符号表

部分符号展示，更多见指南

symbol	meaning	LATEX	simplied
x	input	\bm{x}	\vx
y	output, label	\bm{y}	\vy
d	input dimension	d
do	output dimension d_{\rm o}	d_{\rm o}
n	number of samples	n
X	instances domain (a set)	\mathcal{X}	\fX
Y	labels domain (a set)	\mathcal{Y}	\fY
Z	= X × Y example domain	\mathcal{Z}	\fZ
H	hypothesis space (a set)	\mathcal{H}	\fH
θ	a set of parameters	\bm{\theta}	\vtheta
fθ : X → Y	hypothesis function	\f_{\bm{\theta}}	f_{\vtheta}
f or f ∗ : X → Y	target function	f,f^*
ℓ : H × Z → R+	loss function	\ell
D	distribution of Z	\mathcal{D}	\fD
S = {zi}ni=1	= {(xi, yi)}ni=1 sample set
LS(θ), Ln(θ),	empirical risk or training loss
Rn(θ), RS(θ)	empirical risk or training loss
LD(θ), RD(θ)	population risk or expected loss
σ : R → R+	activation function	\sigma
wj	input weight	\bm{w}_j	\vw_j
aj	output weight	a_j
bj	bias term	b_j
f∑θ(x) or f(x; θ)	neural network	f_{\bm{\theta}}	f_{\vtheta}
∑mj=1 ajσ(wj · x + bj )	two-layer neural network
VCdim(H)	VC-dimension of H
Rad(H ◦ S), RadS(H)	Rademacher complexity of H on S
Radn(H)	Rademacher complexity over samples of size n
GD	gradient descent
SGD	stochastic gradient descent
B	a batch set	B
\|B\|	batch size	b
η	learning rate	\eta
k	discretized frequency	\bm{k}	\vk
ξ	continuous frequency	\bm{\xi}	\vxi
∗	convolution operation	*

通用机器学习符号

我们的目标：对机器学习中常用的数学符号提供一个通用的标准。

符号表

专家评语

符号表

视频介绍