rust手写神经网络

kirito

2024-03-30 2024-04-21 约 2271 字预计阅读 10 分钟次阅读条评论

用rust实现上篇笔记：神经网络的结构中描述的神经网络
还在实现中。。。

https://github.com/kirito41dd/Hello-NN

训练过程

确定loss函数,$f(x)$为样本的推理结果,$y$是目标结果，多个样本sum得出loss

$$ loss=\frac{1}{n}\sum^n_{i=1} (f(x_i)-y_i)^2 $$

将训练样本分为n个batch，每个batch n个样本
按batch进行训练，将batch中每个样本进行正向传播
记录每个样本的结果，以及这个样本正向传播过程中的所有中间结果
遍历完每个样本后，计算loss
通过loss值对每个样本进行反向传播，过程中需要用到前面缓存的中间结果
记录每个样本反向传播过得到的梯度，将所有样本的梯度求平均值，得到最终调整网络的梯度。因为loss是sum的，所以在算一个样本偏导时，其他样本为常量，求导是0，所以每个样本梯度可以独立计算。

$$ a^2 -2ab + b2 => 2a-2b => 2(a-b) => \frac{2(a-b)}{n} $$

根据学习率调整网络参数
将所有batch如此循环来一遍，完成一轮训练
用所有训练样本计算下loss，多轮训练后得到满意的模型

神经网络的表示

要实现的是一个全连接神经网络，整个网络模型有很多层(Layer)，除了输入层输出层，其余层都统称为隐藏层，对于要实现的网络可以叫全连接层。在每层里都有若干神经元，每个神经元上都保存着该神经元的偏置$b$和与上层神经元链接的每条边的权重$w$。可以对Layer进行一定程度抽象，每一层都支持正向传播、反向传播、更新参数

rust

pub struct NeuralNetworkModel {
    pub layers: Vec<Box<dyn Layer>>,
}

pub trait Layer {
    // 正向传播
    // 返回：本层输出 & 本层中间结果
    fn forward(&mut self, input: &MatView, training: bool) -> (Mat, LayerCache);
    // 反向传播
    // grads: 后面一层传递过来的梯度
    // cache_forward: 本层正向传播时的输入和激活值，内容为forward的返回
    // 返回: 本层向前一层传递的梯度 & 本层所有梯度值
    fn backward(&mut self, grads: &MatView, cache_forward: &LayerCache) -> (Mat, LayerCache);
    // 更新权重和偏置
    // grads: 本层调整参考的梯度, 内容格式与backward返回的一致
    fn update(&mut self, learning_rate: f32, grads: &LayerCache);
}

在实际操作中，可以把一个全连接层拆为两层，即将激活函数抽出单独虚拟为一层，这样更加灵活

rust手写神经网络.png

激活函数层

先看简单的激活函数层，使用sigmod作为激活函数，激活函数层上没有任何权重和偏置，所以不需要存储任何参数：

rust

// 使用激活函数sigmod的层
pub struct SigmodLayer {}

正向传播时只需要求每个输入的sigmod值即可，sigmod的公式是：

$$ \sigma(x) = \frac{1}{1+e^{-x}} $$

rust

// 激活函数层每个神经元只有一条入边, 只是对上层的输出做一个转换, 矩阵形状n行1列
fn forward(&mut self, input: &MatView, training: bool) -> (Mat, LayerCache) {
	let out = input.map(|x| sigmod(*x));
	// 只有在训练时候才保存输出值，反向传播会用到
	let mut cache = vec![];
	if training {
		cache.push(out.clone());
	}
	(out, cache)
}

求导公式如下详见：Sigmoid函数求导

$$ \sigma' = \sigma(x)(1-\sigma(x)) $$

有了求导公式，就可以写出sigmod层反向传播的实现：

rust

// 激活函数层反向传播, 对sigmod(x)求导即可, 每个神经元只有一条入边,返回的梯度是 n行1列
// simod(x)求导是 sigmod(x)*(1-sigmod(x))
// 每个神经元有多条出边,链式法则后要累加结果
fn backward(&mut self, grads: &MatView, cache_forward: &LayerCache) -> (Mat, LayerCache) {
	// sigmod(x)的值
	let a = cache_forward[0].view();

	// 激活函数层的输入和输出数量是相等的, 返回值长度和前一层神经元数量一致
	let mut r = Mat::from_shape_fn((a.len(), 1), |(_, _)| 0.);

	// 对每个神经元求梯度
	for (i, out) in a.iter().enumerate() {
		// 累加当前神经元每条出边的偏导
		for g in grads.rows().into_iter() {
			// 链式法则,与输入偏导相乘
			// 当前神经元为 i, 所以g也取每行第i个
			r[(i, 0)] += g[i] * (out * (1.0 - out));
		}
	}

	// 激活函数层没有任何存储任何权重和偏置,无需update
	(r, vec![])
}

没有参数，所以不需要根据梯度更新参数：

RUST

fn update(&mut self, _learning_rate: f32, _gradss: &LayerCache) {
	//不需要做任何事情
}

测试：
rust手写神经网络-1.png

正向传播：输入两个$0$，sigmod层激活值是$0.5$，输出层值为$1$
反向传播：$z=wa+b$对$w$求偏导为$a$，所以输出层每个边的偏导为$0.5$
sigmod层的偏导为 $\sum \sigma \times (1-\sigma) \times g = 0.5 \times (1-0.5) \times 0.5 = 0.125$，每个神经元只有一条出边所以不用sum

rust

let mut s = SigmodLayer::new();
let a = s.forward(&array![[0.], [0.]].view(), true);
println!("a:\n{}", a);
assert_eq!(a, array![[0.5], [0.5]]);
let g = s.backward_and_update(&array![[0.5, 0.5]].view(), 0.1);
println!("g:\n{}", g);
assert_eq!(g, array![[0.125], [0.125]])

完整代码 4157fcb

全连接层

全连接层需要存储w和b，并且特地不带激活函数：

rust

// 没有激活函数的全连接层
pub struct DenseLayerNoActive {
    // 每个神经元与上一层所有神经元边的权重, n行j列,n是本层神经元个数,j是前一层神经元个数
    pub w: Mat,
    // 每个神经元的偏置, n行1列
    pub b: Mat,
}

正向传播公式很简单，单个节点的激活值：

$$ z = w_1\times a_1 + w_2\times a_2 +\ ... + w_n*a_n + b $$

RUST

fn forward(&mut self, input: &MatView, training: bool) -> (Mat, LayerCache) {
	// 计算每个神经元激活值 w1*a1 + w2*a2 + ... + wn*an + b
	// 矩阵计算,一次算出结果, w的每行乘以输入的一列最后加b
	let r = self.w.dot(input) + &self.b;
	let mut cache = vec![];
	if training {
		cache.push(input.to_owned());
	}
	(r, cache)
}

对 $w_i$ 求偏导为$a_i$ 对$b$求偏导为$1$
反向传播：

rust

// 每个神经元有多(k)条入边返回的梯度是 n行k列
// z=w*a+b 对w求导是a, 对b求导是1
// 每个神经元看作有多条出边,链式法则后仍要累加(大多情况后一层是激活函数层,只有1条出边,但不排除其他可能)
fn backward(&mut self, grads: &MatView, cache_forward: &LayerCache) -> (Mat, LayerCache) {
	let a = cache_forward[0].view();

	let mut bias_grads = Mat::zeros(self.b.raw_dim());
	let mut w_grads = Mat::zeros(self.w.raw_dim());

	// 对每个神经元求所有w和b的偏导, 每个w的导数都是与其相乘的a, w不需要参与, 对b的偏导是1
	for (i, _) in self.w.columns().into_iter().enumerate() {
		// 累加当前神经元每条出边上的偏导, grads的每行,都是前一层某个神经元和本层连线的偏导
		for g in grads.rows().into_iter() {
			// b在这里求 链式法则相乘
			bias_grads[(i, 0)] += g[i] * 1.;
			//每个神经元上都有和前一层神经元的边, 连接w和a
			for (k, a) in a.rows().into_iter().enumerate() {
				w_grads[(i, k)] += a[0] * g[i];
			}
		}
	}

	let grads_cache = vec![bias_grads, w_grads.clone()];

	// 入边只和w有关系,不用返回偏置上的偏导
	(w_grads, grads_cache)
}

最后实现参数更新：

rust

fn update(&mut self, learning_rate: f32, grades: &LayerCache) {
	let bias_grads = grades[0].view();
	let w_grads = grades[1].view();
	// 更新偏置
	let (i, j) = (self.w.shape()[0], self.w.shape()[1]);
	for i in 0..i {
		for j in 0..j {
			self.w[(i, j)] -= learning_rate * w_grads[(i, j)];
		}
		self.b[(i, 0)] -= learning_rate * bias_grads[(i, 0)];
	}
}

测试：
rust手写神经网络-2.png

rust

let mut d = DenseLayerNoActive {
	w: array![[2., 2.], [2., 2.]],
	b: array![[0.1], [0.1]],
};

let (a, f_cache) = d.forward(&array![[0.5], [1.]].view(), true);
println!("a:\n{}", a);
assert_eq!(a, array![[3.1], [3.1]]);
let (g, b_cache) = d.backward(&array![[3.1, 3.1], [3.1, 3.1]].view(), &f_cache);
println!(
	"g:\n{}, b_cache:\ng_b:\n{}\ng_w\n{}",
	g, b_cache[0], b_cache[1]
);
assert_eq!(g, array![[3.1, 6.2], [3.1, 6.2]]);
d.update(0.1, &b_cache);
println!("d.w:\n{}\nd.b\n{}", d.w, d.b);

完整代码 4157fcb

参考

神经网络的结构
Digit Recognition with Rust and WASM - Part 1
A tiny artificial neural network rust library(每个样本都立即反向传播，相当于只能batch size都是1，不知道是故意的还是不小心的)

$$ C_x = \frac{(y-a)^2}{2} a = \sigma(z) \delta^L= a - y $$

目录

目录

rust手写神经网络

训练过程

神经网络的表示

激活函数层

全连接层

参考