squared error and softmax
squared error 下,梯度是 y * (1-y) *(-2 * (t - y)) 如果y=0,那么梯度不见了
softmax error下,梯度是 y * (1-y) / (y) 如果y=0,那么梯度还蛮大
squared error 下,梯度是 y * (1-y) *(-2 * (t - y)) 如果y=0,那么梯度不见了
softmax error下,梯度是 y * (1-y) / (y) 如果y=0,那么梯度还蛮大