“不想学电气这个专业,可以好好考到年级前列,然后想学校申请转专业。而不是这样自暴自弃。”小杰宝表现得一副语重心长的样子,但孟繁岐很清楚,他只是担心怕出了劝退之类的事情,有可能会影响到他作为导员的成绩。
“这本身就是矛盾的一件事情,我不想学或者学不会一个专业,却偏偏要在这个专业里考到前面才有机会转专业。”孟繁岐可以理解这种规则是为了限制大规模转专业的行为,又或者是为了保护一些冷门的学科。
你或许可以限制他更换专业,可他毕业之后会从事这方面工作吗?甚至说,这方面的工作岗位到底有这么多吗?
通过这种方式让许多人困在自己不想学的专业之中,只能通过考研或者社会上的培训班再更换行业,以求得大学内某专业看上去欣欣向荣,实际上也只是掩耳盗铃罢了。
“况且老师,我并没有自暴自弃,在过去的这段时间内,我一直在努力学习和研究新领域的前沿知识。”孟繁岐指着自己的电脑屏幕,上面是他有关“批归一化”论文的草稿,主要讨论的是深度神经网络训练过程中的内部协变量偏移问题。
“实在不行的话,我想休学一年。”孟繁岐也曾考虑过这个问题,他一方面已经放弃电气方向的学科,另一方面还没有资本转去相应专业或者前往其他高校继续就读。
办理休学,学校和学院的一些琐事就不会影响到自己。但考虑到办理休学,学校方面很难会不知晓自己的家长,孟繁岐思忖了一下,还是没有做这个决定。
家中父母为了自己付出了不少,眼下一时间很难拿出二老能够理解的证据让他们放心,孟繁岐不希望影响父母的心情和日常生活。
“你不要随便拿一些英文的文献来忽悠我。”其实导员看到这里已经有些相信他的话了,但他今年已经跟学院领导夸下海口,绝不会让学生有休学劝退记大过这样的事情发生。“倘若你还是这样嘴硬,我只能请你的父母来学校一趟了。”
孟繁岐听到这里眼神一冷,若导员真是为他着想,这事情不是不能解释开来。但他心里清楚的很,这多半又是他自己的小九九。
“不用搞得这么麻烦,不就是学生的兴趣有些转变吗。我们在大学做工作的,应该关注学生的想法,关注学生的需求。为学生提供更好的环境和条件。动不动就麻烦学生家长,像什么样子?我看这位同学电脑屏幕上的草稿就有点意思。”
一個面相儒雅的中年男人不知何时出现在了导员的身后,他的打扮略有些讲究,戴着一副无框的金丝边眼镜,梳着背头,发路丝缕分明。
“付院长?”导员看清来者的长相,吓了一跳,“您怎么到这儿来了?”
付德清是燕京电力学院数理学院的院长,虽然数理学院在该校不是什么大院,但付院长还兼任校党委内要职,因此地位颇高。
总想着往上爬的导员看到付院长之后,顿时便偃旗息鼓,陪着笑脸道,“一切交由付院长处理,我不打扰,我先走了哈。”
孟繁岐连忙起身,他看出来付院长来此不是偶然,大有可能是特意来找自己。
但思来想去,想不出自己有什么地方会吸引到别院的院长大驾光临。
“深度神经网络训练中的内部协变量偏移会导致较深层的输入分布收到严重的影响,深层的神经网络为了适应被偏移的数据分布,只得采用保守的方式优化参数,从而极大影响了训练速度和训练难度。”付院长也未解释这点,只是自顾自地看起了孟繁岐屏幕上的内容。
“你这里说的深度神经网络指的应该是你自己提出的那种上百上千层的神经网络,而不是目前业界的深度网络吧?”付院长转过头来,微笑问道。
“付院长您是怎么..”孟繁岐先是愣了一下,然后猛地反应过来,目前只有那个女生看到过自己提前准备的残差网络草稿。“是那个女生跟您说的?”
“哈哈哈,她是我的小师妹。”付院长笑道,“前段时间来这里,也顺便来拜访了我一下,提到了我们学校有个学生在研究什么深百层千层的神经网络,研究得像模像样的。”
“说实在的,这也不是我的领域,如果不是以前的老师让我关注一下这方面,我还真是一窍不通。这两天我还在查询资料呢,我说这哪有什么上百层的神经网络,去年年底那个夺冠的AlexNet不也才8层的深度吗。”
“我也只是刚刚有一些想法。”孟繁岐连忙解释道。
“你不用紧张,我只是稍微有些好奇,想看看咱们学校到底是不是出了个这方面的天才。若是真的,我肯定大力支持。”
孟繁岐连忙先请付院长坐下,先为他大概介绍了一下背景,原理和现阶段难题。
付院长本身是纯数学出身,此前又在老师的指示之下对这个领域稍稍了解过一些,因此孟繁岐没说太多,他就已经掌握了大概。
“你认为深度网络难训练的问题本质上是梯度问题,所以你想使用残差的形式。”付院长喃喃自语,左手握拳,撑住了自己的下巴。
“如果不去深究神经网络本身的变换,而只是将其的变换理解为一个未知的高维函数的话,f(x)的多次累加会比x+f(x)的残差形式要不稳定太多。”孟繁岐后世主要以理解算法的流程,了解几种对比方法的优缺点为主。
对于其具体的内在原理,数学推导,平心而论,他的关心远远不足。现下正是弥补这部分短板的大好机会。
“如果我们讨论一个函数的多次嵌套,f(f(f(f(..f(x)..))))的话,不管是否是残差的形式,都是相当难以分析的。从数学上直观来看,两个相同次数的嵌套,有残差与否,不应当会改变该函数的实际表达能力。也就说,你构建的模型其对函数拟合的能力是与原本相当的。”
“倘若真的可以观察到明显的改善,那说明这种残差的形式只是能够让你所说的模型更容易被优化。换言之,以我的视角来说,该函数的求解变得更加精确了,从这个角度来看,残差是一种简洁的欧拉前向形式。”
付德清说着,拿起了纸笔开始了一些推演。孟繁岐疏于数学上的推演,但他很熟悉这种形式构建的网络有什么特性,因而越听越觉得惊奇。付院长的数学分析竟然相当接近不少后来的实验结果。
只可惜自己看他亲自上手推论,却稍微有些吃力了。
此时此刻和他一样一头雾水的还有附近竖起耳朵吃瓜的几名高年级学长学姐。