我想写我的话_ 我的八年博士生涯——CMU王赟写在入职Facebook之前

作者:王云·麦戈CMU·王云上个月毕业于医生。在卡耐基梅隆大学(CMU)语言与技术学院(LTI)获得两年硕士学位和六年博士学位后,他有话要说。学术文章我将于下周一开始在脸书上工作在加入这个职业之前,我想写下我在博士生涯中的经历。如果你不写信,天气会变冷的。从2010年8月到2018年10月,我把我最好的青春献给了卡耐基梅隆大学(CMU)语言与技术学院(LTI)其中,头两年是硕士,但由于在LTI硕士的生活与医生的生活没有太大区别,所以说八年是医生并不算过分。仅从长度上看,我可以看出我的医生生涯并不一帆风顺。我读了这么久的主要原因是我改变了两个研究项目。这三个研究项目给了我不同的经验和见解从入学到2012年春天,我跟随秦进教授学习说话人识别。在过去的两年里,我使用Matlab语言提取了十多个语音特征和各种基于GMM、GMM-UBM、SVM、JFA等技术的说话人识别系统。然而,我在这段时间的研究进展非常缓慢,没有赶上当时的前沿。我的研究结果没有发表在论文中,只是形成了一份技术报告。这可能是因为我没有从“学习者”心态转变为“研究者”心态。我总是想打下坚实的基础,因此花了太多的时间去理解和复制现有的技术——2011年夏天,我花了一个多星期去演绎JFA复杂的矩阵运算。在实验的设计中,我也没能“抓大放小”,而是曾经执着于一些小细节,比如训练数据和测试数据的划分这些原因导致了我还没到“创新”的阶段,研究项目就结束了秦进教授于2012年春天被调到中国人民大学,所以我以弗洛里安·梅兹教授的名义调到同一实验室学习弗洛里安是一位又高又胖的德国教授。在中文里,我通常叫他“葛花”我在葛花领导下做的第一个项目是巴别塔,其任务是在各种小语言声音中搜索关键词。与我之前单独做的说话人识别项目不同,巴别项目是由美国和世界上许多大学和公司共同参与的。许多大学或公司通过合作关系组成团队,而团队之间相互竞争。我在这个项目中的经验更像是工作而不是科学研究,因为项目早期的主要任务是建立一个仍然可以使用的系统,然后在此基础上慢慢创新。关键词检索系统通常由两个模块组成:前端模块是语音识别,负责给出各种可能的识别结果;后端模块是检索,负责在识别结果中搜索关键词并对其可靠性评分。我在这个项目中承担了大量的工程工作:整个后端模块基本上由我维护;我还开发了一些可视化工具来分析系统产生的错误。然而,从科学研究的角度来看,我的工作的技术含量不高:检索模块使用的技术,坦率地说,只是一个倒排索引。直到2014年,我们的实验室才脱离了纯粹的工程开发,开始研究一些具有科学研究价值的问题,例如如何更准确地对检索到的每个关键词的可靠性进行评分,从而最大限度地减少漏报和误报。例如,如何检索词典中找不到的关键词,如专有名词然而,2014年6月,当我在韩国林根市的观光团队排队时,我在脸书上从实验室的同学那里收到了坏消息:由于CMU团队在年度评估中开发的系统性能不佳,我们的团队被淘汰了。到目前为止,我只发表了一篇接一篇的文章。经过五次拒绝后,我终于封上了另一张纸。智虎有一个问题:医生第三年没有发表论文是什么样的经历?我认为我适合回答,但我毕竟没有勇气回答。2014年下半年是我博士生涯的过渡期。在此期间,我没有进行任何科学研究,而是把精力花在了给自己充电上。只有一篇论文,我参加了2014年9月在新加坡举行的种间会议。在会上,我感觉到了深度学习正在兴起的信号。整个秋季学期,我在会议上阅读了近100篇论文,还学习了杰弗里·辛顿(Geoffrey Hinton)关于Coursera的深入学习课程。这让我的博士生涯变成了一个全新的村庄。关于医生职业生涯的最后一个研究课题,华哥当时给了我三个选择。我不记得其他两种选择是什么了。我选择“事件检测”只是因为它有机会在脸谱网上练习。2015年1月至4月,我在脸书上实习,这也是我唯一的一次实习由于版权限制,我无法使用脸谱网上的CMU数据真正进行“事件检测”研究,而只能改进脸谱网原有的语音/噪音解决系统。从科学研究的角度来看,这次实习只是一次深入学习的实践。但它让我在海湾地区交了很多朋友,让我觉得海湾地区是个好地方,因此创造了去脸谱网工作的理想。这个理想现在将会实现。直到我回到CMU,我才真正开始学习“事件检测”。在研究开始时,我对“事件”没有一个明确的定义。我不仅想检测低级别的事件,如猫叫、狗叫、开门关门,还想检测高级别的事件,如球类游戏、婚礼、派对等。阿拉丁的目标是探测这些高级别事件,阿拉丁是当时CMU参与的另一个研究项目。直到2016年阿拉丁项目逐渐结束,我才把研究重点放在了潜在事件的检测上。我选择研究底层事件的原因是它们是检测顶层事件的基础。当我检测不到底部事件时,我会走得太远而无法检测到顶部事件。然而,随着用于语音识别的最后一滴深度学习逐渐枯竭,人们自然会开始尝试使用深度学习来识别其他事物。底层事件检测的研究条件已经成熟:在2016年3月的ICASSP会议上,我和芬兰坦珀理工大学的研究团队同时发表了一篇关于利用深度学习进行底层事件检测的论文。2016年,我的研究一直受到一个难题的困扰,即数据太少我使用的数据是由实验室的工作人员手工标记的,总共只持续了十多个小时,无法用于深入研究。2017年3月,谷歌发布了音频数据集,这保存了我的研究,并最终使我毕业成为可能。音频集是以“大”为特征的数据集。它包含了200万段10秒的视频摘录,我花了整整一个月才下载完这些数据。这样的大数据适合于深入学习。但是,音频集还有另一个重要特性,即“弱标记”:它不标记每个事件的开始和结束时间,而只标记每个音频片段中的事件类型这个注解直接给一个研究领域带来了激情——“弱注解下的音频事件检测”,这几乎就是我博士论文的题目。从那以后,我的博士论文的主题已经明确:努力在现有的使用弱标签的事件检测方法的基础上进行创新,并取得比现有方法更好的结果。剩下的事情就是与博士毕业的预期时间赛跑这段时间非常激动人心。我原本计划在2017年9月开始讨论这个话题,但实际的开始时间是10月9日,几乎没来得及。今年2月和3月,我又一次陷入了细节的角落(PyTorch和Anao之间的性能差距),浪费了两个月的时间。4月,我注意到英国萨里大学的孔·邱强提出了一种基于注意力机制和使用弱标签的事件检测新方法。这让我突然醒来,跳出角落,回到研究的主线。本文最重要的两章之一是比较几种弱标记事件检测方法的优缺点,并深入分析性能差距的原因本章于2018年6月底完成,与计划时间完全一致。另一章的核心问题是在8月16日散步时想出一个解决方案。9月份,我继续做一个小实验,这个实验应该在8月份完成,当时我正在写毕业论文。另一方面,10月5日的辩护幻灯片初稿于9月30日完成。比赛直到10月26日晚上才结束,那时我完成了毕业论文并整理好了代码。这时,我父母在美国只有五天时间来看我。在回顾了我八年的博士生涯后,不难发现,由于自身和外界的各种因素,我走了很多弯路。在这三个研究项目中,只有最后一个出现了博士研究。偶尔,我会想:如果我一开始就完成了第三个项目,那么我可以在四年内毕业。但我不会沉浸在这种情绪中正如吃第三个馒头并不意味着免费吃前两个馒头一样,我不认为我在CMU的前四年是浪费的。经过八年的学习,我对语音识别的理论基础、深入学习等领域有了扎实的掌握。葛花举办了一个语音识别班,在这个班里,说话者的识别被固定在我身上。学生们回答说,我说得比葛花清楚得多。与此同时,正是因为我涉足了许多研究项目,我对许多与发音相关的研究领域有了知识和兴趣。当举行学术会议时,我总是能挑选出许多我想听的报告,不停地从一个地点移到另一个地点。不付出时间,这种深度和广度是无法实现的。娱乐CMU·LTI的学生名单上曾经列出了每个博士生的成绩。《CMU之声》的一张非官方海报将12年级新生和78年级高级医生的名单与“尽情歌唱”的口号并列在一起谈到我的医生八年的学习,也许大多数人心中的第一个词是“苦”在漫长的博士生涯中,总会有挫折,比如不成功的实验和被拒的论文。在以后的时期,我会经常担心毕业。然而,认识我的人可能会知道,我的身体似乎从来没有散发出“苦涩”的气味,而是整天都很快乐。八年后,我周围的朋友一个接一个地改变了。有人戏称它为“流水的CMU,铁的麦戈”我和我的朋友们喜欢匹兹堡和美国东北部。和他们在一起,我很少感到孤独。这些朋友大多是优等生。他们年轻的精神让我精神上保持年轻。在匹兹堡的第一年,我加入了三个组织第一个是CMU中国学生学者协会(CSSA)CSSA每年中秋节都会举办才艺比赛。随着“中国好声音”的推出,比赛也更名为“CMU好声音”。每年春节期间,都会举行春节联欢晚会。中秋节的第一年,我成了一个不知名的吃瓜者。春节联欢晚会上,我带着吉他弹了一次酱油,但我没想到我弹唱的老伙计们获得了一致的赞扬。在春节联欢晚会上,我和韩继鹏一起演奏并演唱了这首歌《老男孩》,这首歌让我大受欢迎。我还加入了CSSA,担任网络经理。然而,我更重要的角色是在每年的春节联欢晚会上成为一名普通演员。我还参加了CMU好嗓子的几场演出,其中与@Gus Xia合作的《沉默之声》最受欢迎。第二个组织叫做匹兹堡花花公子俱乐部这是由CMU和几个隔壁的大学生组成的。它最初是一种桌上游戏,比如打狼和杀人。当时,《狼杀》还没有发展出这么多的术语和套路,一群小白人一起玩还是很有趣的。除了杀死狼之外,我们后来还一起做饭、滑冰、参观博物馆,还乘坐灰狗巴士去华盛顿看樱花。我的智湖头像是在华盛顿观看樱花时拍摄的。后来,组织中的男孩和女孩配对,活动逐渐减少。我成了那个离开的人,因为那时我家里还有一个女朋友。第三个组织是匹兹堡卡内基图书馆的日本角(我通常称这个图书馆为“恐龙图书馆”,因为图书馆入口处有一个恐龙雕塑)日本角每两周举行一次,日本参与者和像我这样的外国人学习日语。我在清华找到了参与日语角的感觉。恐龙图书馆有英语、西班牙语、法语、德语、意大利语、俄语、日语、汉语和许多其他语言的角落(是的,还有一个中文角落!)除了日本角,我还在西班牙角和法国角和外国人谈笑风生。2012年世界末日,我应一个小朋友的召唤去了欧洲。这是迄今为止我仅有的几个纯粹的(即没有竞争或学术会议)海外旅行之一。我们分别在西班牙和意大利呆了一周,在巴塞罗那、马德里、罗马和佛罗伦萨比赛这次旅行激发了我出国旅行的兴趣。在接下来的几年里,我和我的朋友或独自去了波多黎各、韩国、新加坡、夏威夷、坎昆、阿根廷和其他地方(尽管有些人不在国外)。在最初的几次旅行中,我给世界各地的朋友寄了明信片,最多的是38张在韩国。起初,我仍然坚持每天记日记(用当地语言),但最后我再也坚持不住了。考虑到没有人读过日记,我开始写旅行笔记。我认为坎昆的旅游记录还是相当不错的。我在波多黎各、韩国和新加坡的日记2013年夏天,我遇到了我在美国最神奇的朋友之一,韩国的杰森叔叔杰森应该65岁左右,但他仍然未婚。他的职业是代码农业,但他和我一样有很多爱好。杰森和我在恐龙图书馆的日本角相遇。除了日语,他还喜欢骑自行车、保龄球、网球、滑雪和其他运动,以及烹饪、唱歌和旅游。除了网球,这些项目也是我最喜欢的,甚至是我的专长。我们很快就成了一体。杰森有很多朋友。在他来到匹兹堡之前,他住在德克萨斯州的奥斯汀和弗吉尼亚州北部的华盛顿附近。不管他在哪里,只要他在meetup.com组织活动,他总能对每一个请求做出回应。这些朋友来自世界各地,他们的年龄从20岁到70岁不等。仅仅和他们交谈就能提供很多信息。在CMU的中国学生中,我可以被认为与非中国人有更多的接触。他们大多数来自杰森的朋友圈。自2013年秋季以来,我一直与杰森和朋友一起在匹兹堡的许多自行车道上骑车。以前,我在匹兹堡骑的最远距离是34英里,也就是从松鼠山到北公园(那里也有樱花)的距离和杰森一起,我开始挑战更远的距离,我花了一年多的时间才达到一天80英里的水平。2015年5月,杰森,我的室友@钟茵和一个印度哥哥挑战了从华盛顿到匹兹堡长达335英里的整条自行车道。我们花了四天时间成功挑战。骑这条自行车道已经成为我每年的预订。另一方面,杰森可能一年骑几次车,甚至在2016年的9天内还会往返一次。

我想写我的话

在最初的挑战中,在“洞穴”中拍照。由于工作变动,杰森于2017年初搬回弗吉尼亚。然而,他在匹兹堡的各种活动仍在继续。我和我的朋友仍然每周在匹兹堡打一次保龄球。我还带了许多CMU合伙人去北弗吉尼亚的韩国城吃饭本月初,当我带父母去美国东北部旅行时,杰森被邀请去吃饭。我父母说他们非常感谢杰森带我去探索许多新游戏,大大拓宽了我的视野。2017年4月,我和姐姐“机器人熊”的命运开始一起游览韩国城她喜欢和我一样“读几千本书,走几千英里”的经历。我们一起乘灰狗巴士去纽约,穿过死亡谷的沙漠。此外,经过一个多月的训练,她和我一起从匹兹堡骑马到华盛顿。在匹兹堡的最后两年里,我们经常和一群小朋友一起玩,他们主要是数学系的博士生。这群朋友中有一个露营天才,我们跟着他开发了许多新地方。我现在已经搬到海湾地区,在那里我永远不会缺少朋友。许多和我同时在CMU注册的硕士学生都在这里工作,甚至许多清华校友也在这里。2015年春天,当我在脸谱网上练习的时候,我还参加了一个“周日早起爬山”的小组,并认识了很多人。当我12月份在海湾地区定居下来时,我可以再约个时间!当我在生活中与姐姐交流时,我曾经说过这样一句“名言”我说,医生的职业生涯(甚至一生)就像在波涛汹涌的大海上航行。大海的语气很悲伤,但我们在一艘游轮上。我们的角色既是驾驶又是乘客。当然,在关键时刻,我们需要控制游轮的航向,面对汹涌的海浪。然而,在正常情况下,我们还不如当一名乘客,在光滑的甲板上享受悠闲的阳光,而不用担心船下的海浪。正是这种乐观的态度支持我度过了作为医生的八年美好时光。原始链接:https://zhuanlan.zhihu.com/p/50597445 https://zhuanlan.zhihu.com/p/50667670

我想写我的话

大家都在看

相关专题