一月余之前树洞上看到的统计辅修课程测评,来自物理系 9 字班的学长 V1ncent19,已得到授权转载。希望在选课期间 cover 到一些阅读我博客的、对统计学感兴趣的同学,也是一个重新排版后给我自己参考的方式。
本文同样遵守文末提到的 CC BY-NC-SA 4.0 协议,版权归原作者所有。
统辅老师们的测评
首先大概说一下几个我上过课的老师:(按 dz 第一次上他们课的顺序)
邓婉璐
是大家都非常喜欢的,洞里已经有很多课友称赞过了我就不多谈了:讲课细致 + 关心同学们 + 给分好,在你清可能都很少找到比 wljj 好的老师了。当然 dz 私下感觉有时候进度不够快 / 花在推导上的时间有点长,当然这属于个人偏好,小事。
王江典
dz 的统推和生存分析是 wjd 老师的,wjd 老师的课程会有很多推导(即使是在生存分析课这种理论部分没有那么多的课上),不过一个小问题就是她讲课的时候会细致地把公式都进行推导但是 dz 觉得缺乏对整体思路的鸟瞰,也不经常提供一些 intuition,导致可能会有知其然而不知其所以然的问题,所以建议上她的课的小伙伴课下多思考一下推导是怎么来的。wjd 老师应该是在业界待过,她的作业 & 讲课中会有一定的代码成分,不过大多数可以通过调包查文档解决。王老师私下答疑这块非常热情,人很好,经常给 dz 各种方面的建议
周在莹
这学期周老师休假了,不上课,不然本来应该也会有很多人问她的统计计算,dz 上过她的线性回归和统计计算。周老师在教学工作上投入了相当多的热情,上过周老师课的人应该能从课程设计、课下交流中感受到不少。周老师的课感觉讲得东西相当多 / 深,主要体现在她会通过紧凑的课程设计来讲更多的东西,同时提供一些进阶内容的 intro。周老师会喜欢给大家一些 intuition,帮助大家找到一些统计直觉,我觉得这个是很好的。周老师的作业布置地比较频繁,码量较多(当然能学到东西的课当然是会有相当的练习的,这是dz的观点)。因为统辅 9 的统计计算助教有点不当人&周老师的课确实 workload 就较大,导致旧洞里曾有帖子怒喷 zzy 及其课,dz 觉得是不公允的,如果是确实想认真学好统辅的同学希望认真上一上周老师的课,跟起来会有难度但是可以学到很多东西,并且有助于你在其他课上意识到:这个东西周老师讲到过
李东
或者称之为 mld(上过他课的人应该知道这个梗)。dz上他的多元统计(前半学期)和时间序列。马老师的课比较混沌,并且数学的部分非常多 & tough,我觉得数理基础比较好的同学可能比较容易 survive,码量较小。但是说回来:马老师的考试比较简单,大概是讲3练1考2的水平,所以课上听不懂的同学也不用太担心 hhhhh。
王天颖
另一位神中神老师,在 dz 这里与 dwl & zzy 并称统辅课前三甲。dz上她的多元统计(后半学期)和生统概论,wty 老师是做生桶的,似乎是 biogenetic 方向,所以在她的课里会有一些生桶背景的内容。讲课也很细致,生桶课是英文授课但 dz 完全没有不适的感觉,作业内容不难,属于讲 2 练 2 考 2,非常均一的难度,给分也很好,dz 在 tyjj 这里拿到了在你清的第二门 A+,感谢 tyjj。
俞声
dz 上他的数科导和统计学习导论,俞老师是做 NLP 方面工作的所以他的作业也会代码成分相当多,听说在远古时期俞老师教统计计算的时候甚至会在课上讲 java。但是另一方面来说俞老师本科 & 博士又是数学/运筹这种方向所以他课上的内容又会有很多数学。当然因为他的课是 ML 这种所以也不会有太多很讨厌的数学理论,具体课程考评可以看下面(如果 dz 更的话 hhhh)。俞老师的要求是比较严格的,作业 & 考试是助教改,不会为难你,但是课堂习题的点评 & 大作业 pre 就应该好好搞了,印象比较深的是俞老师的 pre 要求严格限制时间,并且会当场对每个 pre 进行点评并指出不足。另外俞老师常会抽出一节课时间来讲他本组的项目。
杨朋昆
dz 正在上他的随机过程,杨老师的课详略布置很好,他的 slides 上会有所有主要结果 & 例子,课上的推导会很细致,也很照顾基础没那么好的同学。作业难度不是特别高,如果概率论学得不错应该可以轻松(指在不太卡壳的意义上)完成。考试和给分等 dz 上完再更 hhhhh。
统辅课程知识关联
Via V1ncent19,原地址见:https://www.mathcha.io/editor/GzrM8tE5SOVh7p92LDHj90rlLTkewZZ1t5mPrlv
dz 对统辅课先修关系的大致规划已经在链接中的图里大概画了一下,由于是网络图,dz 不希望弄得太凌乱(e.g. 严格来说初概应该是所有课的先修,但是把每门课都和初概连起来是否有点……),所以里面的先修关系只标注了 dz 觉得共同点 & 知识运用很多的先修关系,并用实线和虚线稍微进行了一下强度区分。所以这幅图里:
- 没有线不代表没有知识先修关系,有时候是它可以默认包含在你上过一门其他课里,e.g. 初概→→统推→→因果推断这条线
- 虚线的含义可以理解为:如果你上过上级课对你修下级课有不少帮助,e.g. 指向统计学习导论的都是虚线,因为如果你完全把它当成一门机器学习课来听感觉也基本 ok,但是如果你有一些统计知识的话可以更多得把握统计机器学习的模型内涵。
- 实线的含义可以理解为:强烈建议先修/不修听不懂,e.g.应随→→时间序列,dz是先上的时间序列导致课程的前半段还是比较痛苦,这也是建议大家在秋季学期把应随上了再接下半学期时间序列的原因= =
省流:这个流程图大家图一乐就好,具体关于课程关系说明大家可以阅读下面的相关板块,关于先修情况的阐述会更详细一些,里面每门课大体会从统计课、数学课、coding 能力上给出一些先修建议。
统辅课程测评
初等概率论-邓婉璐
从课程难度和课程进度综合比对上 wljj 的把握是很好的,而且考前也会有课程大纲的复习帮助大家找到课程主线。课程中未来会用到较多的主要是一些分布(尤其是正态分布及其衍生分布)、概率/期望/方差(及其 conditional 版本)的一些性质、收敛性在统辅课中要求的不多但是大数定律和中心极限定理就是很重要的内容了,希望以上三个部分大家不要太敷衍 hhhhhh。我们当时额外有一讲是多元正态分布的性质,大家也可以认真听一听,虽然多元里会讲但是这个内容蛮实用的。
前面也提到了 wljj 课堂讲授在数学推导和统计直觉上都做得很不错,这对学统辅进阶课是很好的;初概和统推都是每周 6 个课时,可能时间比较紧,虽然这两门课都不太难,不过还是建议大家尽量做一做预习和复习的工作这样课上能跟上思路,尤其是如果一些同学觉得自己数学不是很好的话,可能一段没跟上就已经讲到很后面不好补了;另外课上可以多给老师一些反馈,接接茬之类的,(dz 听另一位老师提到 wljj 偶尔会在办公室吐槽大家不是很活跃 hhhh)。总体来说 wljj 的初概在大致是讲 2 练 2 考 2 的水平,给分很可观,但考虑到课程本身不是完全的水课,所以希望大家不要完全抱着水学分拿 4.0 的心态来,还是需要付出一定努力的(anyway 这门课几乎能保证努力了一定有好的绩点体现,这感觉已经不知比一些课高到哪里去了)。
收获方面的话作为一门基础课主要作用当然是给后续课程提供支撑,大家可能注意到了 wljj 没有讲一些很糟糕的严谨数学(数学系的同学 sry,数学不糟糕,但是严谨的数学证明真的很折磨 = =),我觉得这让初概作为一门基础课能够更好地让来自不同院系背景的同学接受,当然大家的知识基础不同,要付出的努力可能也会稍有差异,但是 dz 估计只要能上课基本跟上 wljj 的思路 + 作业好好做,那你的收获就足够为接下来的统辅提供良好的支持。
补充:课程教材外另一个 dz 用地较多的是北大 ldf 老师的盖桶讲义:
https://www.math.pku.edu.cn/teachers/lidf/course/probstathsy/probstathsy.pdf
这个系列还有统计计算和时间序列,大家可以去看看。
统计推断-王江典
王老师的一些特点前面的教师篇已经提到一些了。这门课本身是统计的基石课程(dz 私下觉得它可能是最重要的),课程大致就是三个版块:统计量、估计、假设检验,会介绍统计推断中最 general 的那部分理论,包括如何描述估计量的性质、如何构造估计量、如何设计假设检验等。dz 觉得在整个统辅的角度来说里面地一些概念会反复用到,包括但不限于 sampling dist / 无偏性 / MSE / MLE / OLS / 枢轴变量(pivot variable)/ 渐进性质 / 几种重要的假设检验思路(e.g. wald, score, LRT)/ hypothesis / p-value / power function 等,另一些知识以后用到的没那么多,比如比较讨厌的充分完备统计量、UMVUE 之类的,但是如果有同学以后有计划转统的话这些内容还是都很重要的。dz 那个学期最后一小段王老师介绍了一些 non-parametric,讲得不多,至多算是提供了一个引子吧,主要的内容还是 dz 上面说的那些
wjd 老师课上会有很多推导,前面的帖子#107328 里提到了王老师有时候容易把自己绕进去的情况,dz 深以为然,所以非常建议大家课前预习的时候把整体的证明思路都大致看一遍,不需要看计算细节因为王老师会带你做,但你需要知道你处在整个证明的哪个阶段,不然你可能会跟着迷失 hhhh;dz 当时统推是晚课,到课程最后课堂中二氧化碳浓度升高头已经很晕了,跟上进度更是不容易,如果今年还有晚课的话希望大家能 survive.
难度上大体是讲 2 练 1 考 2,考试不难,但有一定计算量,所以我打了 2 分。希望大家在符号计算和 C991 使用上都有一定造诣,dz 期末考试上打计算器打得非常疯狂,最后差不多是勉强提前 15 分钟完成的样子(对比之下同样是王老师的生存分析课考试就可以提前一个小时 = = 也可能是 dz 统推学得不好)。给分方面王老师很慷慨,统计推断的给分分布没有详细调研但总之 dz 没有翻车,上学期的生存分析似乎几乎是全 4.0,所以大家不用担心给分(似乎统辅课几乎都不需要担心给分 hhhhhh)
收获方面客观地说就是完全够用,如果你想学更多可能就要寻求数学系的概统了,王老师的统推支持你学习后面的专业课是问题不大的,但是 dz 会建议大家在学习的时候多整理一下思路,从更抽象 / 更直觉地角度思考一下学习的内容,以免你迷失在推公式和求统计量中,因为里面的概念在后面的课程中会以不同的面貌出现,如果大家只记得它在课程中出现得样子而没有思考过它的内涵的话可能会影响对后续课程的理解。
多元统计分析-李东 & 王天颖
dz 那学期是 wljj 休假了,所以由马老师和 tyjj 来代课,应该说这两位老师的风格和 dwl 都不是很像,所以 dz 先把这块搁置了,先更后面的。
线性回归分析-周在莹
dz 觉得线性回归是统辅的核心课程,大家可能注意到了 dz 给统计推断的描述是基石课程而给回归课的描述是核心课,因为 dz 觉得统计推断是很多子版块背后的基础知识,而线性回归作为很基础的模型,它的概念、思想可以为迁移到其他版块的模型提供接口,所以 dz 作了这样的描述,不知道大家能不能 get 到 dz 的意指。不知道下学期的回归课还是不是周老师上,dz 觉得她把这门课教的很好,因为这门课的内容就是需要稍微充实一些才能覆盖一些稍微琐碎一些的知识点(而这些琐碎的点恰恰是大家以后会用到的)。这门课 dz 上的时候架构是这样的:前几周是单变量回归,就是大家高考的时候都学过的那个版本,会介绍相关的估计及性质,以及相应的 ANOVA。在这部分结束后会介绍一些诊断,比如齐方差、正态性、独立性等,以及对 outlier/leverage/influential 的诊断初步,以及通过变量变换进行修复。之后是多元版本,这个部分需要用到一些矩阵的语言,希望大家线性代数学得不错,有一个好处是讲这个部分之前大家应该已经在多元回归分析课中学过一些矩阵 / 多元随机变量的知识了,会好一些。这个部分同样是讲估计、ANOVA,之后会有一些多变量回归会遇到的共线性诊断、变量选择的问题。最后会有一部分向大家介绍离散分组变量的因子模型。
上课方面,周老师在每堂课开场会向大家以大纲的形式介绍一下这节课的内容,并提及这些部分和前后学习的知识的联系,这个非常实用,大家上课时可以注意一下这部分。周老师的另一个特点就是有很多雨课堂习题/投稿来让大家 keep focus 并让她了解大家的学习进度,她在看到自己觉得说的好的课堂投稿的时候会在教室里寻找这位同学予以表扬,所以如果你恰好在宿舍上课而又投稿了被点到就会比较尴尬 hhhh。其实周老师在课上给大家发的问题都是很好的思考题,并不是像其他一些课上的习题。如果大家课上能跟上周老师的思路思考这些问题的话会有非常多收获。当然说回来,周老师的课堂内容也是很多的,节奏也比较紧凑,但并不是说你要有很好的基础,周老师的课属于你认真听就基本能跟上,所以大家课上不要摸鱼 hhhh。课下作业这一块公式推导和代码都会有一些,所以非常推荐大家使用 rmarkdown 完成(其实 dz 觉得统计推断开始就可以用 rmd 了)作业题主要来自于教材 KNNL. 线性回归的 workload 感觉不是统辅课中最大的(最大的可能是同样由周老师教的统计计算 hhhh,但今年换成另一个老师教了),但也需要一些时间就是了,特别如果你在推导 / 代码上不太熟的话可能一开始会 struggle 一下。
总体来说有些同学可能上回归课会觉得这门课的内容很“碎”,尤其是上到诊断那一块的时候,大家会觉得不像是一门“系统”的学科,因为有很多很多子版块。dz 和周老师交流过这个问题,周老师对这门课的定位是“应用统计课”,所以在其中讲述了很多大家在用统计学处理实际问题的时候会遇到的问题,dz 在后面做大作业/其他项目的时候深以为然,很多时候大家真正面临的任务并不是 well-defined with excellent data. 这些诊断、变换、数据清洗等脏活累活确实是占了很多部分的,所以希望大家在这些部分也多听一听,不一定要完全学会,但是以后在遇到实际问题的时候能想起来“周老师讲过这个方法”就很好了。
考评这一块,周老师的考评比较多元化,课堂表现、期中、期末、capstone、给老师发课程建议等等。但是并不意味着这是一门卷课,dz 那学期因为时间关系取消了期中,期末可以在考试和 capstone 中选一个做,所以压力并没有那么大。dz 当时选的是课程论文,但因为dz非常不擅长做比较社会科学的课题,而且精力分配的也不是很多,最后论文应该只有 85 分左右(sry 周老师,但是我真的不会写 = =),但是其他东西加起来最后竟然还是拿到 A- 了;考试这块我听参加了考试的同学说&我后来参加统计计算的考试能看出来周老师的考试并不会为难大家,大概是讲 3 练 1.5 考 2 的水平。
周老师十分喜欢和同学们交流,很多次习题课都主动留下来和同学们交流(dz 当时是习题课紧随在下课后),发邮件提问也都会得到热情的回应,所以建议大家有什么疑惑 / 对课程有什么意见都多和老师沟通。 关于课程收获前面已经谈了一些了,主要就是帮助你 handle 实际问题 & 为以后的学科提供接口,大家在以后的很多课上应该都会见到线性回归课上一些概念的影子,dz 觉得周老师的线性回归相当好,不知道下学期是不是还由她来教。
统计计算与软件-周在莹
今年周老师休假去了,所以换成了张老师开,这个老师 dz 完全不了解,而且统计计算这门课内容会比较杂,课程内容会有很多老师的个人色彩,所以 dz 只向大家介绍周老师版本的课程大纲。最开始是一些关于计算机的基础知识,包括储存、运算等,以及 R 的一些知识,既有程序语言特点如向量化操作的介绍,也有一些实用的 R 命令;之后的算法部分首先是关于算法的基本前置知识,然后依次是线性代数中的算法、优化算法、EM 算法、随机模拟相关算法如 Bootstrap、MCMC。就目前 dz 上过的课来说暂时没有看出这门课多数内容在后续课程中的实用之处(逃),不过 R 语言简介、bootstrap、EM 倒是经常出现的,前面的线性代数算法大家可以当成是线性代数复习,里面也有一些有趣的线代结论;优化算法部分,大家就当是对那些算法有个脸熟吧。但是说回来虽然这门课的知识在统辅中好像用的不多,但是在你实际解决问题的时候/科研中是会用到的,你会需要去考虑你怎么设计程序才能避免长时间的等待 hhhhh,所以 dz 觉得这门课介于重要和不重要之间,取决于你的需求。
关于这门课的其他信息,如果明年换回周老师开了 dz 可以补上测评,目前大家可以先看看课程大纲图一乐。
数据科学导论-俞声
这门课其实 dz 觉得完全可以大二上就选,这课不考试,感觉课下也几乎不用花时间,可能只有期末 project 的时候会比较忙一些,总体来说作为一门 3 分课 workload 相当小。课程内容包括对 R 的介绍、基本语法元素和逻辑语句、R 的一些特性比如向量化、数据处理、正则表达式与文字处理(因为俞 sir 是做文本处理相关工作的)、非常初等的机器学习、R 的作图和交互式文档等。从课程内容来说大家就能看出来这门课的内容非常应用了,课后作业基本就是让大家用课上学到的技术实现一些小任务,纯代码作业,最难的任务也就是在文本处理那块需要实现一个简单地 Baysian 分类器这样了,只要大家不是在代码方面完全陌生,稍微查查文档应该都能轻松 handle,而且 RStudio 是自带 Rdocumentation 的,甚至不需要你自己上网找,rmd/shiny 等进阶工具也都内置在 RStudio 里了,是一门新手友好的编程课。里面介绍的工具 / 技术都是非常实用的,这也是 dz 建议大家可以在大二上就选它的原因,可以方便大家在其他课程中用 R 完成作业。
课程中最有挑战性的部分是 capstone,要求组三人小组,自定一个任务并用课上学到的数据处理方法 + 一些机器学习做一个有趣的项目,就 dz 课上的观察很多人都用了 DeepLearning 相关的东西,但是其实也看到有很多小组没有用 DL 也有很有趣的结果,所以大家不用担心不会 DL 框架会吃亏(当然现在很多 DL 框架已经几乎能做到开箱即用了,学起来也并不难,大家不必有畏难心理)。前面说过俞 sir 是比较严格的,pre 的时候严格控制时间、要求每个同学有 equal contribution、当场发表点评和建议都是俞老师的特点。顺带提一句,dz 私下觉得俞sir很帅,仅凭这一点也建议大家去上俞 sir 的课 hhhhhh。
另外俞老师似乎是不接受手选的,所以大家选课的时候优先级可能要放高一些,据他说主要原因是大作业中需要控制规模保证质量,不知道今年是不是还是如此。
春季学期的统计学习导论也是由俞 sir 教,但是这两门课之间没有什么联系,这也是 dz 建议大家可以早点上的另一个原因 & 大家可以放心直接选统计学习导论。
统计学习导论-俞声
与数科导的码课风格不同,俞老师的统计学习导论 dz 觉得更像是一门数学课,这门课建议大家先修线性回归和多元统计,因为俞 sir 虽然课上会带大家复习一些重要结论,但是毕竟是走马观花地过一遍,dz 听的时候觉得在学过一遍的情况下跟着复习效果不错。一个吐槽就是 dz 其实觉得从统辅设计的角度来说可能应该数科导放春季学期,统计学习放秋季 hhhhh,这样课程衔接会比较好一些。
课程内容主要基于 Springer 的 The Elements of Statistical Learning 这本书(顺便推荐一下 Springer Series in Statistics 这个系列的书,dz 觉得写得都很好,非常适合想要学习更深入统计学理论的同学),在这门课上你会学到很多机器学习模型的具体数学理论和性质(虽然讲得也没有很深,但是总之可能和大家想象中的机器学习课不是那么一样),比如回归讲变量选择的相关理论、分类模型讲 Baysian 分类准则、SVM 从约束优化讲起,搭配后面 RKHS 理论、聚类模型的谱方法、决策树的一些理论和后面的网络模型。据 dz 搜集到的课程反馈来说大家还是觉得这门课需要一些数学推导能力。课程作业数学代码均有,难度适中;有期中期末考试以及 capstone:考试就是有很多数学的东西了,题型包括判断简答和大题,据说不是那么容易(虽然 dz 考得不错),印象比较深的是期中考了一个 Kernel Logistic,因为才刚讲完优化和 Kernel 相关的理论可能一些人没有复习,所以据助教说总体表现不是很理想。大作业的风格和数科导差不多,也是小组作业自选题目跑模型的样子,上学期由于疫情关系线上 pre 了,很遗憾(庆幸)没有线下感受俞 sir 的威压 hhhh。难度上 dz 觉得是讲 1.5 练 1.5 考 2 的水平。
收获这一块 dz 觉得比较重要的还是你会对一些重要的模型的基本架构 / 参数来源有一些了解,比如你会知道 cSVM 的 c 是什么之类的……当然这门课对神经网络涉及不深,毕竟不是专门的 DL 课,神经网络部分只是课程的其中一个版块;dz 觉得讲得比较出彩的还是前面的“传统模型”,或者说是前深度学习时代的模型。当然说回来大家在处理一些规模不算大,深度学习不好使的任务的时候这些经典模型还是很实用的,所以还是值得大家一学的,俞 sir 也会向大家介绍模型的适用特点、调参哲学等,作业的代码部分也有一些实现,算是兼顾了实用性的教学吧。
上次忘了补充一个点:俞 sir 上课十分渴望与同学们互动,但是大家好像都不是很喜欢和俞 sir 接茬的样子,希望以后再选俞 sir 课的同学们多多互动,capstone 选题的时候也可以多去讨论自己的想法,俞 sir 会给出很实用的建议。俞 sir 只是看起来 & 对待学术问题的时候很严肃,在放松一些的场合俞 sir 人是很好的,而且好像还是深度二刺猿(未确证)/ 游戏宅(确证)。
时间序列分析-李东
马老师的课基本上 ppt 难度都比较大,讲课会给人一种比较混沌的感觉,dz 感觉这门课可能会是数学系同学喜欢的课(不是说数学都很混沌的意思 hhhh,指的是数学很难)。这门课的主要内容是 ARIMAmodel,一些其他的时间序列方法则涉猎不多。主线剧情是随机过程相关的一些简短介绍、对时间序列的描述、AR、MA、ARMA、SARIMA、诊断 & 变点检测、多维版本、(其他都是 dz 基本没怎么听懂的内容 TuT,就当它们不存在吧)。马老师的课中会有比较多数学理论,课上会带大家过一遍但是不会讲深,大家如果感兴趣可以寻找 ppt 中感兴趣的内容自己探索,如果只以完成课程主线、拿到学分为目的的话这门课是讲 1 练 1 考 2,如果以认真学习掌握内容为目的的话就是讲 3 练 1 考 2,大家可以选择适合自己的学习模式。马老师答疑这块还是很认真的,dz 偶尔课后旁听了一些讨论,会针对课上的一些点介绍更详细 / 具体的理解。作业不多而且难度较低,期末有大作业和考试,大作业是做一个和中国有关的时间序列任务,不需要特别复杂,考试稍微有一些数学推导的内容,但是远用不上 ppt 里 / 课上讲的内容那么多,大家把握主线、熟悉基本概念和记号、学习一些比较基础的结论应该就够了(最后有一道思考题会比较难,需要有一定的数学理解才能答得出来),另外考试会有根据 R 输出写分析的半开放题,所以非常建议大家平时课后 / 做作业时多进行一些 coding 实践。这门课的给分总之应该不差,不知道是不是大家都学得比较混沌的关系,dz 感觉大多数内容都没有听懂也拿了 A-hhhhhhh。
收获这一块方差较大,取决于你有没有认真课后花一些时间,如果只是学到了考试要求的内容的话可能这门课收获就不会很大了,你可能至多知道 ARIMA 模型的框架和基本概念 = =,不过相关实现已经良好封装在 R 里了,实践起来倒也不会有太大问题。
补充一个点就是 dz 现在回忆起来,上这门课非常建议大家先修随机过程,dz 因为是物理系没有随机过程这门课,直接去修时间序列感觉还是吃了一些苦头的。
在实际使用中如果大家想了解 R 代码实现 / 熟悉一些其他的模型,dz参考过前面说过的北大 ldf 老师的教材https://www.math.pku.edu.cn/teachers/lidf/course/atsa/atsanotes/html/_atsanotes/atsanotes.pdf 以及另一本非常好的在线参考书https://otexts.com/fppcn/ 大家可以去看一看
生物统计导论-王天颖
这门课确实是一门导论课,除了有因子模型稍微讲得深一些其他都基本上是让大家留个印象的级别。内容包括:统计推断的基本哲学回顾、因子模型、列联表、生存分析、临床试验、基因组学中的关联性分析(dz 随便翻的 = =,原称为 GWAS)。这门课是统辅中较为少见的2分课,内容确实也没有很深入 / 难,dz 觉得上过初概、统推、回归应该就足以 handle 的。课程是全英文授课,不过 tyjj 的口语很好,dz 觉得理解起来还挺轻松。任务量方面:作业量不算大,没有期中,期末考评是最后的期末考 + 倒数第二节课的一个口头 pre,不用交书面报告;期末考允许 Cheatsheet 加上课程中没有特别艰深的数学,所以考试难度不算大,报告是做一个与 Covid-19 有关的问题,使用课上讲过的分析方法,因为课上对因子模型、生存分析、clinical trial 等 topic都做了介绍,所以选题内容还是很广的,tyjj 也细心地提供了一些好的数据源,pre 打分是多方(同学、老师)交叉打分的方式。总体来说任务量不大,dz 觉得是很好的 2 分课的范本(真 · 两分:课上 1.5h + 课下 1.5h 绝对足够),难度上考虑到英文授课,可能可以给到讲 1.5 练 1 考 1,给分也很好,是一门较快乐的课程。tyjj 很关心同学们,答疑也很认真,大家如果上 tyjj 的课可以多去和老师交流。
收获这一块因为是导论课,所以 dz 觉得主要的意义在于提供一个生统的窗口,因为里面确实也介绍了很多生桶的进阶方向,比如生存分析、临床试验和基因组分析等,便于大家对生统这个学科的框架、研究的问题有一定的了解。
可靠性数据与生存分析-王江典
前面提到了生存分析是生统的一个分支版块,生统概论课上也有一个 section 是讲生存分析初步的,所以大家可以像 dz 一样把这两门课一块选,都在春季学期。如果对生存分析不太熟悉的同学可以先笼统地理解为研究“某件事情什么时候发生”(这个时候就不得不提起某蒙古上单的评论“* * 什么时候 * 啊”,大概就是研究这种事情)。课上会先介绍生存函数 & 相关概念及一些常用的参数化模型;之后在简单回顾一些统计推断知识后,讲非参数的估计 / 检验方法,包括 life table 的检验、分组生存情况的 CMH log-rank test、Wilcoxon rank sum test 等;之后是参数 / 半参数模型,包括 PH model 和 AFT model;其它还会有一些临床试验设计的 topic. 课程覆盖面这块还是比较充实的,也会有比较深入的话题。关于王老师的讲课风格方面在前面的老师测评帖和统计推断帖已经有所介绍了,这门课类似。作业的理论部分会有一定的难度,因为算一些具体的例子的时候还是有一些计算量的,其余大多数都是要使用 R 的,不过相关函数都已经良好封装了,大家要善于查文档解决问题 hhhhh。课程包含期中考和期末 pre,期中考不难但也不算简单,基本就跟统计推断是一个风格:一些概念理解 + 少量理论 + 较多的例子计算,dz 当时忘了带计算器了导致是在教学楼管理处借了一个那种会计计算器,搁那人肉泰勒展开算指数函数值,有点疯狂,导致在计算量比较大的背景下虽然做完但是答案几乎都错了 = = 期中成绩较为惨淡。期末的 pre 是大家组队读论文作口头报告,王老师提供了几个 options,dz 都查了一下,应该都是生存分析领域比较经典的论文,也和课程内容有紧密的联系,好好读下来是会有所收获的大作业。这门课给分良好,dz 如此惨淡的期中考背景下还是拿到了 A-,可能也是课堂规模小的缘故(这门课我们当时报的人比较少,可能是因为这个课是比较分支的分支领域,大家了解的不多),总之大家如果报这门课不需要担心给分。难度上是讲 2 练 2 考 1.5 的样子。
课程收获这一块 dz 觉得是不错的,因为课程的理论部分不少,作业中的码题也保证了一定的实践量,所以大家如果以后有意走生统方向的可以来上一上这门课。
因果推断导论-邓婉璐
(V1ncent 更新了,我这里也更新一下)
wljj 的课程讲授还是这么稳健。这门课还真是导论课,主要介绍了两种主要的因果推断框架,主要内容分别依据两本课程参考书 Causal Inference for Statistics, Social, and Biomedical Sciences 和 Causal Inference in Statistics: A Primer 大家如果想预先了解一下/课上具体查询详细解释用可以翻翻这两本书。课程导向还是比较应用的,课后材料也提供了足量 coding 让同学们鉴赏。因果推断本身也是正在蓬勃发展的分支领域, 所以课程的整体思路是介绍一些基本的理论 & 相应的哲学,有一些具体的算例让同学们熟悉应用方法,然后在中间穿插提供一些进阶内容的接口,有 reference 供同学们查找。课程讲述这块就是比较 wljj 的风格,不过和初概不太一样的可能是因果的内容更应用更琐碎一些,所以本身没有初概那么好讲,另外 dz 感觉有些地方的定义阐述不是很详细/周到,课下需要自己多查查书,特别是因果图那块的定义还蛮多的,大家除了查书还可以看看最后提供的一个引用链,里面提供了更多 intuitive 的解释和算例。课程考评包括 6-7 次的作业、自选题的 capstone 以及期末。作业不难,基本就是自己完成课程推导补充/一些简单的算例;大作业提供了往年优秀样本供大家参考,对着依葫芦画瓢应该也能取得不错的完成度;期末考试提供往年样题,且从最后出卷情况来看和作业重合度也较高,不知道有没有照顾大家普遍在阳的成分在,dz 就是最难受的时候撑着考完了试,光速做完就难受得交卷去睡觉了 hhhh,如果不出意外的话期末考应该是炸了,但是最后还是捞了个 A-,让我们说谢谢 wljj,当然 dz 大作业确实还是做的挺认真的,anyway 大概这门课稍微用点心思混个 4.0 还是不难的,大家不用担心。
关于给分:看来是大作业发力了,wljj 给了个优秀大作业,当然期末考大约是炸了,一加一减吃个 A-,大四老狗心满意足地走了;综合来看是比较 wljj 式的给分(你要问我什么是 wljj 式的给分,我只能说不知道 lol
最后给大家提供一些实用链:
Rubin 现在在丘中心任职,他在数学中心每学期有公开课,大家如果对因果推断领域感兴趣可以去听一听,指路 https://ymsc.tsinghua.edu.cn/xshd/zxgkk/jqgkk.htm;
因果图部分看过比较实用的是这个博客 https://rpatrik96.github.io/posts/2021/10/poc1-dags-d-sep/
应用随机过程-杨朋昆
这门课是真·应用·随机过程,课程中严格详尽的理论推导不多,我觉得可能更多是让大家多熟悉一些随机过程的基本模型、对随机过程的描述、相关处理方法、一些具体应用,这门课的教材是 Hajek 的 Random Processes for Engineers,从这个书名大家应该也能猜到内容不会特别数学。杨老师并没有完全按照教材内容讲,顺序也是自定的,不过课程讲述顺序还不错,会有很多对基础前置知识的讲解,每一节集中处理一个 topic。这门课的难度不算高,杨老师的说法是上过概率论即可 handle,实际处理起来 dz 发现因为涉及一些连续型序列的问题,有一些泛函/应用 ode 的基础会更容易做题(少量基础即可)。授课方面是课前上传 ppt,课上板书讲解;slides 中包含所有重要结果,课程时间线也安排的很好,都是下课正好讲完,看得出老师在时间安排这块有 bear 来(doge)。这门课知识内容不难(如果你不去细扣课上略去的严谨推导的话),不过作业是一课一布置,所以还是有一些任务量的,作业难度比讲课难度略高略深,很多是对课堂内容的补充。考评方式是作业期中期末,无大作业。作业无 coding,助教的作业批改反馈挺详细,考试前习题课助教也会帮大家划重点。由于这门课开课历史不算悠久,所以考试难度控制比较成谜,从 dz 的经验来说可以给到讲 1.5 练 2 考 2。收获这块如果是瞅着“应用”俩字来的同学应该会比较有收获,比如课上讲了不少滤波/新息预测/决策过程之类的东西(也许是因为杨老师是你清 ee 系出身的罢 hhhhhh);但如果是想学很多数学的同学的话可能不会很喜欢这门课的知识模式。
另外这门课在秋季开课,推荐大家 e.g. 大三秋季上应随,可以接春季的时间序列。
关于给分:给分也太好了,dz 期中拿了个烂分,期末阳着考了估计也是依托,结果还是 A-,好大力度的 curve 啊,杨老师我的超人。
逻辑回归导论-王江典
(注:V1ncent 没上这门课所以没有测评,这个测评是来自这个树洞里其他层主的回复
这门课写作“逻辑回归”可能一时让人摸不着头脑,其实对标国外统计系的培养方案,这门课还有个名字叫 “Categorical Data Analysis(CDA)”(wjd 老师似乎说是申报课程的时候的一些遗留问题?)。CDA 其实是统计学中比较重要的一个分支,想在 biostatistics 或者 social science 之类的方向继续研究的话可能是需要掌握一些想关的知识的。由于王老师有说过这门课是以应用为主,所以涉及的理论部分不是很多,课程内容主要以老师的 ppt 为主,但感兴趣的话也可以参考一下 Agresti 的《Categorical Data Analysis》(CDA的经典教材,内容非常全面)。课程的考核方式是期中 + 大作业 + 作业(40%+40%+20%),没有期末考试。平时作业大概两周一次,内容不算少,但部分题目就是上面 Agresti 那本书上的习题(顺带一提本书有 solution manual )。期中考试以概念理解为主,题目很多都有应用背景,会考 R 代码的阅读,总体来说比较简单,但是题量比较大,很多人做不完,不过老师最后也调了分。期末的大作业是 3-4 人一组,自选题目,可发挥空间很大,而且老师会发往年的优秀报告(甚至最后很多组就是参考的优秀报告做的x),还有小组互评环节,只要不是太划水最后得分应该都不错(?)
如果套用 dz 的评价方式,这门课大概是讲 2 练 2 考 1.5(?)感觉这门课在统辅所有选修课中算相对轻松容易的(毕竟只有两学分),课程的内容也是比较有用的,给分也不错,还是比较推荐的~
非参数统计导论-周在莹
(注:V1ncent 没上这门课所以没有测评,这个测评是来自这个树洞里其他层主的回复
cz 上过 2021 秋季学期的非参数统计导论,是 zzy 老师的,简单介绍一下印象。
2 学分课程,任务量比其他统辅课程会小一些,大概和逻辑回归相当吧。非参主要是讲如何在不假定分布的情况下做检验(比如平常的许多检验假设正态性,这在非参里面是不行的)。比如有 permutation test,binomial test,rank statistic,sign test,signed rank test,对中位数的统计,分布检验(KS 检验),runs test 等,讲的内容不算太多。
成绩是 10% 课堂,40% 周常作业,50% 大作业。课堂上和 zzy 老师的其他课程(线性回归、统计计算)差不多,会有不少雨课堂题目,所以大概还是要听课的。教材是 Applied Nonparametric Statistical Methods, Fourth Edition, by Peter Sprent and Nigel C . Smeeton,作业题会从里面出(出作业的时候直接简称 ANSM),也可能是课件里的证明。小作业总共 11 次,每次的任务量不算太大(相比于统计计算来说(
大作业是个人的,所以不用小组分锅(),要求适合用非参方法,但其实非参能做的事情也没那么多,可能比较好做的就是两个总体的比较,感觉还是 EDA、做些检验啥的,结合点别的方法。最后给分感觉还算慷慨,由于当年上的时候课友不多,没有足够的数据点。zzy 老师的课给分感觉还算不错,非参也挺符合老师总结说的“快乐成长、负担不重、收获满满”,cz 体验不错。
资料索引
工工 8 的一份统计计算总结材料: https://mp.weixin.qq.com/s/LsQTh1_g93GJ5eGpaCh22Q
原作者 V1ncent19 的笔记整理,大家快去 star(x):https://v1ncent19.github.io/SummaryNotes/
北大李东风老师的统计计算讲义:
https://www.math.pku.edu.cn/teachers/lidf/docs/statcomp/html/_statcompbook/statcomp2ndv.pdf
应用时间序列分析讲义:
https://www.math.pku.edu.cn/teachers/lidf/course/atsa/atsanotes/html/_atsanotes/atsanotes.pdf
概率统计讲义:https://www.math.pku.edu.cn/teachers/lidf/course/probstathsy/probstathsy.pdf
时间序列的在线参考书:https://otexts.com/fppcn/
因果推断导论-因果图:https://rpatrik96.github.io/posts/2021/10/poc1-dags-d-sep/
YMSC Rubin 的公开课: https://ymsc.tsinghua.edu.cn/xshd/zxgkk/jqgkk.htm