Data Warehousing and Data Mining * COMP9318

1 people likes this course

view:1261 Link of Handbook
(login to add links.)

16 Comments

Anonymous Dec. 2, 2020, 3:02 p.m.

是double pass的嘛？

Anonymous Oct. 18, 2020, 7:27 p.m.

下面这评论也太两极分化了点吧。一句话总结的话是，要不要选王伟的课要看你能不能对的上他的电波，并且愿不愿意花时间去思考，试着理解他想要表达什么。

在评价这门课之前，先讲一下王伟教课风格。他的课最大的特点就是内容特别充实。相比于学校大部分上课纯粹划水讲个用法的课，他的9318，6714都是真真正正的包括了很多的理论知识，背后的数学道理等。这也带来一个问题，就是课程的教学侧重点更多的侧重在重点难点的讲解而不是建立起知识的脉络。所以如果想学懂的话，上课前预习下课后复习读教科书是必不可少的。（不管怎么想，有问题的都是那些一学期下来都不用翻书做题，考前复习就能过的课吧。）我个人觉得这个做法还挺合理，总比那些一学期下来都在教1+1=2的课（如3411）好很多。况且建立知识的体系，只需要善用百度或者找本书看就能搞定，又有什么必要听课呢？

虽然课程质量基本都很扎实过硬，但是落实到具体的教学上会遇到了一个严重的问题，就是他对理论的理解的深刻程度远大于他的英文水平，因此我觉得他的课更适合挺recording，可以反复听某个部分直到搞懂他想要表达的意思为止。并且说真的，我认为他教的课，不论是课程设计的质量，还是他的对知识的理解，甚至真实的教学水平都非常牛逼。讲的不好真就是完全被英文表达能力把课程质量的上限卡死在了这里。我觉得要是他用中文来教课，再稍微改一下课程设计添加进更多内容（编程作业和写的作业都加到两个，课程project改成那种得申请的research project）的话，那9318和6714的声誉估计能和AOS课齐平了都。

但是落实到这门9318课的话，一个真正的问题是（20T1）时这门课的Datawarehouse部分的内容安排其实不太合理。换句话说就是没法发挥出他的长处。具体的讲就是第一周和第二周排开General的介绍和对线代概率论的复习（这个部分是必要的）以外，几乎全在讲数据仓库的应用。另外第三周也是，第二第三周花了巨量的时间讲cubid的切片以及query处理这类很基础的东西。这种切片的概念但凡用过python都能秒懂吧。我比较怀疑是18,19被学生投诉讲的太快内容太多所以不得不去解释。但是这就直接导致他的长处无法发挥，又受制于表达能力的短处，对领域的介绍并不有趣，最终导致整个data warehouse部分的干货也比较少，听感也不好。我觉得如果能调整一下，删掉基本的介绍部分（而让学生自己去阅读那本教科书），而把cubid的内容放在w2的第一节lecture内讲完，然后剩下的3节课再加入更多的data warehouse的核心内容或者近年来研究的进展，就完美了。至于后面的data mining部分，我觉得内容上是非常充实饱满的。并且这门课lab的设计也挺不错的。

总之如果你不讨厌数学+愿意花时间预习复习看教科书反复听lecture的话，9318和6714都挺适合的。

Anonymous Oct. 6, 2020, 11:26 p.m.

王伟讲的有这么差吗?

Anonymous April 15, 2020, 10:21 p.m.

shawnxhong likes this

朋友告诉我这门课很烂, 我不信, 我选了, 真的很烂.

Anonymous June 4, 2019, 1:39 p.m.

我考了HD，垃圾课。

echosand May 15, 2019, 8:20 p.m.

我个人还是很适应王伟讲课的节奏。虽然有些时候有点啰嗦，但是主次分明，算法讲的也很清楚。作业量方面：ass proj lab虽然都有但是压力并不大。相比18s26714内容不多的情况，9318非常充实，分类聚类回归的基础算法都有讲很清楚，如果对数据科学感兴趣很值得一选。学完这课对于数据处理和挖掘都有了相对深刻的认识。

Anonymous May 12, 2019, 9:17 p.m.

这课挺简单的，作业和考试都挺简单的，王老师讲的挺好的，各种展开，因为三学期制，一周四小时的课，内容很充实，挺好的，学到很多有用的东西。就是作业量太少，proj看ppt做大概2个小时就可以都做好了，作业虽然有提交限制，但额外给了好多testcase，15次机会感觉多了，我就用了3次机会，主要英文不好，输出格式不小心错了。如果作业和9021一样每周一个lab/tutorial就好了，还有jupyter notebook配合理解挺好的。

Anonymous May 12, 2019, 4:09 p.m.

课程内容丰富，考试难度正常，真的一点都不难，不知道为啥那么多人觉得难，如果好好听课看PPT，90+应该没啥问题，题量也正常，而且答题8选6，挑自己擅长的写就行，作业都是送分的，很简单。能学到大部分的ML的知识，很不错的课。每周也要答疑，考试前王老师亲自坐镇4小时答疑。如果对数据科学感兴趣的话可以选。

Anonymous May 11, 2019, 2:23 a.m.

王老师本人的知识理解程度很强，他真的是什么都懂，不是水水就过去的感觉。

但是他讲课质量很低，很认真的在尝试听懂，一句话有三四个basically actually 但是实际传递信息的表述很少。

另一方面课程结构问题很大，没有tutorial的情况下，lecture课上不细讲例子，理论也是非常抽象模模糊糊，后来干脆就看教材了。与其去听lecture不如去看某几个藤校公开课视频。需要case study来加强对知识的理解。备课内容极其杂乱，像是每个都想提到一点点但是却得不到练习和巩固。这个课需要tute需要更多的习题练习。

作业布置的还算ok，大部分都比较简单。编程理论结合，做起来感觉学的东西有点用处，也有挑战性的题目。但是没有任何feedback，多个不同作业使用的不同的提交系统，非常混乱。作业没有feedback，出分速度也很慢，可能是tutor或王老师太忙了。

考试设计非常不合理，一方面题量很大，拿到题后就要写，很少给你思考的时间，思考了就会写不完。另一方面有中国应试教育的影子，背得多刷的多就能做好。平时作业跟考试脱节，练习不足只能交补习班学费买题刷。如果满分十分这边只能有一分，非常不合理。

综合来看，如果不是必修或者实在想学这门课，建议跳过。

Anonymous May 5, 2019, 2:58 p.m.

shawnxhong likes this

第一年遇到了Xuemin，以为已经是讲课下限了...直到第二年遇到了王伟

Anonymous May 4, 2019, 9:44 p.m.

王伟讲课像蔡徐坤

jjjj July 24, 2018, 1:48 p.m.

我觉得王伟非常的良心。虽然上课讲的有点快，PPT看起来也很吃力。但是给了考纲，都是按上面来的。作业量也不大，两个ass 5个lab取最高分的三个（也就是你前三个满分就不用做了）。所以平时成绩分数可以很高。tutor改作业批卷子分数也挺好的，没有压分。但这门课需要你把没个知识点的相关计算自己消化掉。因为考试考的都是每个知识点对应的提醒。这课难度给3.5（满分5）。

Anonymous June 18, 2018, 9:57 p.m.

只说考试不说别的。18s1选的课，因为每年开一次，内容上会有变化。虽然内容变了，但是给的sample和tutorial的内容却一直不变，这个今年not cover就不考了，那个没讲过不考了，剩下还有多少有价值的内容供学生参考，slide上的内容也容易让人摸不着头脑。不提知识点难不难，多不多，这种复习起来的感觉很不爽。

Anonymous Dec. 23, 2016, 2:23 p.m.

作者：陈迪威
链接：https://www.zhihu.com/question/24357695/answer/132740090
来源：知乎
著作权归作者所有，转载请联系作者获得授权。

9318这门课算是学的这么多课中，对我来说，最有趣的一门了。因为之前学了Machine Learning的缘故，这门课学起来，还不是那么吃力的。很多知识理解起来相当有意思，像Linear Regression和Logistic Regression这些分类算法，很容易应用到实际中去（例如利用个人的过往记录和特征对其进行信用评估，就是比较基本的分类问题），还有像FP-Tree算法可以从交易数据库中寻找数据之间的关系（例如啤酒和尿布之间的关系），都十分有意思。这门课是由Wei Wang老师教的，他讲课的时候讲的非常快，如果觉得跟不上他的速度和思路的话，可以在课后再看看Lecture Recordings或者直接看他的Lecture Recordings。这门课有两个作业和一个project，第二个作业里面有关于统计知识方面的证明题，如果之前没有学过Statistical Inference这门课的话，感觉还是挺难理解的。Project是用Python对给的training data set提取特征向量，再用Logistic Regression对testing data set的每一个词是否Title进行分类（例如你的LR model可以准确地把Prime Minister Malcolm Turnball中的Prime和Minister归类为Title类型），这对海量文本处理提取关键信息会非常有用。

Anonymous Nov. 19, 2016, 8 p.m.

HenryZhu likes this

因为自己将来（可能）走数据挖掘方向，所以选了此课，对课程本身，老师，作业等评价如下：

课程大体分为数据仓库和数据挖掘两部分（看标题），本人对数据仓库无感，本身理解不够深刻，所以提不起劲，学的也不好。

数据挖掘方面，在classification上主要教了决策树和logistic regression。决策树包括entropy和gini index的两种分叉方法(ID3和CART)，因为是决策树，本身没啥难度（让我们自己实现一下就完美了），一直计算entropy和gini确实能加深印象。logistic regression做了个project，主题是NER，二元分类。除了classification还有clustring，包含最常见的k means和以前没听过的hierarchy clustering和DB-SCAN，感觉还行。还教了只有数据挖掘有的（机器学习没有）关联规则学习，感觉还行，学到点东西。

老师是王伟，说实话教的不尽人意，很喜欢的classification被他讲的不太想听。关键还是平时靠自己学。

2个理论类型的assignment，第一个数据仓库，无感，虽然也有90分，第二个classification，让自己多深入了解了几个算法，还行拿了98分。project上面说了用logistic regression做NER，说实话还是不太懂里面的原理，虽然还有90分。对于期末考试，自己复习的不咋地，就这么过去了，也就这样了。

caixiangyu Feb. 3, 2016, 2:42 p.m.

这个课貌似作业写起来挺烦的，都是数学方面的东西，我数学不好，没选。从成绩上来看不好拿高分，内容不清楚，感觉可能不是特别水，但是老师讲的很差，就是他们其他人说的王伟~~~

Your Comment

(Send email to [email protected] to modify ur anonymous answer)