Here is a collection of dataset (mostly financial-related) to apply in the course: AI Practice.
If you found this page in a personal blog, plz note that this page will be deleted some weeks later.
注意,你可以选择的数据并不局限于下面的几种。欢迎自己寻找数据并进行分析,大部分情况下这会成为一个微小的加分项。
房价预测
这是Kaggle上常驻的一个 Getting Started
类型的比赛,你可以从以下网址获得数据。
其目的是通过对房子的一些特征描述来预测这个房子的成交价格。特征包括但不限于:房型与尺寸、是否有篱笆等等。需要输出的是这个房子的成交价。
训练集和数据集都是1450左右个样本,每个样本特征是80个,数据量不大,用统计方法应该能很快获得结果,主要考察的是 数据预处理
以及 建模能力
,调参的结果会作为评价的一个参考,但相较于整个过程而言影响不会很明显。
注意,这个比赛在Kaggle上是常驻的,所以如果有心的话你能够access到许多已经公开的notebook或者blog,换句话说很多情况下只要你愿意找,你能够获得现成的代码以及一个看起来非常好的结果。但单纯一个看起来很棒的结果并不能保证在这门课中也能获得相匹配的结果 因为不出意外,结课pre上我会在场,正常情况下我应该能看出大家做分析的用心程度 :)
贷款违约预测
同样是Kaggle上的一个竞赛,是帝国理工学院发布的一个任务。
该任务主要是根据个人相关的金融交易数据对该样本可能的贷款违约概率进行预测。样本量有约20万个,特征大概有800个,数据量约为600M。
因为数据量比上一个任务要大很多,所以不对模型有具体要求,完成任务,并给出有意义的预测结果即可。如果数据量过大,本地机器跑不动,或者跑出来的结果并不好,允许对数据进行采样,但要在word与pre中给出采样的方式与结果。仍然提醒一下,自主完成的看起来并不理想的结果 在成绩上会略高于 参考了别人的处理方式的结果 并远高于 参考了别人处理方式并把代码拿过来跑了一遍的结果。
开放性预测
这是去年给其他班级授课时候用的一个数据,是以天为单位的 阿里巴巴 和 亚马逊 的开盘收盘,最高最低价。
一个简单的处理模式可以是对收盘价进行预测,虽然这么做的意义不大,但仍然能够走完一遍数据处理、分析、建模的全部过程。模型可以根据个人学习情况选择统计类的ARIMA回归,或者RNN循环神经网络,或者更具有实践价值的模型。
任务目标也允许自行定义,包括但不限于:由过去X天数据预测未来Y天收盘价(均值)。
由于我觉得上面的实验并不具有太多现实意义,因此在这个任务中,你被允许使用任何外部的辅助性数据,如一些统计因子,只要能对你定义的任务目标有帮助。注意,只是为了增加工作量而增加的辅助性数据及其处理工作会对评分产生负面影响,也即希望能对你增加该数据有充分的理由并在pre中加以解释。
该数据仅提供了一个参考,不一定必须选择这两个数据,你可以通过其他软件导出获得其他公司的数据并进行分析。
更加开放的课题
正如老师所说,你可以自己选择主题,自己寻找需要的数据。这部分我简单给一下所做工作的评分要求,这些要求对于上面所给的任务也同样适用:
你应当完成:
- 课题选择;
- 数据收集;
- 数据预处理:缺失值填补、冗余删除、离群点分析等;
- 建模:模型的构建与训练;
- 对模型结果的分析,至少包含一次 根据结果对模型做出的有效调整;
- Word version的报告与PPT version的pre。
因为pre过程我会在场 更有可能是只有我一个人在场 ,我也简单阐述一下pre的大致架构与内容:
- 选择的课题及选择的理由;
- 收集的数据及数据来源;
- 所做的预处理;
- 搭建的模型:数据集划分方式以及训练的参数。如果是ARIMA,应该是dpq值,如果是模型,应该给出epoch与hidden size。
- 结果,最好以表格形式给出。
- 组内每个人所承担的工作。
提醒:请不要在pre中花一分钟以上的篇幅讲述概念性的内容,比如预处理的某种算法具体是怎么执行的,模型的算法是什么样的,也就是百度上能够access到的内容,专注于讲你们组所做的工作即可。pre的时间不会成为影响你成绩的因素(尽管pre的时间过长一定会),把所做的工作讲清楚就行。
最后
上面是老师所期待的你们的表现,以及我个人的一些理解与观点。但是,正如老师上课时所说的,也允许大家做报告性质的工作,建模并不是硬性要求,所以大家只需要做好自己想做的工作就可以。
最后简单透个底吧,数据分析类的工作最终成绩 一般而言 会高于做调研工作的,但是两者都不会低于 B 。 我个人而言更希望大家能从课程中学到东西,通过实践对人工智能有更加深入的理解。我会尽可能消解大家所选择任务最终结果的优劣对于这门课程成绩的影响,希望大家不要过多纠结于你们所选择任务的结果,而是专心参加到数据的分析与模型实践中去。
那么希望大家上课愉快。