![]() |
|
![]() |
作业要求 |
本次大作业是一个真实场景中的数据挖掘任务,各位同学需要按照要求在给定数据集上完成该任务。本次作业需要提交数据挖掘的结果、实现该任务的代码及模型、描述如何实现该任务的详细的实验报告。 |
|
任务介绍 |
这是一个真实场景中的数据挖掘任务。本次任务要求预测给定论文是否为给定作者所著。可以使用任何数据挖掘方法(现有方法或设计新方法)来完成本次任务。 |
|
对于每个领域的科研工作者和学生来说,搜索和阅读学术论文是他们的重要工作之一。当科研人员想深入了解某一领域时,通常会搜索该领域的研究者,并找到这些研究者的学术论文进行学习。 然而,由于很多论文作者姓名相同,特别是对于国内学者来说,很多中文名不同的学者英文名也相同(例如张三和章三的英文名同为San Zhang)。 这导致很多论文被错误划分到其他同名作者的著作中。与此同时,同一个姓名可能有不同的缩写方式(例如J. Doe,Jane Doe和J. A. Doe),导致无法将同一个作者的所有论文汇总到一起。这给论文搜索和数据整理都带来很大问题。 因此,正确匹配论文和作者信息非常重要。本次任务要求从给定数据中挖掘论文和论文作者之间的关系,从而构建模型来自动预测论文是否为给定作者所著。 |
与作者相关的信息主要在Author.csv文件中,包含唯一的作者ID,作者姓名,作者机构。同一个作者可能由于名字的不同缩写方式(例如J. Doe,Jane Doe和J. A. Doe)在文件中出现多次。 与论文相关的信息主要在Paper.csv中,包含唯一的论文ID,论文题目,发表年份,会议/期刊ID,关键词等。与会议/期刊相关的信息主要在Conference.csv和Journal.csv中,主要包含会议/期刊ID,会议/期刊的简称, 会议/期刊全称,主页地址。PaperAuthor.csv是带有噪声的论文-作者对信息,主要包含论文ID,作者ID,论文中标注的作者名,论文中标注的机构。由于同一姓名的不同简写以及不同作者间可能存在的重名,因此该文件中的PaperID-AuthorID对很可能存在错误,不能将该文件的PaperID-AuthorID对当做label或ground truth。 数据集的监督信息(训练数据)在 train.csv中,包含作者ID,确认是该作者发表的论文ID集合(ConfirmedPaperIds),确认不是该作者发表的论文ID集合(DeletedPaperIds)。 该任务的测试数据在test.csv中,包含作者ID和论文ID,本次大作业的主要任务是,对于测试数据中每个作者ID,预测给定论文是否为该作者所著,用1表示给定论文为该作者所著,0表示不是该作者所著。预测结果必须为0或1的二值结果,若结果不满足要求,成绩无效。 本次大作业包含两个子任务。任务一和任务二的训练数据完全相同,即train.csv。两个任务的不同点在于,任务一的测试数据test.csv中的作者都在训练数据train.csv中出现过,任务二的测试数据test2.csv中的作者没有在训练数据train.csv中出现过。 每位同学需要同时完成任务一和任务二。本次大作业的打分将更关注任务一。 |
关于如何加入本次大作业的Kaggle详见 文件。 |
|
任务评估 |
1. 性能评估 |
本次任务对实验结果的评价指标是AUC。你需要按照Kaggle中sample_submission.csv文件描述的格式在Kaggle中提交预测结果。 在实验报告中,你需要介绍实验方法(如果你使用的是现有方法,你需要解释为什么使用该方法,以及你如何使用该方法),并展示实验结果。 你需要提交可运行的代码及训练好的模型,该代码和模型需要能够生成提交在Kaggle上的结果,你还需提交如何运行模型的说明(包括数据格式,实验环境,以及其它运行模型需要的说明)。我们将使用模型复现你提交至Kaggle的结果。 |
|
2. 实验报告评估 |
对实验报告的评估将综合考量以下几点:内容(关于方法的介绍),核心思想(为什么使用该方法),创新性(方法是新颖的还是对现有方法的复用),逻辑性(是否条理清晰),语言(是否简明易读),格式(实验报告的格式是否符合要求)。
|
好的AUC结果可能给你带来高的分数,但是本次大作业的分数不仅取决于实验结果的好坏,一份高质量的实验报告对分数来说也是非常重要的。总之,你既要关注模型的性能,还要认真完成实验报告。 |
请勿询问关于测试数据的信息! |
如果发现抄袭或作弊行为, 本次大作业将没有分数。 |
指导建议 为了帮助大家更好地完成本次大作业,提出以下指导和建议: |
该任务的难点是什么? |
|
如何决定使用什么方法? |
|
如何写实验报告? |
|
如何提交? |
|
关于本次大作业的任何问题,请联系老师或助教。 |