资料详情

基于Python爬虫+nodejs+spring boot+Spark+Hadoop的CS领域论文文献数据分析 毕业论文+汇报PPT+源码及数据库文件

头像

Python

编号:1949

CS领域论文数据分析

目录

CS领域论文数据分析

Streaming

I. Streaming应用场景

・ 某个领域的热门程度和该领域在特定时间段内产出的论文数量相关

1. 统计特定时间段内热度靠前的领域并比较各领域热度

II. Streaming数据获取

# go to next page

III. 流计算总体架构

IV. 业务需求实现

GraphX

I. GraphX应用场景

2. 统计特定时间段内和某领域交叉程度较高的领域

II. GraphX数据获取

III. 图计算总体架构

1. 领域的共同论文构成的图

2. 作者的共同论文构成的图

IV. 业务需求实现

Streaming

I. Streaming应用场景

计算机领域也有多个子领域,每个子领域获得的投入和关注度也是不同的,随着时间的变化,研究热潮也在发生改变,对于我们而言,这几年感受最深的就是 AI 相关领域的崛起,直到现在还保持着极高的热度。那么其他的子领域的热度是怎么样的,某个领域内部不同作者的热门程度是什么样的?我们希望对其进行一番探究,从而能够对计算机领域的发展形势有一定的了解。

首先我们进行了以下的这些假设:

・ 某个领域的热门程度和该领域在特定时间段内产出的论文数量相关

・ 某个作者的热门程度和该作者的论文被引用数量相关

从而可以得到具体的业务问题:

1. 统计特定时间段内热度靠前的领域并比较各领域热度

2. 统计特定时间段内某领域的论文发表数量变化趋势

3. 统计特定时间段内某领域的热门论文和作者

4. 分析特定时间段内各领域的热度变化趋势

5. 分析特定时间段内每年的最热门领域