写在前面

  • 这里分析的文章并不全,跟图书馆情报部门(链接)的相比,2016年附一的文章有800多篇,而我这里只有不到600篇,2015年的相对好一点,图书馆600篇,我统计到500篇。这都是可以预见的,因为单位的书写规范问题。因此可能有一些大神的大作并未收录,因此结果仅供参考。
  • 文章数量的统计并不全是SCI文章,但是在后面统计到impact factor相关内容时就都是SCI,因为SCI才有if。

本次分析总过获取了8533条记录,经筛选,最终剩余3405条记录。现将结果归纳如下:

年文章数量的增长速度

从下图中可以看到,附一文章的增长速度是非常快的,2000年之前几乎是是个位数。然而主要原因并不是文章数量本身的增长,而是名字的更改、校区的合并。合并之后也并不是能马上改变称呼,因此,我认为2010年之后的统计相对可信,起码那个时候基本统一了通讯地址的书写。这么算,增长速度也是惊人的,6年翻了三倍,今年见刊的也差不多刚过半,估计也是妥妥的增长。

years

文章的if总体分布情况

下图的横坐标是经过log10转换的,可以缩短if的机械差异,凸显低分段的分布。可见1分到5分占据了绝对优势。

countifs

journal

由于if是取自杂志,于是进一步分析。从所投杂志来看,分数最高的NEMJ,以及NATURE、lancet oncology、JOC等我院都有产出,但是几乎都是只有1篇。而数量最多的是PLOS ONE,这也符合大陆人的整体趋势。总的来看,是一个双曲线样的分布:文章数量多的,if都不会很高。

作者的分布情况

可以开始膜拜大神了。下图是作为一作或者通讯的作者分布(取了if之和前25的大神)。纵轴代表拥有文章的if之和,散点与原点连线的斜率代表篇均if分数。此图有很多信息,只可意会。

author

膜拜完大神,可以了解一下我院的新锐力量,下图是只作为一作的作者分布(if之和前25)。展现方式与前图完全相同。如果把此图分为四个象限,右下象限代表量产派,左上象限代表质量派,文章风格一目了然。然而好多人不认识。

first

各科室科研能力PK

各科室的科研成果分布是什么样的呢?请看下图,总的来看,内科的几大牛逼科室拔尖,外科系统整体差距不大。

dept

进一步分析,将麻醉科内的各个学者的合作关系展现如下:

networks zoom1

红色代表第一作者,黄色代表通讯作者,做过一次一作的即为红色,做过一次通讯的即为黄色。连线的粗细代表合作文章的数量。后图为缩进的前图,好玩的是此图可以随意拖拽缩进,展示所有学者之间的合作关系,遗憾的是无法在此页面中展示。

文章主题的探索

下图的横轴为WOS平台对文章分类的,纵轴为文章数量。通过此图可以简单了解下我院众多学者的研究方向:各位学者领域多与肿瘤和基础医学相关。

category

进一步利用词云分析文章所有的关键词可得到下图:

wordcloud

干细胞、坏死、预后为最多的关键词,仍然与肿瘤是相关的。由于机器并不把 cancer单独作为一个词,因此有很多不同部位的cancer出现在上图中,例如breast cancer, lung cancer等。


写在最后

  • 本项目通过WOS提供的平台手动下载数据而非脚本自动获取。
  • 利用python进行数据清洗,R+python进行数据可视化,除了最后的词云,其余均为R语言完成。
  • 数据清洗的过程基本花了2/3的时间,想要可视化省心,数据清洗必须做到位。本次学习还是出现了很多失误,致使花费大量时间(近2周)。
  • 做网络图的时候,刚开始准备做所有人的,结果发现数据量太大,电脑跑不动。然后就只取了通讯作者和第一作者,这样的话联系太分散,也没有多大意义。最后才决定只做一个科室的,从最后的结果看,还是比较合适的。
  • 学者分布那一块还是觉得很有意义,尤其是对后面同学选择导师可能会有所帮助。如果喜欢,可以朋友圈转发,就当是百晓生的兵器谱,如果想暗中观察某位大神的著作,这里是地址