在标书中放一块数据挖掘的芯片,如果支持自己的假说,会有一定的说服力。如何用最快的方法搜索呢?以下我来介绍

1. STRING数据库的利用

  • 我认为string数据库在这方面要优于david,例如将“ICK”输入STING数据库

title

  • 物种选取人后,我们得到了这样的蛋白质关系:

title

这里有几个概念。从下图可以看到,两个蛋白质联系最好的是青色和紫色(已知的结果),来自实验数据,而其他颜色则是预测;最差的是黄色,只是通过文本挖掘的。

title

  • 然后我们将结果导出,一般我会选择这两个,一个图,一个excel

title

  • 我经常会分析一下,比如这样,选取到的基因都成了红色,说明这些基因注释到了cell cycle,然后再保存一份(图即可)。可以看我dropbox里面保存的结果也是这样的。

title

2. GEO2R在线分析

  • 找一个芯片,如果是GSD,则可以在线分析热图,如果没有,只能用GEO2R。如下图

title

  • 如果是GSD,我会先查查目标基因的表达。输入ICK。

title

  • 点击图片,发现复发和不复发也没什么区别,估计这芯片不好用。

title title

  • 但不管了,先演示。用GEO2R分析的话要在GSE界面中

title title

  • 接下来就是分组,自己摸索

title

  • 点top250,然后保存结果,这就是diff-genes

title

3. 本地作图

  • 然后就可以ctrl+f查找目的基因了。我一般会用到之前在string上保存的那些基因(要去除重复)。用函数vlookup(教程)来匹配p-val和logFC,这样就出来结果了,好像都不太理想。

title

  • 下载GEO的矩阵,然后用这些基因去做热图(用pheatmap)(教程)。

以上内容都是要找到目标基因,并且目标基因有意义才做,要不然就是无用功。