0%

DNA是双链分子,按照A与T、C与G的原则互补配对。知道其中一条链,就可以反推出另外一条链。因此,在数据库中,染色体DNA参考序列都是单链。那么,染色体DNA参考序列是哪一条链呢?这是一个有趣而又不重要的问题。

Google了一下,国外还真有人讨论这个问题。地址如下
https://biology.stackexchange.com/questions/36595/what-is-the-strand-specificity-of-a-reference-genome
英文不难懂,建议大家去看原版,这里简单翻译一下。

对于具体的物种,最好去看数据库的说明。大概有如下原则:

  1. 细菌基因组和质粒 原核生物大多为环状DNA,一个复制原点,两侧同时开始复制。数据库中的参考序列从复制原点左边的链5端开始的方向。

  2. 真核染色体 对于知道染色体核型的情况,数据库中的染色体参考序列从短臂的5端开始。

  3. 单链RNA病毒 单链RNA病毒的参考序列是正链"+"。

有一次我在知乎上回答了一个论文作者纠纷的问题,最近收到了好几个类似问题的邀请。归纳起来就是,第一作者被导师抢走了,第一作者被师兄抢走了,第一作者被其他人抢走了。问题下面的回答很多都批评导师无良和学界黑暗,而很少就问题本身做出阐释。可能不同学科的情况有所不同,至少在生命科学这个领域,论文作者排名的问题,有必要跟大家说一说。

依赖个人好奇心驱动和科学家个人能力进行探索的科研时代已经过去很久了。现代科研体系中的团队内合作,乃至跨团队合作是常态,这意味着论文的作者不再是单个人。单个作者的论文不是说没有,而是非常罕见。有一次我们去参加一个生物信息学国际会议,我的下一场报告刚好就一个作者。大家私下里聊天,不是赞叹这个老师个人能力有多强,而是很同情他,没有合作者,没有团队,没有学生,一个人孤单地搞研究。相信我,一个人发论文,真的是一件凄惨的事情。

既然多个作者是常态,如何评价贡献大小呢?很朴素的做法就是按照贡献大小,从前往后排,我们隔壁的计算机科学领域就是这样子的。但是,在我们生命科学领域(我是做生物信息的,自认为是生命科学领域的,而不是隔壁那家)最重要的作者通常排在最后。

论文最重要的作者是通讯作者,名字后面有个星号*,脚注中还留了E-mail。通讯作者对这篇论文负责,知识产权也主要属于他。如果这篇论文得奖,首先获奖的是通讯作者;如果有同行对这篇论文感兴趣,也是联系通讯作者。如果觉得自己干活最多,贡献也应该是最大,理应是通讯作者了吧。知乎上类似问题的题主大多也是觉得自己干活多,应该是论文最主要的贡献者。评价作者对论文的贡献不能简单地看绝对工作量,后面还会有论述。

通讯作者在论文中承担什么样的工作呢?一个好的通讯作者,要提出研究思路,大家的研究课题是谁给的呢?不是充话费送的吧。通讯作者,还要提供科研条件和科研经费,并监督整个课题的进展。说了这么多,大家应该明白,通讯作者应该是自己的导师了吧。

那努力做实验的你,应该搁哪呢?你最好的位置是第一作者。注意,我没有说,你做了实验,甚至做了大部分实验,就应该是第一作者。一个好的第一作者,要独立或者领导师弟师妹完成大部分实验,和导师共同分析实验结果并讨论研究思路,撰写论文初稿。要做这点并非容易,现在有些导师招博士要求所谓的独立科研能力,大概也是指做一个好的第一作者的能力。

如果你的导师除了要做通讯作者的工作,还要分担第一作者的工作,请心疼一下他。正因为有撸起袖子自己干的导师,所以有人觉得导师应该手把手指导自己做实验,不然就是"乱搞"。不仅觉得自己的导师"乱搞",还觉得国内学界大佬大多是不务正业。前面讲了,导师作为通讯作者,更大的责任是供科研条件和科研经费。一个课题组每年几十万乃至上百万的开销,是压在他心头的一块大石头。我老师经常跟我讲,要是还拿不到经费,课题组还能支撑一年半(每次都不同哈)。没有导师手把手指导,作为一个研究生,怎么学习具体的实验技术呢?主要靠自学(相信我,研究生能学到的最好的东西是解决问题的能力)。如果遇到一个肯教你的师兄师姐,你应该感谢他,他没有教你义务。

如果什么事情都很容易分清,这世界也就不会有纠纷。有些同学有大小两导师,大导师是领导/大教授,是名义上的导师;小导师是讲师或者副教授。小导师会手把手教你,还会帮你把实验结果分析和研究思路都做好,可能连论文也是他写的。他既干了部分第一作者活,又干了部分通讯作者的活,但更应该做通讯作者的是大导师。小导师可能会要第一作者的位置,毕竟这种情况下,他比你更适合做第一作者。

一般情况下,大导师不会要第一作者的位置。他有了大家最认可的通讯作者位置,如果还要第一作者的位置,等于抢了下属的功劳,不利于激励团队。另外,如果他这样做,会被同行耻笑,就像大家嘲笑蒋校长自授特级上将一样。考虑到硕士研究生不需要第一作者的论文就能毕业,而博士研究生毕业必须要第一作者的论文,第一作者的位置优先考虑博士研究生,然后是小导师,再次是硕士研究生。很多时候做研究时候,都是有商量的,将来作者如何分配。所以,请不要看到室友做的事情还不如自己,然后靠一篇第一作者论文拿到2万块国家奖学金而愤愤不平。请思考自己是否做到了好的第一作者该做的所有事情,其次是团队中是否有人比自己更需要第一作者。

为了缓解作者排名纠纷,鼓励合作,天才发明共同第一作者/共同通讯作者。论文脚注"These authors contributed equally to this work"。较真的话,哪会有人贡献是一样的呢?给合作者共同第一作者是承认他对论文做出了重要贡献。作为一个研究生,甚至是本科生,有一篇共同第一作者的论文也是不错的。

我们之前讲了,评价作者对论文的贡献不能简单地看绝对工作量。那么一篇论文的发表究竟什么最重要呢?突破性和创新的构思?扎实而可靠的实验?这些都非常重要。还有一个非常重要的东西,经常被刚入行的人忽视,那就是作者在这个领域的credit或者叫reputation。等我发表了自己的第一作者的论文,也审了别人的论文,才明白credit的重要性。作为杂志的编辑和审稿人,不想重复也没有精力和必要去重复你的研究,凭什么相信你的研究是真实可靠的呢?凭的是这篇论文的作者在这个领域做的持续贡献。导师就是作者中提供最重要的credit那个人,他在这个领域多年的笔耕不辍,他拿他的职业生涯为论文的真实性提供背书。

跟着到导师发表了论文,以后你在这个领域发表论文也就有了credit,这叫"借"。如果自己进入一个全新领域,一步一个脚印,从小论文(对credit的要求没有那么高)发起,这叫"攒"。还有人"偷",这就不可取了。前几天看公众号,某教授被人白送一篇6分多的论文,做为通讯作者,他的E-mail地址是伪造的。

现在很多杂志鼓励在论文的"Authors’ contributions"部分写明各个作者的具体贡献。本文不是要做做个公道伯,去解决论文作者纠纷。而是,希望大家思考论文作者背后的贡献、义务与权利。

一篇第一作者的论文,或许意味着丰厚的奖金,顺利毕业,一份工作,或者事业更上一层楼。但请考虑作为人生重要的一个阶段,你和导师、师兄师姐共同度过3年乃至更久的共同奋斗时光。当你离开了这个实验室,某天在街上偶遇,能开开心心一起坐下来喝个茶、吃个饭,该是一件多么美妙的事情啊。

写在前面

长非编码RNA(Long non-coding RNA, lncRNA)是长度大于 200 个核苷酸的非编码 RNA。200个核苷酸的限制可以区分当时已知的功能非编码RNA(如miRNA、miRNA前体)和结构非编码RNA(如tRNA、rRNA)。可想而知,lncRNA是个大杂烩,种类繁多,功能复杂。

随着转录组测序的大规模应用,大量的lncRNA被发现。如果你做了一个转录组研究,可能也会有鉴定新lncRNA的需求。转录组构建之后,去掉已知的编码蛋白基因和lncRNA,留下的就是新发现的转录本。从新发现的转录本鉴定lncRNA,简单来讲,就是去掉转录噪音和去掉编码蛋白基因。

转录组测序可以分析出几万到几十万转录本,其中很大一部分是转录噪音。我们通常来讲,会去掉单外显子和低表达转录本。有人认为,RNA聚合酶II可能随机结合在DNA上,瞬时转录出一些RNA,因为不是正常的基因转录,所以会马上关闭。这些转录噪音的特征就是单外显子和低表达。

通常根据lncRNA在基因组上与蛋白质编码基因的相对位置将其分为4类:基因间长链非编码RNA(intergenic lncRNA,由基因组上编码基因之间的间隔序列转录产生,也即long intergenic ncRNA, lincRNA)、内含子长链非编码RNA(intronic lncRNA,完全由蛋白质编码基因内的内含子转录而来)、正义链非编码RNA(sense lncRNA,转录方向与蛋白质编码基因转录方向相同,并且与蛋白质编码基因外显子有部分或者全部重叠)、反义长链非编码RNA(antisense lncRNA,转录方向与蛋白质编码基因转录方向相反)。其中lincRNA争议很小,sense lncRNA和intronic lncRNA可能是基因转录错误或者转录加工得到中间产物。如果是链非特异性的库,转录本的方向是软件推断出来的,antisense lncRNA可能就是sense lncRNA,也可能是转录噪音。有些严格的一点的研究,可能只要intergenic的新转录本。

接下来是去掉编码蛋白基因,因为lncRNA特征不明显,鉴定lncRNA就变成鉴定编码蛋白基因,然后取反。有人自己编写程序去掉编码蛋白基因,比如BLAST比对已知蛋白库(不能比对上或者限制比对上的长度),再加上开放阅读框长度不能大于30(或者某个其他值)。鉴定lncRNA的工具其实很多,大家常用的套路也是综合多个工具的结果。本文推荐CPC2和CPC这两个软件。

使用CPC2鉴定lncRNA

CPC2只使用序列本身的特征,速度非常快。我现在的做法是先跑CPC2,去掉coding gene,剩下的再去跑CPC。CPC2的官方地址:http://cpc2.cbi.pku.edu.cn/download.php

  1. CPC2的安装

CPC2依赖Biopython,所以我们先安装它。

1
pip install biopython
然后安装CPC2。
1
2
3
4
5
6
7
tar zxvf CPC2-beta.tar.gz
cd CPC2-beta
export CPC_HOME="$PWD"
cd libs/libsvm
tar zxvf libsvm-3.18.tar.gz
cd libsvm-3.18/
make clean && make

注意CPC2目前只支持Python2,如果你装了Anaconda,可以开一个Python2的虚拟环境。export CPC_HOME="$PWD"这句是将CPC_HOME这个环境变量设置为CPC2的主目录路径,重启终端后,这个设置就无效了。如果要永久设置可以修改~/.bashrc文件,添加export CPC_HOME="/home/chenwen/bin/CPC2-beta",注意你的实际路径可能和我的不同。

  1. 运行CPC2
1
2
cd $CPC_HOME
python ./bin/CPC2.py -i input.fa -o output.txt

使用CPC鉴定lncRNA

CPC是鉴定lncRNA经典软件,它先把未知转录本和已知蛋白库BLAST对比,BLAST的结果作为libsvm(一个机器学习分类库,CPC2也用了它)的分类特征。因为有了BLAST,可靠性更高,同时也非常慢。

CPC是个很老的软件了,它调用的是blastall,也就是老版本的BLAST,而不是新版本的BLAST+。CPC和老版本BLAST的下载地址,有些朋友可能找不到,我把它们直接放在我的网站上了。

CPC下载地址:https://static.biochen.com/software/cpc-0.9-r2.tar.gz
老版本的BLAST下载地址:https://static.biochen.com/software/blast-2.2.26-x64-linux.tar.gz

  1. CPC的安装
1
2
3
4
5
6
7
8
9
tar -zxvf cpc-0.9-r2.tar.gz
cd cpc-0.9-r2/libs/libsvm
tar -zxvf libsvm-2.81.tar.gz
cd libsvm-2.81
make clean && make
cd ../..
tar -zxvf estate.tar.gz
cd estate
make clean && make
  1. 建立BLAST库

需要使用蛋白质库,UniRef90或者NCBI的nr都可以,用formatdb命令建库时,必须命名为”prot_db”, 且放在CPC安装目录下的data目录下面。

1
2
cd cpc-0.9-r2/data
formatdb -i (your_fasta_file) -p T -n prot_db
  1. 运行CPC
1
2
cd cpc-0.9-r2/
bin/run_predict.sh (input_seq) (result_in_table) (working_dir) (result_evidence)

括弧里面的内容需要改成你实际的文件名或者路径。run_predict.sh会调用远程blast,建议运行run_predict_local.sh,并把这个文件中blast_opts=”$blast_opts -a 2″; # 2CPUs, boost the performance这句话中的2,改成你实际电脑使用的CPU核数。

有些命令用得多了,也就记住了,比如cd和ls。有些命令用得没那么多,记不住,拿个小本本记下来,于是有了这篇博客。

压缩和解压

.tar.gz压缩

1
tar -zcvf compressed.tar.gz to_compress_file_or_folder
-p 保留文件权限

.tar.gz解压

1
tar -zxvf compressed.tar.gz
.zip压缩
1
2
zip -r compressed.zip to_compress_folder
zip compressed.zip to_compress_file
.zip 解压
1
unzip compressed.zip
.gz压缩
1
gzip to_compress_file
.gz解压
1
gunzip compressed.gz
.tar.bz2解压
1
tar -jxvf compressed.tar.bz2
.tar.xz解压
1
tar -xvJf compressed.tar.xz
之所以没有压缩为.tar.bz2和.tar.xz的命令,是因为这不是命令大全,只记录我用过的命令吧。Linux文件压缩首选.tar.gz格式,加-p参数可以保留文件权限信息。如果为了考虑Windows也能很方便打开,可以选择压缩为.zip格式。

添加环境变量

1
2
echo 'export PATH=/home/biochen/bin:$PATH' >> ~/.bashrc
source ~/.bashrc

很多Linux软件提供了编译好的二进制文件,可以在软件的目录输入./software_name来使用它。如果要想到处可以用,将软件的路劲添加到环境变量即可。

scp

上传

1
2
scp -P port local_file remote_username@remote_ip:remote_folder
scp -P port -r local_folder remote_username@remote_ip:remote_folder
下载
1
2
scp -P port remote_username@remote_ip:remote_file local_folder
scp -P port -r remote_username@remote_ip:remote_folder local_folder
自己的电脑与远程服务器的上传下载,我一般使用FileZilla,鼠标点几下还是很香的。如果要在两台服务器之间传数据,特别是大一点的数据,下载到自己的电脑,然后上传,就没有那么香了,这时候scp命令就可以派上用场了。

查看进程

1
2
ps -elf |grep user_name
ps -elf |grep software_name

查看进程命令是ps -elf,会输出一堆进程,后面一般通过管道接grep,筛选出特定用户或者特定软件的进程。进程没什么好看的哈,主要是为了找出进程的id(第二列的数字),然后用kill命令杀掉。

1
kill job_id

查看网络端口

1
sudo netstat -tunlp |grep 80

或者

1
sudo lsof -i:80
以上命令,找出哪个进程监听80端口,然后等待这个进程的命运一般也是kill。

修改文件所有者和权限

修改文件的所有者

1
2
chown <user> <file|directory> [-R]
chgrp <group> <file|directory> [-R]
尖括弧<>括起来的参数是必须要的,方括弧[]括起来的参数是可选的,竖杠|两边二选一。-R递归文件夹下所有文件和文件夹,不然只是修改文件夹本身的所有者。

修改文件的权限

1
chmod 777 <file|directory> [-R]

Linux的有着比Windows复杂的文件权限,然而因为权限设置不对会产生很多问题,无脑设置为777(全部权限)是我通常的做法。Linux的文件权限机制的初衷是为了安全,如果我知道该给多少权限时,还会改过来。以下是常用的权限码:

1
2
3
4
5
6
7
-rw------- (600)  只有拥有者有读写权限
-rw-r--r-- (644) 只有拥有者有读写权限;而属组用户和其他用户只有读权限
-rwx------ (700) 只有拥有者有读、写、执行权限
-rwxr-xr-x (755) 拥有者有读、写、执行权限;而属组用户和其他用户只有读、执行权限
-rwx--x--x (711) 拥有者有读、写、执行权限;而属组用户和其他用户只有执行权限。
-rw-rw-rw- (666) 所有用户都有文件读、写权限。
-rwxrwxrwx (777) 所有用户都有读、写、执行权限。

查看文件

查看文件前10行

1
top -n 10 file_name

查看文件后10行

1
tail -n 10 file_name

查看文件11-20行

1
sed -n '11,20p file_name

查看文件第21到最后一行

1
sed -n '21,$p' file_name

删掉文件前10行

1
sed -i '1, 10d' file_name

查看文件有多少行

1
wc -l file_name

查看文件有多少列

1
awk -F '\t' 'NR==1 {print NF}' file_name

查看表头

1
less file_name |head -n 1 |tr '\t' '\n' |cat -n

未完待续...

从NCBI下载对应系统的BLAST+程序

根据自己的操作系统,从NCBI的FTP下载合适的BLAST+版本。我的操作系统是Ubuntu 18.04,选择的是ncbi-blast-2.10.0+-x64-linux.tar.gz。

1
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/

解压,将程序路径添加到环境变量

1
2
tar –zxvf ncbi-blast-2.10.0+-x64-linux.tar.gz
vi ~/.bashrc

在末尾添加:

1
export PATH=/home/chenwen/bin/ncbi-blast-2.10.0+-x64-linux/bin:$PATH
这里的路径视具体情况而定,我喜欢将软件都放在/home/chenwen/bin目录下 更新,使配置生效:
1
source ~/.bashrc

从NCBI下载数据库

下载地址:

1
ftp://ftp.ncbi.nih.gov/blast/db/
有关每个文件的含义请阅读README文件。下面摘录几种: human_genomic.gz 人类基因组序列 nr.gz All non-redundant GenBank CDS translations + RefSeq Proteins + PDB + SwissProt + PIR + PRF所有非冗余的的GenBank CDS区的翻译序列 + 参考序列的蛋白 + PDB数据库 + SwissProt蛋白数据库 + PRF蛋白数据库 nt.gz 除wgs, gss, sts, pat, est, htg以外的核酸序列,注意不是非冗余的 htg.gz 来源于GenBank, EMBL, and DDBJ的高通量基因组测序序列

格式化数据库

BLAST+使用makeblastdb命令格式化数据库。老版本BLAST使用formatdb命令。

1
makeblastdb -in db.fasta -dbtype prot -parse_seqids -out db_name
参数说明: -in:待格式化的序列文件 -dbtype:数据库类型,prot或nucl -out:数据库名

运行BLAST+

BLAST+提供多种比对程序: blastp: 用蛋白质序列搜索蛋白质序列库 balstn: 用核酸序列搜索核酸库 blastx:核酸序列对蛋白库的比对,核酸序列在比对之前自动按照六个读码框翻译成蛋白质序列 tblastn:蛋白质序列对核酸库的比对,核酸库中的序列按照六个读码框翻译后与蛋白质序列进行比对搜索 tblastx:核酸序列对核酸库在蛋白质级别的比对,两者都在搜索之前翻译城蛋白质进行比对 核酸序列比对核酸数据库(blastn):

1
blastn -query seq.fasta -out out.txt -outfmt 6 -db dbname -evalue 1e-5 -num_threads 8
参数说明: -query: 输入文件路径及文件名 -out:输出文件路径及文件名 -db:格式化了的数据库路径及数据库名 -evalue:设置输出结果的e-value值 -num_threads:线程数 -outfmt:输出文件格式,6是tabular格式 -max_target_seqs:设置最大目标序列匹配数 其他程序比对跟blastn相似,更多参数可以用-help查询。

-outfmt 6的输出文件格式详解

1
2
3
4
5
6
7
8
9
10
11
12
[00] Query id
[01] Subject id
[02] % identity
[03] alignment length
[04] mismatches
[05] gap openings
[06] q. start
[07] q. end
[08] s. start
[09] s. end
[10] e-value
[11] bit score