普罗米世界 首页 普罗米世界
蛋白质和蛋白质组的论坛
常见问题常见问题聽 聽搜索搜索聽 聽会员列表会员列表聽 聽团队团队聽 聽注册注册
个人资料个人资料聽 聽登陆查看您的站内信件登陆查看您的站内信件聽 聽登陆登陆聽

我的一点感想

发表新帖聽聽聽回复帖子 聽聽聽普罗米世界 首页 -> 并行化计算和算法研究.....
阅读上一个主题 :: 阅读下一个主题 聽
作者 留言
straw
Site Admin


注册时间: 2003-05-28
帖子: 47

帖子发表于: Sat Oct 04, 2003 11:42 am聽 聽发表主题: 我的一点感想 引用并回复

--by straw
看到国内很多单位热衷于对国外的开源生物学软件的并行化,并以此来“骗取”经费。从用户的角度来说其实是非常没有必要的做法。目前的生物学软件中使用的最多的是blast、phrap、和hmm为代表的3种类型的软件。我们逐个分析一下子:
blast: 不管是一个大的genome center还是还是生物信息学实验室,其中80%的时间都是在用blast在比较一些100KB以下的序列,对于这类应用,一个很好的intel/AMD/linux计算机的效果远远超过一台小型机。针对大量计算任务完全可以用perl/shell脚本对其进行分布式或者是任务并行化处理。对于一个长于100KB甚至达到几兆以上的序列,我们可以比对的序列库分成多份,最后把结果合并一下,可能这是有人会说score值和e值不一样了,我要说的是:score值和e值本来就是和数据大小非常相关的东西,只要你的数据库的大小变了,他们的值肯定会变化。从另外一个角度说这两个只是一个对当前数据库的一个打分而已。真正搞生物学的人不会看的,他们所关心的是序列的alignment,而不是打了多少分而已。
返回页首
阅览会员资料 发送站内信件 发送电子邮件
straw
Site Admin


注册时间: 2003-05-28
帖子: 47

帖子发表于: Sat Oct 04, 2003 11:44 am聽 聽发表主题: 引用并回复

phrap: 序列拼接软件是非常耗内存资源的软件,但由于它的算法串行的,所以真正在计算的时候只有少数几个甚至只有一个CPU 的利用率很高。所以作拼接的机器的内存是越大越好,但CPU数量就不见得很重要了。一个更好的做法是: 通过blast等程序将序列归类(自己写一些处理脚本),一个小类的序列做一次拼接,对拼完的序列在拼一次,这样所消耗的时间远小于对几百上千条序列的直接拼接,而且还可以充分利用计算机的资源。
hmm类软件的特点是计算耗时长,内存吃得不多,而且一般一次只能消耗一个CPU的资源(连SMP都没有)多个CPU对她而言只是个摆设。因此这类程序往往套上一个perl/shell的外壳,对计算任务做并行化处理。
生物信息学序列分析软件大多是这3类软件的衍生物。集群计算和分布式计算的成本要远小于一台小型机的成本。从以上的分析来看,这类软件基本就是为了任务一级的并行化来设计的,我们没有理由不使用集群计算。
呵呵
返回页首
阅览会员资料 发送站内信件 发送电子邮件
从以前的帖子开始显示:
发表新帖聽聽聽回复帖子 聽聽聽普罗米世界 首页 -> 并行化计算和算法研究..... 论坛时间为 北京时间
1页/共1


转跳到:聽
不能发布新主题
不能在这个论坛回复主题
不能在这个论坛编辑自己的帖子
不能在这个论坛删除自己的帖子
不能在这个论坛发表投票


Powered by phpBB 2.0.4 漏 2001, 2002 phpBB Group