RDKIT:
rdkit的安装与使用,直接conda instal rdkit,不行的话,使用源码安装,将RDKIT源码下载解压到acaconda的pkg目录下,打开cmd,进入pkg下的 rdki目录使用python setup.py install ,就可以安装好RDKIT,顺便提一下RDKIT有点未知性。。有时候代码这台机器能用,那台机器不能用。。
本次使用RDKIT主要是mol文件转成smiles文件,画出化合物的2D结构图,主要用到Chem下面的几个函数。
RDKIT文档:http://www.rdkit.org/docs/index.html
postgresql:
postgresql是一款强大的开源数据库,对于原生的postgresql来说有很多强大的功能,比如自带分区,并行查询的功能。
postgresql也含有大量的插件,pg-xc,pg-pool,stado等,为postgresql的分布式部署提供了解决方案。
本次的数据是一个12TB 1E分子的化合物数据库,在我实践之下只选择了670M的数据。
整个项目的大体构思如下
数据库存储 关系型数据库,如MySQL,PostgreSQL
分布式存储 数据库查询 Map-Reduce分布式查询 PostgreSQL嵌入结构查询引擎,快速检索
可视化 分子结构可视化 分子性质、特征空间可视化。
数据库结构:
采用分布式框架,有多个节点,每一个节点下有主从数据库,副数据库用来备份,每一个数据库下采用分表结构。postgresql的分表有三种形式分别为范围分表,列表分表,哈希分表(哈希分表在11版本提供),在数据库执行查找的操作时候,并行连接多个数据库,然后每一个数据库下执行并行查询。这里的并行查询postgresql有提供。以并行查询分布式数据加快查询速度。优化查询。