mongodb – 处理大数据集(neo4j,mongo db,hadoop)

我正在寻找处理数据的最佳实践.所以,这就是我到目前为止:1.000.000个类型为“A”的节点.每个“A”节点可以连接到1-1000个“B”型节点和1-10个“C”型节点.

我编写了一个RESTful服务(Java,Jersey)来将数据导入到neo4j图中.在导入节点“A”(只有节点,带有ID,没有更多数据)后,我注意到neo4j db已经增长到~2.4GB.

在neo4j中存储其他字段(名称,描述……)是个好主意吗?或者我应该设置mongoDB / hadoop来使用键/值组合进行数据访问?

最佳答案 你在插入过程中删除了很多节点吗?通常,一个节点在磁盘上占用9个字节,因此1M节点应该只占用9M字节.您必须启用id重用以积极回收内存.

您能否按文件大小列出数据目录的内容?

一般来说,如果它们不是大blob字段,那么将其他字段放在neo4j中是没有问题的.

你是如何创建数据库的?

点赞