mysql – 在C 端过滤 – 按下过滤器/从Spark查询范围查询到C

2023年6月28日 221次阅读

我使用datastax / spark-cassandra-connector和C *表填充1B行(datastax-enterprise dse 4.7.0)来处理spark 1.2.1.我需要执行范围过滤器/查询时间戳参数.

如果不加载整个1B行表来激活内存(可能需要几个小时才能完成)并且几乎将查询推回到C *,最好的方法是什么？

使用带有JoinWithCassandraTable的rdd或使用带有下推的数据框？
还有别的吗？

最佳答案 JoinWithCassandraTable在我的案例中变成了最好的解决方案.我从这篇文章中学到了很多东西： http://www.datastax.com/dev/blog/zen-art-spark-maintenance并发布了一个链接问题的答案： Spark JoinWithCassandraTable on TimeStamp partition key STUCK

所有这些都是关于以正确的方式构建C *表(选择好的分区键非常重要),以便将来查询.