项目简介

Bark是eBay开辟的一种应用于分布式数据体系中的开源数据质量解决方案,例如在Hadoop, Spark, Storm等分布式体系中,Bark供应了一整套一致的流程来定义、丈量数据集的质量并及时报告题目。

重要特征:

1.精确度检测:考证效果集数据是不是与源数据是一致的
2.数据理会:应用数据集的一致性、独特征和逻辑性,来举行统计分析和数值评价。
3.非常监测:应用预先设定的算法,检测出不符合预期的数据
4.可视化监测:应用控制面板来展示数据质量的状况。

中心上风:
1.及时性:可以及时举行数据质量检测,可以及时发现题目。
2.可扩展性:可以用于多个数据体系。
3.可伸缩性:事情在大数据量的环境中,现在运转的数据量约1.2PB (eBay环境)。
4.自助效劳:Bark供应了一个简朴的用户界面,可以建立数据集以及响应划定规矩;同时用户可以检察数据质量控制面板和自定义显现内容

GitHub: https://github.com/eBay/griffin 迎接fork,多多益善!
Contact us: lzhixing@ebay.com

    原文作者:elligao
    原文地址: https://segmentfault.com/a/1190000006795917
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞