标签搜索

开源:Soda SQL-开放数据测试和监视

冰封一夏
2021-08-05 09:12:54 / 1 阅读 / 正在检测是否收录...

如何使用Soda SQL,Soda SQL是用于数据密集型环境的开放式数据测试,监视和性能分析工具

我很高兴代表Soda团队宣布Soda SQL的可用性,Soda SQL是Soda的第一个用于数据密集型环境的开源数据测试,监视和分析工具。您可以立即在GitHub上免费下载Soda SQL 。

随着越来越多的产品使用数据作为核心输入来构建,测试和监视所使用数据的质量变得从未如此重要。对于数据工程师来说,这通常需要额外的容量并需要开发自己的数据测试框架。众所周知,随着数据量和团队规模的增长,这些解决方案变得笨拙。

这就是为什么我们很高兴发布Soda SQL的原因;我们开发开放工具以支持在数据密集型环境中工作的数据工程师的Soda的第一个版本。

Soda SQL包含的功能的重点包括:

  • 检测到不良数据时停止管道
  • 通过高效的SQL提取指标和列配置文件
  • 通过声明性配置文件完全控制指标和查询

为什么我们要启动Soda SQL?

与许多其他领域一样,在软件中,您不了解的内容可能会伤害您。在Soda,我们称这些为无声数据问题。如果不加以限制,它们会在整个应用程序生态系统中引起连锁反应。

Soda SQL与您现有的数据工程工作流程一起使用,可以创建一种快速简便的方法来重新定义优质数据对您的业务意味着什么。它为数据工程师提供了一个开放的数据监视工具,以定义测试并防止在数据集,数据湖和数据仓库中未检测到的无声数据问题。

苏打SQL概要文件并测试您的数据:

  • 当它降落在您的仓库中时
  • 在每个重要的数据处理步骤之后
  • 并在食用之前。

这样可以防止将不良数据传递到组织内的下游消费者,并且意味着您不必再花很多时间在深夜中解决数据的消防问题。

苏打SQL如何工作?

它很容易(免费)下载,易于设置和运行。

Soda SQL使用简单的命令行界面(CLI)和Python库通过度量标准收集来测试和监视数据。作为输入,它使用YAML配置文件,其中包括:1)  SQL连接详细信息,2) 要计算哪些度量标准,以及 3) 在度量上运行哪些测试。基于这些配置文件,Soda SQL(通常在到达新数据之后)执行扫描,并运行与一个表关联的测试。对数据集和测试满意后,可以将它们添加到任何现代数据编排工具中。

查看这个5分钟的教程,以获得更深入的说明:https : //docs.soda.io/soda-sql/getting-started/5_min_tutorial.html

同时,这是一个简单的示例。

可以在扫描YAML配置文件中配置简单的指标和测试。此类文件的内容示例如下:

基于这些配置文件,Soda SQL将在每次新数据到达时扫描您的数据,如下所示:

下一步是在您喜欢的数据管道编排解决方案中添加Soda SQL扫描,例如:

  • 空气流动
  • AWS胶水
  • 长官
  • 达格斯特
  • Fivetran
  • Matillion
  • 路易吉

而已!

这是我们社区版本的第一个版本,旨在支持在数据质量至关重要的环境中工作的数据工程师。我们还在开发用于数据测试和监视的开发人员工具库,其中包括数据帧和流数据,这些数据帧和流数据将在所有主要数据工作负载,引擎和环境(包括Kafka,Spark,AWS S3,Azure Blob存储,Google Cloud Datastore, Presto,Snowflake,Azure Synapse,Google BigQuery和AWS Redshift。

要测试Soda SQL驱动器,请从GitHub下载它。感谢您的反馈-使用我们的问题或加入Slack社区!

0

评论

博主关闭了所有页面的评论