来源:CPDA数据分析师网 / 作者:数据君
混合部署使公司能够克服这些挑战
并找到适合其IT基础架构的最佳位置,但是当数据位于多个不同的源上时,使用此数据进行分析和处理将变得非常复杂,无缝数据处理的主要障碍之一是不良的数据质量。如果没有可适应跨环境的数据卫生策略和解决方案,则几乎不可能以企业所有利益相关者都容易获得的方式利用数据来创造价值,在本文中我们将研究在混合环境中清理数据时遇到的一些挑战,以及如何在云和本地系统之间维护数据卫生。
混合环境中数据清理的挑战
为了对混合环境中存储的公司数据有完整而全面的了解,您可能希望将来自不同来源的数据整合在一起,此过程可能会带来一些基本挑战,例如处理变化的数据属性 –保存在不同来源的数据记录可能包含相同的信息,但元数据标题可能不同,例如存储在云中的客户记录可能包含“主要地址”字段,而内部记录或本地记录可能仅包含“地址”字段,在清理,合并或链接这些记录时,可能需要标识标题不同但表示相同信息的数据属性。
维护统一的标准化规则 –必须为可跨环境使用的数据创建转换规则
否则为每个环境分别开发和维护相同的转换逻辑会浪费大量时间和精力,有了实现相同标准化结果的多个规则,遇到不一致和不准确性的机会就会增加,执行记录匹配和链接 –跨云和本地解决方案存储数据的最大挑战之一是数据匹配和链接,为了比较数据记录,您需要具有相同数据类型和格式的数据,此外您需要一种技术,该技术可提供统一的比较接口,并利用行业标准以及专有算法来匹配数据值,可能很难“精确”匹配保存在不同环境中的数据,并且其他技术(如模糊匹配,语音,数字和特定于域的匹配)可能会导致更准确的匹配。
开发单一的事实来源–在数据分析方面
采用多云或混合部署的公司希望实现以下目标,每个部门可以访问其公司数据的单一视图(主记录),如果您的某些数据驻留在本地并且某些数据在云上进行处理,则您公司的不同团队可能会查看同一数据的两个版本,在这种情况下,营销团队将无法使用销售数据,而销售团队也将无法使用财务数据,这将影响整个组织的绩效和生产力。
如何在混合环境中保持数据卫生?采用混合基础结构的组织必须实施一致且可靠的数据质量管理策略,以满足在各种环境和数据源之间集成,组合,分类,清理和监视数据的需求,除了基本的数据清除选项之外,您还需要一个具有以下功能的解决方案:
高连接性选项 –在混合环境中
您的数据位于公共或私有云以及本地服务器等多个位置,为了充分利用这些资源,您需要一个解决方案,该解决方案应提供开箱即用的连接器,以实现不同数据系统之间的无缝集成,安全性 –将多个数据系统连接在一起的最大挑战之一是安全性,因此您需要一个采用安全方法在云和本地位置之间移动数据的解决方案,而且一个重要的功能将是重用来自不同来源的数据,而不会影响或更新任何来源位置的数据。
可伸缩性和性能 –随着数据源数量的成倍增加
对于混合数据清理解决方案而言,不仅支持这些数据源,而且在需要时提供强大的性能和可伸缩性选项非常重要,当与多个大容量数据源集成时,许多解决方案均会降低性能并产生低效的结果,单点操作控制 –混合数据清理解决方案必须为操作控制提供统一的界面,除了能够从不同来源提取数据并为数据清洗,转换和匹配应用标准化规则的能力外,该解决方案还应具有将生成的黄金记录推回到指定来源的能力,无论何时何地均可从该位置访问数据,分析和处理所需的任何地方。
采用混合数据清理工具并提高运营效率
为了使数据清理策略在混合环境中有效运行,您需要一种工具,该工具可为各种云和本地数据库提供无缝支持,质量数据不仅可以帮助您获得可靠的见解,以制定以数据为依据的决策,还可以改善客户体验,消除重复的工作以保持数据干净,并提高整体运营效率。
混合部署使公司能够克服这些挑战
并找到适合其IT基础架构的最佳位置,但是当数据位于多个不同的源上时,使用此数据进行分析和处理将变得非常复杂,无缝数据处理的主要障碍之一是不良的数据质量。如果没有可适应跨环境的数据卫生策略和解决方案,则几乎不可能以企业所有利益相关者都容易获得的方式利用数据来创造价值,在本文中我们将研究在混合环境中清理数据时遇到的一些挑战,以及如何在云和本地系统之间维护数据卫生。
混合环境中数据清理的挑战
为了对混合环境中存储的公司数据有完整而全面的了解,您可能希望将来自不同来源的数据整合在一起,此过程可能会带来一些基本挑战,例如处理变化的数据属性 –保存在不同来源的数据记录可能包含相同的信息,但元数据标题可能不同,例如存储在云中的客户记录可能包含“主要地址”字段,而内部记录或本地记录可能仅包含“地址”字段,在清理,合并或链接这些记录时,可能需要标识标题不同但表示相同信息的数据属性。
维护统一的标准化规则 –必须为可跨环境使用的数据创建转换规则
否则为每个环境分别开发和维护相同的转换逻辑会浪费大量时间和精力,有了实现相同标准化结果的多个规则,遇到不一致和不准确性的机会就会增加,执行记录匹配和链接 –跨云和本地解决方案存储数据的最大挑战之一是数据匹配和链接,为了比较数据记录,您需要具有相同数据类型和格式的数据,此外您需要一种技术,该技术可提供统一的比较接口,并利用行业标准以及专有算法来匹配数据值,可能很难“精确”匹配保存在不同环境中的数据,并且其他技术(如模糊匹配,语音,数字和特定于域的匹配)可能会导致更准确的匹配。
开发单一的事实来源–在数据分析方面
采用多云或混合部署的公司希望实现以下目标,每个部门可以访问其公司数据的单一视图(主记录),如果您的某些数据驻留在本地并且某些数据在云上进行处理,则您公司的不同团队可能会查看同一数据的两个版本,在这种情况下,营销团队将无法使用销售数据,而销售团队也将无法使用财务数据,这将影响整个组织的绩效和生产力。
如何在混合环境中保持数据卫生?采用混合基础结构的组织必须实施一致且可靠的数据质量管理策略,以满足在各种环境和数据源之间集成,组合,分类,清理和监视数据的需求,除了基本的数据清除选项之外,您还需要一个具有以下功能的解决方案:
高连接性选项 –在混合环境中
您的数据位于公共或私有云以及本地服务器等多个位置,为了充分利用这些资源,您需要一个解决方案,该解决方案应提供开箱即用的连接器,以实现不同数据系统之间的无缝集成,安全性 –将多个数据系统连接在一起的最大挑战之一是安全性,因此您需要一个采用安全方法在云和本地位置之间移动数据的解决方案,而且一个重要的功能将是重用来自不同来源的数据,而不会影响或更新任何来源位置的数据。
可伸缩性和性能 –随着数据源数量的成倍增加
对于混合数据清理解决方案而言,不仅支持这些数据源,而且在需要时提供强大的性能和可伸缩性选项非常重要,当与多个大容量数据源集成时,许多解决方案均会降低性能并产生低效的结果,单点操作控制 –混合数据清理解决方案必须为操作控制提供统一的界面,除了能够从不同来源提取数据并为数据清洗,转换和匹配应用标准化规则的能力外,该解决方案还应具有将生成的黄金记录推回到指定来源的能力,无论何时何地均可从该位置访问数据,分析和处理所需的任何地方。
采用混合数据清理工具并提高运营效率
为了使数据清理策略在混合环境中有效运行,您需要一种工具,该工具可为各种云和本地数据库提供无缝支持,质量数据不仅可以帮助您获得可靠的见解,以制定以数据为依据的决策,还可以改善客户体验,消除重复的工作以保持数据干净,并提高整体运营效率。