众多企业在数字化转型过程中,都在积极寻求通过信息化手段提升业务效率、优化系统架构,今天,我们来聊聊一家在大健康领域信息化建设的医疗科技企业(以下简称“该企业”),看看他们是如何借助 ETL 数据集成平台,成功解决业务系统集成中的痛点,实现信息化应用的高效化发展的。
随着企业信息化发展,该企业已经建设了众多的信息系统。这些信息系统建成后,在每个信息系统内部都实现了信息和数据的整合,但是这些系统之间还都是相互孤立的,不能互相通信,数据也不能相互整合。
项目背景
当前公司内部的数据转换规则可能非常复杂,尤其是在业务需求频繁变更的情况下,保持数据转换规则的正确性和及时性是一项挑战。
存在问题:
1.数据质量问题:源系统的数据可能存在不完整、不准确、格式混乱等问题,这直接影响后续数据处理的有效性和可靠性;
2.异构系统集成:需要从各种不同的数据源收集数据,而这些源可能采用不同的数据格式、编码标准,增加了数据集成的难度;
3.性能瓶颈:处理大量数据时,数据抽取、转换和加载的速度会变得缓慢,特别是在有限的资源条件下,可能导致处理时间延长。
项目目标
为实现对业务、数据、技术三台服务接口的统一集成,对企业服务具备自动发现,集中注册发布能力;
降低门槛,引入了拖放界面和自动化特性,使得学校内部非技术人员也能参与数据管道的设计;
集团需要对某地医院进行三医监管,希望通过离线数据集成把各个医院数据进行抽取、转换、加工后传输数据至集团数据平台中。
背景痛点
企业目前所管理的各地方医院数据量非常庞大,且各个业务报表处理逻辑异常复杂,内部管理者需要对各个医院的入院登记、门诊、费用进行监管。由于地方医院业务库都会大量各类别的明细信息,这些信息必须按照T-1的方式同步至PostgresSQL数仓中并且对这些明细数据进行监管。传统的同步方式没有办法清楚地知道详细的明细数据同步情况,数据出现异常后难以分析出出现问题的明细。
解决方案
通过ETLCloud离线数据集成平台对该企业的数据平台进行自动执行数据提取、转换和加载的过程,减少了人工干预的需求,节省时间和劳动力成本。高效处理大量的数据,通过批处理机制,一次性处理数百万甚至数十亿条记录,提升数据处理速度。
具体实现步骤
1)接入各地方医院数据源:
针对不同医院将各种类型的数据源接入到Restcloud平台中。
2)编排流程流程抽取数据:
定义医疗机构代码、个人标识类型以及时间戳,把医院DW层的表加工成挂号、住院、门诊等明细数据,并且把数据落地到长生集团PostgresSQL数仓便于当天对数据进行分析监控。

3)把无异常的明细数据推到Doris:
把Doris流程发布成API,待企业数据平台PostgresSQL中的明细数据检查无误后,会把正常数据作为参数调用Doris流程,把数据推到Doris中做展示。

价值总结
1.异常定位
原来:数仓整个链路处理逻辑复杂,目标数据异常时候需要投入大量人力去逐步排查,难以追溯哪一步出现了异常。
现在:通过离线数据集成对每一层需要处理的数据进行统一管理,医院->企业数据平台->Doris每个链路分工明确,创建的任务是否异常一目了然,便于开展数据质量工作,大大降低了运维人员的工作量。
2.数据整合
原来:不同业务系统之间数据来源种类过多,传统的数据采集方式需要针对各个地方医院所使用的数据库类型以及数据库版本进行单独的逻辑处理,不利于对不同的数据源进行整合。
现在:离线数据集成能够从多样化的数据源收集数据,包括但不限于数据库、文件、日志、API接口等,将其统一存储至单一平台,为后续分析提供一站式数据获取途径。
3.性能优化
原来:在数据庞大的时候,医院数据库加工出来的明细数据需要花费大量的时间去进行处理,耽误了该企业的数据分析的时间。
现在:通过预处理数据,可以在查询过程中减少负载,提升数据分析和报告的速度。它还可以通过批处理大量数据,避免实时处理带来的延迟和资源消耗。
通过RestCloud的ETL离线数据集成平台,该企业成功解决了数据平台同步的难题,提升了数据准确性和业务系统的稳定性,显著提高了工作效率。

