提供3000多款全球软件/控件产品
针对软件研发的各个阶段提供专业培训与技术咨询
根据客户需求提供定制化的软件开发服务
全球知名设计软件,显著提升设计质量
打造以经营为中心,实现生产过程透明化管理
帮助企业合理产能分配,提高资源利用率
快速打造数字化生产线,实现全流程追溯
生产过程精准追溯,满足企业合规要求
以六西格玛为理论基础,实现产品质量全数字化管理
通过大屏电子看板,实现车间透明化管理
对设备进行全生命周期管理,提高设备综合利用率
实现设备数据的实时采集与监控
利用数字化技术提升油气勘探的效率和成功率
钻井计划优化、实时监控和风险评估
提供业务洞察与决策支持实现数据驱动决策
翻译|行业资讯|编辑:况鱼杰|2020-07-08 15:43:59.310|阅读 204 次
概述:由Apache Flink提供支持的Cloudera Streaming Analytics的1.2.0.0版本提供了广泛的新功能,包括通过Apache Atlas支持沿袭和元数据跟踪,支持连接到Apache Kudu以及期待已久的FlinkSQL API的第一次迭代。
# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>
相关链接:
由Apache Flink提供支持的Cloudera Streaming Analytics的1.2.0.0版本提供了广泛的新功能,包括通过Apache Atlas支持沿袭和元数据跟踪,支持连接到Apache Kudu以及期待已久的FlinkSQL API的第一次迭代。
Flink的SQL接口使流处理民主化,因为它可以迎合比当前广泛使用的Java和Scala API(面向数据工程人群)更大的社区。将SQL推广到流处理和流分析用例提出了一系列挑战:必须解决表达无限流和记录的及时性的问题。可以考虑以下查询:
该查询产生每个用户会话的点击计数,该计数由会话之间30分钟的不活动状态定义,并在遇到新会话时实时更新。这是在流处理中已经很好建立的概念的示例,在这种情况下,会话窗口被引入到SQL语法中以表示记录的及时性。 重要的是要强调Flink支持的语法是ANSI SQL,它不是特定的方言。实际上,Flink社区正在与Apache Beam和Apache Calcite社区合作,以统一的方式应对FlinkSQL的挑战。
转变流媒体组织
从上述查询来看,很明显,更大的用户群可以有效地制定查询,从而为企业增加价值。但是,它给组织带来了以下问题:
今天编写的大多数流查询都可以通过FlinkSQL表示,以提供有根据的猜测,希望它能达到今天遇到的流查询的80%左右,这很适合通过此SQL API实施。可能你会觉得夸大其词,后面我们会向你一一介绍实现的过程。
当前,Cloudera经常遇到使用Flink的组织,其中近实时地获得业务价值是数据工程师的特权。数据分析人员通常是特定领域知识的专家,他们倾向于使用标准MPP或OLAP系统中存储的这些流的快照,例如通过Apache Impala查询存储在Kudu中的数据。这从本质上在寻找见解与以流化方式对其进行生产化之间引入了差距。分析师在证明其假设之后,必须与几个数据工程师确保数周甚至数月的项目资金投入,以细致地重新实现已经用另一种语言(通常是SQL)制定的业务逻辑。 FlinkSQL使分析人员可以直接与流进行交互,并单击按钮即可部署流作业。
反过来,这使数据工程师可以将精力集中在具有挑战性的20%的查询上,并建立可重用的特定于域的库,这些库可以直接从SQL中用作一组用户定义的函数来利用。
FlinkSQL功能
为了展示FlinkSQL的功能,最近Cloudera在标准教程套件下发布了一个SQL教程。这里重点介绍一些功能。
这个教程主要针对Apache Kafka主题进行操作,其中包含JSON格式的项目交易。首先,可以为此定义一个表模式,并指定我们要测量timestamp列记录的时间流逝(称为事件时间语义)。
请注意,在使用事件时间语义时,必须指定水印以为Flink提供启发式方法以测量事件时间的经过。这可以是返回时间戳的任意表达式。在较高级别上,水印指定了正确性(无限期等待潜在的延迟到达)和延迟(尽可能快地产生结果)之间的折衷。
创建上表后,可以提交以下查询:
第一个查询提供了直接的采样。使用limit子句是可选的,省略会导致结果以流方式不断更新。第二个查询实现一个简单的窗口聚合。这些查询的结果可以返回到交互式Flink SQL cli,或者可以通过INSERT INTO语句直接写入输出表。
FlinkSQL还提供了更复杂的子句,例如,可以按如下公式查找在每10分钟的窗口中查找交易次数最多的前3个项目:
除了这些内置语言元素之外,您还可以将Java和Scala中实现的功能注册到FlinkSQL环境中。FlinkSQL还支持访问外部目录以访问存储在外部系统中的架构和数据,当前,Cloudera支持Hive,Kudu和Schema注册表目录。
下一步
在当前版本中,提交SQL查询的两个选项是使用SQL CLI或将它们包装到Java程序中。正如Cloudera在Flink Forward San Francisco上最近的主题演讲中所讨论的,他们正在积极地致力于图形用户界面,以帮助进行交互式查询编辑。
在添加GUI之后,Cloudera将在短期内公开其针对第三方工具的编程后端,以公开与FlinkSQL等效的JDBC接口,该接口很有可能基于REST和Kafka构建。
关于Cloudera
在 Cloudera,我们相信数据可以使今天的不可能,在明天成为可能。我们使人们能够将复杂的数据转换为清晰而可行的洞察力。Cloudera 为任何地方的任何数据从边缘到人工智能提供企业数据云平台服务。在开源社区不懈创新的支持下,Cloudera推动了全球最大型企业的数字化转型历程。
慧都大数据专业团队为企业提供Cloudera大数据平台搭建,免费业务咨询,定制开发等完整服务,快速、轻松、低成本将任何Hadoop集群从试用阶段转移到生产阶段。
欢迎拨打慧都热线023-68661681或咨询慧都在线客服,我们有专业的大数据团队,为您提供免费大数据相关业务咨询!
本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@cahobeh.cn
文章转载自:cloudera通过提供强大的3D CAD数据访问工具并适用于桌面、移动和Web的高级环境3D可视化发动机,HOOPS在提升造船设计和制造流程的效率方面发挥了重要作用。
HOOPS Luminate在汽车行业中的应用具有广泛的潜力和深远的影响。它通过提供高效的3D可视化、虚拟装配与拆解、性能分析、客户定制等功能,帮助汽车制造商在设计、生产和销售过程中提升效率、降低成本并提高产品质量。
在不断发展的软件开发世界中,使工具和框架与最新的平台版本保持同步至关重要,欢迎查阅~
全球航运业对国际贸易至关重要,全球 90% 以上的商品通过海运运输。准确监控和控制这些集装箱的移动对于维持高效的供应链至关重要。手动输入集装箱号码是这一程序的关键部分,它带来了相当大的挑战,例如人为错误和效率低下。
一款用于数据驱动的云优先型企业的平台。
Cloudera Data Warehouse今天,明天及未来的现代分析数据库。
Cloudera DataFlowCloudera DataFlow是一个可扩展的实时流分析平台。
Cloudera Machine Learning使AI第一企业能够通过自助服务访问受控数据。
CDP Data CenterCDP Data Center是用于本地IT环境的全面数据管理和分析平台。
服务电话
重庆/ 023-68661681
华东/ 13452821722
华南/ 18100878085
华北/ 17347785263
客户支持
技术支持咨询服务
服务热线:400-700-1020
邮箱:sales@cahobeh.cn
关注我们
地址 : 重庆市九龙坡区火炬大道69号6幢