Learn more about Data Engineering

我们需要多少数据?在机器学习和安全考虑中保持平衡

对于数据科学家来说,没有数据过多的说法但是当我们从组织环境的更广泛角度来看待问题时,我们必须在目标与其他考虑之间进行...

在Delta表中的删除向量 加快在Databricks中的操作速度

传统上,Delta Lake仅支持写时复制范式,即在写入文件后更改底层数据文件例如:当文件中的一行被删除时,...

DBT核心、雪花和GitHub Actions:数据工程师的宠项目

这里有一个简单快速的宠物项目,适合数据/分析工程师们,他们想要试用一下现代数据堆栈工具,包括dbt Core、Snowflake、Fivet...

“请使用流量工作负载来对向量数据库进行基准测试”

向量数据库是为高维向量检索而建立的如今,许多向量是由深度神经网络(如GPT和CLIP)生成的嵌入,用来表示诸如文本片段之类的...

5门免费课程,掌握数据工程技能

数据工程师必须为数据驱动型公司的整个数据工作流程准备和管理基础设施和工具

大数据如何在实时中挽救生命:物联网数据分析有助于预防事故

这篇文章讨论了IoV数据分析中需要注意的问题,并通过一个真实案例展示了近实时分析平台和实际实时分析平台之间的区别

使用图数据库查询入门,附有速查表!

图数据库正在迅速成为企业IT组织分析工具箱的核心部分如果您了解SQL,可以轻松学习Cypher,并为数据分析开启巨大机遇

理解SCD-慢变维度

在动态的数据管理领域中,慢变维度(Slowly Changing Dimensions,简称SCD)的概念成为一个关键的范式SCD是数据仓库领域的基...

数据仓库 vs. 数据湖 vs. 数据集市:需要帮助决策吗?

一个对数据仓库、数据湖和数据集市的比较概述,以帮助您对数据存储解决方案做出明智决策,以满足您的数据架构需求

PyrOSM:使用Open Street Map数据

如果你以前有过处理OSM数据的经验,你就知道它并不是最容易提取的OSM数据可能非常庞大,找到适合你要分析的性能解决方案通常...

7个最佳云数据库平台

云数据库使得开发企业级应用更加简便和经济实惠,同时提供了灵活性、便利性和标准数据库功能请看VoAGI的推荐

“从测试Databricks SQL Serverless + DBT中学到的5个教训”

Databricks的SQL仓库产品是一项吸引人的产品,适合那些希望简化生产SQL查询和仓库的公司然而,随着使用规模的扩大,成本和性...

探索数据网格:数据架构的范式转变

让我们来探索数据网格(Data Mesh),这是一种现代化的数据架构方法,它分散了数据的所有权和管理

今天公司可以实施的5个生成型人工智能用例

在各行各业中,高管们正在督促他们的数据领导者构建能够节省时间、推动收入或带给他们竞争优势的人工智能产品而像OpenAI这样...

《Pinecone矢量数据库综合指南》

本博客讨论向量数据库,具体而言是松鼠向量数据库向量数据库是一种将数据存储为数学向量的数据库类型,这些向量代表特征或属...

使用Python并行下载多个文件(或URL)

我们生活在一个大数据的世界中通常,大数据被组织成一个由多个文件组成的大型数据集的集合获取这些数据通常是令人沮丧的...

使用Kafka和Risingwave构建一条Formula 1流数据管道

使用Formula 1数据、Python、Kafka、RisingWave作为流式数据库来构建一个流式数据管道,并在Grafana中可视化所有实时数据

每天如何处理150亿条日志并保持大查询在1秒内完成

本文描述了一个大规模数据仓库使用案例,为寻找日志分析解决方案的数据工程师提供参考它介绍了日志处理架构和数据摄取、存储...

地理空间数据工程:空间索引化

在进行地理空间数据科学工作时,思考优化所编写的代码非常重要你如何让拥有数亿行的数据集更快地进行聚合或连接...

缺失数据揭秘:数据科学家的绝对入门指南

缺失数据、缺失数据机制和缺失数据分析如从未解释过一样学习一切你需要提升数据科学技能的知识!