索引
符号
- 3FS(分布式文件系统), 分布式文件系统
A
- 中止(事务), 事务, 原子性
- 级联, 没有脏读
- 在两阶段提交中, 两阶段提交(2PC)
- 乐观并发控制的性能, 可串行化快照隔离的性能
- 重试已中止的事务, 处理错误和中止
- 抽象, 云服务的分层, 简单性:管理复杂度, 数据模型与查询语言, 事务, 总结
- 意外复杂性, 简单性:管理复杂度
- 问责制, 责任与问责
- 会计(财务数据), 总结, 不可变事件的优点
- Accumulo(数据库)
- ACID 属性(事务), ACID 的含义
- 确认(消息), 确认与重新传递
- active/active replication(见 multi-leader replication)
- active/passive replication(见 基于领导者的复制)
- ActiveMQ(消息系统), 消息代理, 消息代理与数据库的对比
- 分布式事务支持, XA 事务
- ActiveRecord(对象关系映射器), 对象关系映射(ORM), 处理错误和中止
- activity (workflows)(见 workflow engines)
- Actor 模型, 分布式 actor 框架
- (另见 event-driven architecture)
- 与流处理的比较, 事件驱动架构与 RPC
- 自适应容量, 偏斜的工作负载与缓解热点
- Advanced Message Queuing Protocol(见 AMQP)
- 航空航天系统, 拜占庭故障
- Aerospike(数据库)
- 强一致性模式, 单对象写入
- AGE(图数据库), Cypher 查询语言
- 汇总
- 数据立方体和已实现视图, 物化视图与数据立方体
- 分批处理, 排序与内存聚合
- 流程中, 流分析
- 聚合管道(MongoDB), 规范化、反规范化与连接, 文档的查询语言
- 敏捷, 可演化性:让变化更容易
- 最小化不可逆性, 批处理, 应用演化后重新处理数据
- 充满自信地快速前进, 端到端原则重现
- 一致意见, 单值共识, 原子提交作为共识
- (另见 共识)
- AI (artificial intelligence)(见 machine learning)
- AI Act (European Union), 数据系统、法律与社会
- Airbyte, 数据仓库
- Airflow(工作流调度器), 持久化执行与工作流, 批处理, 工作流调度
- 云数据仓集成, 查询语言
- 用于 ETL, 提取-转换-加载(ETL)
- 阿卡迈
- 响应时间研究, 平均值、中位数与百分位点
- 算法
- 算法正确性, 定义算法的正确性
- B树, B 树-B 树变体
- 分布式系统, 系统模型与现实
- 归并排序, 构建和合并 SSTable, 混洗数据
- 调度, 资源分配
- SSTable 与 LSM 树, SSTable 文件格式-压实策略
- 全互联复制拓扑, 多主复制拓扑
- AllegroGraph(数据库), 图数据模型
- SPARQL 查询语言, SPARQL 查询语言
- ALTER TABLE 语句(SQL), 文档模型中的模式灵活性, 编码与演化
- 亚马逊
- Dynamo(见 Dynamo(数据库))
- 响应时间研究, 平均值、中位数与百分位点
- Amazon Web Services (AWS)
- Aurora(见 Aurora(云数据库))
- ClockBound(见 ClockBound(时间同步))
- 正确性测试, 形式化方法和随机测试
- DynamoDB(见 DynamoDB(数据库))
- EBS(见 EBS(虚拟块设备))
- Kinesis(见 Kinesis(消息系统))
- Neptune(见 Neptune(图数据库))
- 网络可靠性, 实践中的网络故障
- S3(见 S3(对象存储))
- 放大
- AMQP(高级消息队列协议), 消息代理与数据库的对比
- (另见 messaging systems)
- 比较基于日志的邮件, 日志与传统的消息传递相比, 重播旧消息
- 消息顺序, 确认与重新传递
- 分析系统, 分析型与事务型系统
- 分析, 分析型与事务型系统-记录系统与派生数据
- 与事务处理的比较, 事务处理与分析的特征
- 数据正常化, 规范化的权衡
- data warehousing(见 data warehousing)
- predictive(见 predictive analytics)
- 与批量处理的关系, 分析(Analytics)-分析(Analytics)
- 计划, 星型与雪花型:分析模式-星型与雪花型:分析模式
- 快速隔离查询, 快照隔离与可重复读
- 流式分析, 流分析
- 分析工程, 分析型与事务型系统
- 反熵, 追赶错过的写入
- Antithesis(确定性仿真测试), 确定性模拟测试
- Apache Accumulo(见 Accumulo)
- Apache ActiveMQ(见 ActiveMQ)
- Apache AGE(见 AGE)
- Apache Arrow(见 Arrow(数据格式))
- Apache Avro(见 Avro)
- Apache Beam(见 Beam)
- Apache BookKeeper(见 BookKeeper)
- Apache Cassandra(见 Cassandra)
- Apache Curator(见 Curator)
- Apache DataFusion(见 DataFusion(查询引擎))
- Apache Druid(见 Druid(数据库))
- Apache Flink(见 Flink(处理框架))
- Apache HBase(见 HBase)
- Apache Iceberg(见 Iceberg(表格式))
- Apache Jena(见 Jena)
- Apache Kafka(见 Kafka)
- Apache Lucene(见 Lucene)
- Apache Oozie(见 Oozie(工作流调度器))
- Apache ORC(见 ORC(数据格式))
- Apache Parquet(见 Parquet(数据格式))
- Apache Pig(查询语言), 查询语言
- Apache Pinot(见 Pinot(数据库))
- Apache Pulsar(见 Pulsar)
- Apache Qpid(见 Qpid)
- Apache Samza(见 Samza)
- Apache Solr(见 Solr)
- Apache Spark(见 Spark;见 Spark(处理框架))
- Apache Storm(见 Storm)
- Apache Superset(见 Superset(数据可视化软件))
- Apache Thrift(见 Thrift)
- Apache ZooKeeper(见 ZooKeeper)
- Apama (流式分析), 复合事件处理
- append-only files(见 logs)
- Application Programming Interfaces (APIs), 数据模型与查询语言
- 用于改变流, 变更流的 API 支持
- 分布式事务, XA 事务
- 服务费用, 流经服务的数据流:REST 与 RPC-RPC 的数据编码与演化
- (另见 services)
- 可演化性, RPC 的数据编码与演化
- RESTful, Web 服务
- application state(见 国家)
- approximate search(见 similarity search)
- 档案储存、数据库数据, 归档存储
- arcs(见 edges)
- ArcticDB(数据库), 数据框、矩阵与数组
- 算术平均值, 平均值、中位数与百分位点
- 数组
- Arrow(数据格式), 列式存储, DataFrames
- artificial intelligence(见 machine learning)
- ASCII text, Protocol Buffers
- ASN.1 (schema language), 模式的优点
- 关联表格, 多对一与多对多关系, 属性图
- 同步网络, 不可靠的网络, 术语表
- 同步复制, 同步复制与异步复制, 术语表
- 故障数据损失, 领导者故障:故障转移
- 从同步跟踪器读取, 复制延迟的问题
- 有多个领导, 多主复制
- 异步传输模式, 我们不能简单地使网络延迟可预测吗?
- 原子广播, 共享日志作为共识
- 原子钟, 带置信区间的时钟读数, 用于全局快照的同步时钟
- (另见 clocks)
- 原子性, 术语表
- 原子自增, 单对象写入
- 比较和设置, 条件写入(比较并设置), 什么使系统具有线性一致性?
- (另见 比较和设置)
- 异常数据, 规范化的权衡
- 获取和添加/递增, ID 生成器和逻辑时钟, 共识, 获取并增加作为共识
- 写入操作, 原子写操作
- 原子性, 原子性, 单对象与多对象操作, 术语表
- 可审计性, 信任但验证-用于可审计数据系统的工具
- 设计, 为可审计性而设计
- 自动审计系统, 不要盲目信任承诺
- 通过不可改变性, 不可变事件的优点
- 可审计数据系统工具, 用于可审计数据系统的工具
- Aurora(云数据库), 云原生系统架构
- Aurora DSQL(数据库)
- 快速隔离支持, 快照隔离与可重复读
- 自动缩放, 运维:自动/手动再平衡
- Automerge (CRDT library), 同步引擎的利弊
- 可用性, 可靠性与容错
- 可用区, 通过冗余容忍硬件故障, 读己之写
- Avro(数据格式), Avro-动态生成的模式
- 动态生成的计划, 动态生成的模式
- 对象容器文件, 但什么是写入者模式?, 归档存储
- 读者决定作家的计划, 但什么是写入者模式?
- 计划演变, 写入者模式与读取者模式
- 批量处理中的用途, MapReduce
- awk (Unix 工具) (英语)., 简单日志分析, 简单日志分析, 分布式作业编排
- Axon Framework, 事件溯源与 CQRS
- Azkaban(工作流调度器), 批处理
- Azure Blob Storage(对象存储), 云服务的分层, 设置新的副本
- 有条件的标题, 隔离僵尸进程和延迟请求
- Azure managed disks, 存储与计算的分离
- Azure SQL DB(数据库), 云原生系统架构
- Azure Storage, 对象存储
- Azure Synapse Analytics(数据库), 云原生系统架构
- Azure Virtual Machines
- 现场虚拟机, 故障处理
B
- B树(指数), B 树-B 树变体
- B+ trees, B 树变体
- 分支因子, B 树
- comparison to LSM-trees, 比较 B 树与 LSM 树-磁盘空间使用
- 崩溃恢复, 使 B 树可靠
- 通过分割页面增长, B 树
- 不可变变种, B 树变体, 索引与快照隔离
- 与硬分裂相似, 重新平衡键范围分片数据
- 变体, B 树变体
- B2(对象存储), 分布式文件系统
- Backblaze B2(见 B2(对象存储))
- 后端, 数据系统架构中的权衡
- 返回, 指数, 描述性能, 处理错误和中止
- 背压, 描述性能, 读取性能, 消息传递系统, 术语表
- 备份
- 向后兼容, 编码与演化
- BadgerDB(数据库)
- 可序列事务, 可串行化快照隔离(SSI)
- BASE, contrast to ACID, ACID 的含义
- 击打弹壳(Unix), OLTP 系统的存储与索引
- 批处理, 批处理-本章小结, 术语表
- 方案规划和职能规划, MapReduce
- 惠益, 批处理
- 结合流处理, 统一批处理和流处理
- 与流处理的比较, 流处理
- 数据流引擎, 数据流引擎-数据流引擎
- 过失容忍, 故障处理, 消息传递系统
- 数据整合, 批处理与流处理-统一批处理和流处理
- 图表和迭代处理, 机器学习
- high-level APIs and languages, 查询语言-查询语言
- 云数据仓库中, 查询语言
- 在分布式系统中, 分布式系统中的批处理
- 加入和分组, JOIN 与 GROUP BY-JOIN 与 GROUP BY
- 限制, 批处理
- 基于日志的信息和, 重播旧消息
- 保持衍生状态, 维护派生状态
- 衡量业绩, 批处理
- 模式, 批处理模型
- 资源分配, 资源分配-资源分配
- 资源管理员, 分布式作业编排
- 调度器, 分布式作业编排
- 服务衍生数据, 对外提供派生数据-对外提供派生数据
- 移动数据, 混洗数据-混洗数据
- 任务执行, 分布式作业编排
- 使用大小写, 批处理用例-对外提供派生数据
- 使用 Unix 工具(例如), 使用 Unix 工具的批处理-排序与内存聚合
- 批处理框架
- 与操作系统的比较, 分布式系统中的批处理
- Beam (数据流库), 统一批处理和流处理
- BERT (language model), 向量嵌入
- 偏向, 偏见与歧视
- bidirectional replication(见 multi-leader replication)
- 泥浆大球, 简单性:管理复杂度
- 大数据
- 对数据最小化, 数据系统、法律与社会, 立法与自律
- BigQuery(数据库), 云原生系统架构, 云数据仓库, 批处理
- Bigtable(数据库)
- 硬化计划, 按键的范围分片
- 存储布局, 构建和合并 SSTable
- 平板(硬化), 分片
- 宽柱数据模型, 读写的数据局部性, 列压缩
- 二进制数据编码, 二进制编码-模式的优点
- 二进制编码
- binary strings, lack of support in JSON and XML, JSON、XML 及其二进制变体
- 比特币(催眠币), 用于可审计数据系统的工具
- 位图索引, 列压缩
- BitTorrent uTP protocol, TCP 的局限性
- Bkd-树木(指数), 多维索引与全文索引
- 无咎死后, 人类与可靠性
- Blazegraph(数据库), 图数据模型
- SPARQL 查询语言, SPARQL 查询语言
- blob storage(见 object storage)
- 块, 分布式文件系统
- 块设备(磁盘), 存储与计算的分离
- 块链, 总结
- 拜占庭断层承受力, 拜占庭故障, 共识, 用于可审计数据系统的工具
- 阻止原子承诺, 三阶段提交
- Bloom 过滤器(算法), 布隆过滤器, 读取性能, 流分析
- BookKeeper (replicated log), 将工作分配给节点
- 边框数据集, 流处理, 术语表
- (另见 batch processing)
- 受限延迟, 术语表
- 广播
- 全序广播(见 shared logs)
- 无中介消息, 直接从生产者传递给消费者
- 粗糙(计量聚合器), 直接从生产者传递给消费者
- BTM (transaction coordinator), 两阶段提交(2PC)
- 缓冲
- Bufstream(消息系统), 设置新的副本
- Bufstream(消息系统), 磁盘空间使用
- 新建或购买, 云服务与自托管
- 快速网络交通模式, 我们不能简单地使网络延迟可预测吗?
- 商业分析员, 分析型与事务型系统, 从数据仓库到数据湖
- 商业数据处理, 事务处理与分析的特征
- 商业情报, 分析型与事务型系统-数据仓库
- Business Process Execution Language (BPEL), 持久化执行与工作流
- Business Process Model and Notation (BPMN), 持久化执行与工作流
- 实例, 持久化执行与工作流
- 字节序列,编码数据, 编码数据的格式
- 拜占庭断层, 拜占庭故障-弱形式的谎言, 系统模型与现实, 术语表
- 拜占庭容错系统, 拜占庭故障
- Byzantine Generals Problem, 拜占庭故障
- 协商一致算法和, 共识, 用于可审计数据系统的工具
C
- 缓存, 全内存存储, 术语表
- 意见, 物化视图与数据立方体
- 作为衍生数据, 记录系统与派生数据, 组合使用数据存储技术-分拆系统与集成系统
- in CPUs, 查询执行:编译与向量化, 线性一致性与网络延迟
- 无效和赡养费, 保持系统同步, 维护物化视图
- 线性一致性, 线性一致性
- 云中的本地磁盘, 存储与计算的分离
- 日历同步, 同步引擎与本地优先软件, 同步引擎的利弊
- California Consumer Privacy Act (CCPA), 数据系统、法律与社会
- Camunda(工作流程引擎), 持久化执行与工作流
- (数据), 记录系统与派生数据
- CAP定理, CAP 定理-CAP 定理, 术语表
- 能力规划, 云时代的运维
- Cap’n Proto(数据格式), 编码数据的格式
- 碳排放, 分布式与单节点系统
- 级联中止, 没有脏读
- 连锁失败, 软件故障, 运维:自动/手动再平衡, 超时和无界延迟
- Cassandra(数据库)
- 数据变更捕获, 数据变更捕获的实现, 变更流的 API 支持
- 压缩战略, 压实策略
- consistency level ANY, 单主与无主复制的性能
- 散列变硬, 按键的哈希分片, 按哈希范围分片
- 最后写成的解决冲突, 检测并发写入
- 无领导复制, 无主复制
- 轻量事务, 单对象写入
- 线性,缺少, 实现线性一致性系统
- 日志结构存储, 构建和合并 SSTable
- 多区域支助, 多地区操作
- 二级指数, 本地二级索引
- 使用时钟, 仲裁一致性的局限, 用于事件排序的时间戳
- 节点(硬化), 分片
- 猫(Unix 工具), 简单日志分析
- 目录, 云数据仓库
- 因果关系, 版本向量
- (另见 causal dependencies)
- 因果关系, “先发生"关系与并发-版本向量
- 捕获, 版本向量, 排序事件以捕获因果关系, 读也是事件
- 按总订单, 全序的限制
- 事务中, 基于过时前提的决策
- 向朋友发送消息(例如), 排序事件以捕获因果关系
- 捕获, 版本向量, 排序事件以捕获因果关系, 读也是事件
- 因果关系, 术语表
- 因果顺序
- 与, 逻辑时钟
- 与, 逻辑时钟-使用逻辑时钟强制约束
- 发生关系前, “先发生"关系与并发
- 在可序列事务中, 基于过时前提的决策-检测影响先前读取的写入
- 与时钟不符, 用于事件排序的时间戳
- 命令要抓取的事件, 排序事件以捕获因果关系
- 违反《公约》的行为, 一致前缀读, 不同拓扑的问题, 用于事件排序的时间戳
- 带有同步时钟, 用于全局快照的同步时钟
- 因果顺序
- 基于单元格的架构, 面向多租户的分片
- 复合事件处理(见 复合事件处理)
- CephFS(分布式文件系统), 批处理, 对象存储
- 证书透明性, 用于可审计数据系统的工具
- c组, 分布式作业编排
- 数据变更捕获, 逻辑(基于行)日志复制, 数据变更捕获
- 变更流的 API 支持, 变更流的 API 支持
- 比较事件来源, 数据变更捕获与事件溯源
- 执行, 数据变更捕获的实现
- 初始快照, 初始快照
- 日志压缩, 日志压缩
- 更改日志, 状态、流和不变性
- 混乱工程, 容错, 故障注入
- 检查站
- 断路器(限制重试), 描述性能
- 电路交换网络, 同步与异步网络
- 循环缓冲器, 磁盘空间使用
- 循环复制地形, 多主复制拓扑
- Citus(数据库)
- 散列变硬, 固定数量的分片
- ClickHouse(数据库), 事务处理与分析的特征, 云原生系统架构
- 增量视图维护, 维护物化视图
- 点击流数据,分析, JOIN 与 GROUP BY
- 客户
- 电话服务, 流经服务的数据流:REST 与 RPC
- 脱机, 同步引擎与本地优先软件, 有状态、可离线的客户端
- 推动状态更改到, 将状态变更推送给客户端
- 请求路由, 请求路由
- ClockBound(时间同步), 带置信区间的时钟读数
- use in YugabyteDB, 用于全局快照的同步时钟
- 时钟, 不可靠的时钟-限制垃圾回收的影响
- 原子钟, 带置信区间的时钟读数, 用于全局快照的同步时钟
- 信任间隔, 带置信区间的时钟读数-用于全局快照的同步时钟
- 全球快照, 用于全局快照的同步时钟
- 混合逻辑时钟, 混合逻辑时钟
- logical(见 logical clocks)
- 偏斜, 最后写入胜利(丢弃并发写入), 仲裁一致性的局限, 对同步时钟的依赖-带置信区间的时钟读数, 实现线性一致性系统
- 杀人, 单调时钟
- 同步和准确性, 时钟同步和准确性-时钟同步和准确性
- synchronization using GPS, 不可靠的时钟, 时钟同步和准确性, 带置信区间的时钟读数, 用于全局快照的同步时钟
- 时间与单调时钟, 单调时钟与日历时钟
- 时间标记事件, 你用的是谁的时钟?
- 云服务, 云服务与自托管-云计算与超级计算
- 云内, 云原生系统架构-云时代的运维
- 云飞
- R2(见 R2(对象存储))
- 组合索引, 在索引中存储值
- 分组(记录顺序), 按哈希范围分片
- CockroachDB(数据库)
- 基于共识的复制, 单主复制
- 一致性模式, 什么使系统具有线性一致性?
- 键程硬化, 分片, 按键的范围分片
- 可序列事务, 可串行化快照隔离(SSI)
- 硬化二级指数, 全局二级索引
- 事务, 事务到底是什么?, 数据库内部的分布式事务
- 使用模型检查, 模型检查与规范语言
- 代码生成
- 用于查询执行, 查询执行:编译与向量化
- 带有协议缓冲, Protocol Buffers
- 协作编辑, 实时协作、离线优先和本地优先应用
- 列家庭(大表), 读写的数据局部性, 列压缩
- 面向列的存储, 列式存储-查询执行:编译与向量化
- comma-separated values(见 CSV)
- 命令查询责任分离, 事件溯源与 CQRS-事件溯源与 CQRS, 从同一事件日志中派生多个视图
- 命令(活动来源), 事件溯源与 CQRS
- 执行(事务), 事务
- 原子提交, 分布式事务-再谈恰好一次消息处理
- (另见 原子性)
- 读作承诺隔离, 读已提交
- three-phase commit (3PC), 三阶段提交
- 两阶段提交, 两阶段提交(2PC)-协调器故障
- 原子提交, 分布式事务-再谈恰好一次消息处理
- 通用业务, 冲突解决与复制
- 压实(Compaction)
- 比较和设置, 条件写入(比较并设置), 什么使系统具有线性一致性?
- 兼容性, 编码与演化, 数据流的模式
- 电话服务, RPC 的数据编码与演化
- 编码格式的属性, 总结
- 使用数据库, 流经数据库的数据流-归档存储
- 补偿事务, 不可变事件的优点, 宽松地解释约束
- 汇编, 查询执行:编译与向量化
- 复合事件处理, 复合事件处理
- 复杂度
- 理论模型中的蒸馏, 将系统模型映射到现实世界
- 重要和意外事项, 简单性:管理复杂度
- 使用抽象来隐藏, 数据模型与查询语言
- 管理, 简单性:管理复杂度
- composing data systems(见 unbundling databases)
- 压缩
- in SSTables, SSTable 文件格式
- 计算密集型应用程序, 数据系统架构中的权衡
- 电脑游戏, 同步引擎的利弊
- 缩写索引, 多维索引与全文索引
- 在散列硬化系统中, 按哈希范围分片
- 并发
- 演员编程模式, 分布式 actor 框架, 事件驱动架构与 RPC
- (另见 event-driven architecture)
- 事务隔离薄弱时出现的错误, 弱隔离级别
- 解决冲突, 处理写入冲突-处理写入冲突
- 定义, 处理写入冲突
- 检测并行写作, 检测并发写入-版本向量
- 双写、 问题, 保持系统同步
- 发生关系前, “先发生"关系与并发
- 在复制系统中, 复制延迟的问题-版本向量, 线性一致性-线性一致性与网络延迟
- 丢失更新, 防止丢失更新
- 多版本并发控制, 多版本并发控制(MVCC), 用于全局快照的同步时钟
- 乐观并发控制, 悲观并发控制与乐观并发控制
- 行动命令, 什么使系统具有线性一致性?
- 通过事件日志减少, 并发控制, 数据流:应用代码与状态变化的交互
- 时间和相对性, “先发生"关系与并发
- 事务隔离, 隔离性
- 写偏差, 写偏差与幻读-物化冲突
- 演员编程模式, 分布式 actor 框架, 事件驱动架构与 RPC
- 有条件写入, 条件写入(比较并设置)
- 会议管理系统(例如), 事件溯源与 CQRS
- conflict-free replicated datatypes (CRDTs), CRDT 与操作变换
- 冲突
- 撤销, 冲突避免
- 因果关系, “先发生"关系与并发
- 冲突检测
- 分布式事务, XA 事务的问题
- 在基于日志的系统中, 唯一性约束需要达成共识
- in serializable snapshot isolation (SSI), 检测影响先前读取的写入
- 在两阶段提交中, 系统性的承诺
- 解决冲突
- 通过中止事务, 悲观并发控制与乐观并发控制
- 通过道歉, 宽松地解释约束
- 最后写入胜利, 用于事件排序的时间戳
- 使用原子操作, 冲突解决与复制
- 确定什么是冲突, 处理写入冲突, 基于日志消息传递中的唯一性
- 无领导复制, 检测并发写入
- 丢失更新, 防止丢失更新-冲突解决与复制
- 实现, 物化冲突
- 决议, 处理写入冲突-处理写入冲突
- 自动, 自动冲突解决
- 无头系统, 检测并发写入
- 最后写入胜利, 最后写入胜利(丢弃并发写入)
- 使用自定义逻辑, 手动冲突解决, 捕获先发生关系
- 兄弟, 手动冲突解决, 捕获先发生关系
- 合并, 捕获先发生关系
- 写偏差, 写偏差与幻读-物化冲突
- 调和
- Freight(消息系统), 设置新的副本, 磁盘空间使用
- 计划登记, JSON 模式, 但什么是写入者模式?
- 拥堵(网络)
- 撤销, TCP 的局限性
- 限制时钟的准确性, 带置信区间的时钟读数
- 排队延迟, 网络拥塞和排队
- 共识, 共识-总结, 术语表
- consent (GDPR), 同意与选择自由
- 一致性, 一致性, 及时性与完整性
- 跨越不同数据库, 领导者故障:故障转移, 保持系统同步, 从同一事件日志中派生多个视图, 派生数据与分布式事务
- 因果关系, 一致前缀读, 不同拓扑的问题, 排序事件以捕获因果关系
- 一致前缀读, 一致前缀读-一致前缀读
- 一致的快照, 设置新的副本, 快照隔离与可重复读-快照隔离、可重复读和命名混淆, 用于全局快照的同步时钟, 初始快照, 创建索引
- (另见 snapshots)
- 崩溃恢复, 使 B 树可靠
- enforcing constraints(见 constraints)
- 最终, 复制延迟的问题
- (另见 最终一致性)
- in ACID transactions, 一致性, 维护完整性,尽管软件有Bug
- 在 CAP 定理中, CAP 定理
- 领袖选举, 共识的微妙之处
- 微服务, 分布式系统的问题
- 线性一致性, 复制延迟的解决方案, 线性一致性-线性一致性与网络延迟
- 含义, 一致性
- 单调读, 单调读-单调读
- 二级指数, 多对象事务的需求, 索引与快照隔离, 理解数据流, 创建索引
- 读后写, 读己之写-读己之写
- 在衍生数据系统中, 派生数据与分布式事务
- strong(见 线性一致性)
- 及时性和完整性, 及时性与完整性
- 使用法定人数, 仲裁一致性的局限, 线性一致性与仲裁
- 连续的散列, 一致性哈希
- 一致前缀读, 一致前缀读
- 限制(数据库), 一致性, 写偏差的特征
- 领事(协调处), 协调服务
- 用于服务发现, 服务发现
- 消费者(信息流), 消息代理, 传递事件流
- content models (JSON Schema), JSON 模式
- 参数
- 事务之间, 处理错误和中止
- 屏蔽线程, 进程暂停
- 乐观并发控制的性能, 悲观并发控制与乐观并发控制
- 双相锁定, 两阶段锁定的性能
- 上下文开关, 延迟与响应时间, 进程暂停
- 收敛, 自动冲突解决-CRDT 与操作变换
- 协调
- 协调者, 两阶段提交(2PC)
- 复制写(B- 树), B 树变体, 索引与快照隔离
- 公共对象请求代理体系结构, 远程过程调用(RPC)的问题
- coronal mass ejection(见 solar storm)
- 正确性
- 数据腐败
- 余弦相似性(语义搜索), 向量嵌入
- Couchbase(数据库)
- 文档数据模型, 关系模型与文档模型
- 持久性, 全内存存储
- 散列变硬, 固定数量的分片
- 加入支持, 文档和关系数据库的融合
- 再平衡, 运维:自动/手动再平衡
- vBuckets(硬化), 分片
- CouchDB(数据库)
- 耦合(松紧), 可演化性:让变化更容易
- 覆盖索引, 在索引中存储值
- CozoDB(数据库), Datalog:递归关系查询
- CPUs
- 缓存一致性和内存障碍, 线性一致性与网络延迟
- 缓冲和管道, 查询执行:编译与向量化
- 计算错误的结果, 硬件与软件故障
- SIMD instructions, 查询执行:编译与向量化
- 断层和断层, 系统模型与现实
- CRDTs(见 conflict-free replicated datatypes)
- CREATE INDEX statement (SQL), 多列索引与二级索引, 创建索引
- 信用评级机构, 责任与问责
- 加密刷新, 事件溯源与 CQRS, 不变性的局限性
- 密码, 总结
- 密码学
- CSV (comma-separated values), OLTP 系统的存储与索引, JSON、XML 及其二进制变体
- Curator (ZooKeeper recipes), 锁定与领导者选举, 将工作分配给节点
- Cypher(查询语言), Cypher 查询语言
- comparison to SPARQL, SPARQL 查询语言
D
- Daft(处理框架)
- DataFrames, DataFrames
- 移动数据, 混洗数据
- Dagster(工作流调度器), 持久化执行与工作流, 批处理, 工作流调度
- 云数据仓集成, 查询语言
- 仪表板(业务情报), 事务处理与分析的特征
- Dask(处理框架), 数据框、矩阵与数组
- 数据目录, 云数据仓库
- 数据连接器, 数据仓库
- 数据合同, 提取-转换-加载(ETL)
- 数据变更捕获, 数据变更捕获与事件溯源
- data corruption(见 corruption of data)
- 数据方块, 物化视图与数据立方体
- 数据工程, 分析型与事务型系统
- 数据结构, 提取-转换-加载(ETL)
- data formats(见 编码)
- 数据基础设施, 数据系统架构中的权衡
- 数据集成, 数据集成-统一批处理和流处理, 本章小结
- 批量和流处理, 批处理与流处理-统一批处理和流处理
- 保持衍生状态, 维护派生状态
- 后处理数据, 应用演化后重新处理数据
- 统一, 统一批处理和流处理
- 通过解开数据库, 分拆数据库-多分区数据处理
- 与联邦数据库的比较, 一切的元数据库
- 通过生成数据合并工具, 组合使用派生数据的工具-排序事件以捕获因果关系
- 衍生数据与分布式事务, 派生数据与分布式事务
- 总订单的限制, 全序的限制
- 命令事件捕获因果关系, 排序事件以捕获因果关系
- 关于数据流的推理, 理解数据流
- 需求, 记录系统与派生数据
- 使用批量处理, 批处理, 提取-转换-加载(ETL)
- 批量和流处理, 批处理与流处理-统一批处理和流处理
- 数据湖, 从数据仓库到数据湖
- 数据湖区, 云数据仓库, 分析(Analytics)
- data locality(见 局部性)
- 数据网格, 提取-转换-加载(ETL)
- 数据最小化, 数据系统、法律与社会, 立法与自律
- 数据模型, 数据模型与查询语言-总结
- DataFrames and arrays, 数据框、矩阵与数组
- 类似图表的模型, 图数据模型-GraphQL
- 数据日志语言, Datalog:递归关系查询-Datalog:递归关系查询
- 属性图, 属性图
- RDF and triple-stores, 三元组存储与 SPARQL-SPARQL 查询语言
- 关系模型对文档模型, 关系模型与文档模型-文档和关系数据库的融合
- 支持多个, 事件溯源与 CQRS
- 数据管道, 从数据仓库到数据湖, 记录系统与派生数据, 提取-转换-加载(ETL)
- 数据产品, 超越数据湖
- data protection regulations(见 GDPR)
- 数据居住法, 分布式与单节点系统, 面向多租户的分片
- 数据科学, 分析型与事务型系统, 从数据仓库到数据湖
- 数据仓, 数据仓库
- 数据系统
- 数据存储, 数据仓库, 术语表
- 数据密集型应用, 数据系统架构中的权衡
- 数据库管理员, 云时代的运维
- 内部分布式事务, 跨不同系统的分布式事务, 数据库内部的分布式事务, 原子提交再现
- 数据库
- 归档存储, 归档存储
- 信件经纪人的比较, 消息代理与数据库的对比
- 数据流, 流经数据库的数据流
- 端到端参数, 端到端原则-在数据系统中应用端到端思考
- 检查完整性, 端到端原则重现
- 与事件流的关系, 数据库与流-不变性的局限性
- (另见 changelogs)
- 变更流的 API 支持, 变更流的 API 支持, 应用代码和状态的分离
- 数据变更捕获, 数据变更捕获-变更流的 API 支持
- 事件溯源, 数据变更捕获与事件溯源
- 保持系统同步, 保持系统同步-保持系统同步
- 不可改变事件哲学, 状态、流和不变性-不变性的局限性
- 分拆, 分拆数据库-多分区数据处理
- 数据中心
- 数据流动, 数据流的模式-分布式 actor 框架, 围绕数据流设计应用-流处理器和服务
- 数据流系统的正确性, 数据流系统的正确性
- 数据流引擎, 数据流引擎
- 与流处理的比较, 流处理
- DataFrames, DataFrames
- 批次处理框架中的支持, 批处理
- 事件驱动, 事件驱动的架构-分布式 actor 框架
- 关于, 理解数据流
- 通过数据库, 流经数据库的数据流
- 通过服务, 流经服务的数据流:REST 与 RPC-RPC 的数据编码与演化
- workflow engines(见 workflow engines)
- DataFrames, 数据框、矩阵与数组
- 执行, DataFrames
- 分批处理, DataFrames
- 在笔记本中, 机器学习
- 批次处理框架中的支持, 批处理
- DataFusion(查询引擎), 云数据仓库
- Datalog(查询语言), Datalog:递归关系查询-Datalog:递归关系查询
- 数据流(变化数据捕获), 变更流的 API 支持
- 数据类型
- binary strings in XML and JSON, JSON、XML 及其二进制变体
- 无冲突, CRDT 与操作变换
- 在 Avro 编码中, Avro
- 在协议缓冲中, 字段标签与模式演化
- numbers in XML and JSON, JSON、XML 及其二进制变体
- 日期和日期, 数据系统、法律与社会
- Datomic(数据库)
- B-树木存储, 索引与快照隔离
- 数据模型, 图数据模型, 三元组存储与 SPARQL
- 数据日志查询语言, Datalog:递归关系查询
- 切除, 不变性的局限性
- 事务语言, 存储过程的利弊
- 事务的序列执行, 实际串行执行
- Daylight Saving Time (DST), 日历时钟
- Db2(数据库)
- 数据变更捕获, 数据变更捕获的实现
- DBA (database administrator), 云时代的运维
- 僵局, 显式锁定
- Debezium(变化数据捕获), 数据变更捕获的实现
- 卡桑德拉岛, 变更流的 API 支持
- 数据整合, 分拆系统与集成系统
- 声明语言, 数据模型与查询语言, 术语表
- 并同步引擎, 同步引擎的利弊
- 数据日志, Datalog:递归关系查询
- 文档数据库中, 文档和关系数据库的融合
- recursive SQL queries, SQL 中的图查询
- SPARQL, SPARQL 查询语言
- DeepSeek
- 3FS(见 3FS)
- 延迟
- 删除数据, 不变性的局限性
- in LSM storage, 磁盘空间使用
- 法律依据, 数据系统、法律与社会
- Delta Lake(表格式), 构建和合并 SSTable, 云数据仓库
- 硬化和集群, 按哈希范围分片
- 非军事区(联网), 对外提供派生数据
- 非正常化(数据表示), 规范化、反规范化与连接-多对一与多对多关系, 术语表
- 在衍生数据系统中, 记录系统与派生数据
- in event sourcing/CQRS, 事件溯源与 CQRS
- 社会网络案例研究, 社交网络案例研究中的反规范化
- 实际意见, 物化视图与数据立方体
- 更新衍生数据, 单对象与多对象操作, 多对象事务的需求, 组合使用派生数据的工具
- 相对于正常化, 从同一事件日志中派生多个视图
- 衍生数据, 记录系统与派生数据, 流处理, 术语表
- 批处理, 批处理
- 事件溯源与 CQRS, 事件溯源与 CQRS
- 从变化数据抓取, 数据变更捕获的实现
- 通过日志维护导出状态, 数据库与流-变更流的 API 支持, 状态、流和不变性-并发控制
- 通过对流的订阅来观察, 端到端的事件流
- 批量和流处理的产出, 批处理与流处理
- 通过应用程序代码, 应用代码作为派生函数
- 相对于已分配事务, 派生数据与分布式事务
- 设计模式, 简单性:管理复杂度
- 决定性行动, 存储过程的利弊, 故障与部分失效, 术语表
- 确定性模拟测试(DST), 确定性模拟测试
- DevOps, 云时代的运维
- 维度表, 星型与雪花型:分析模式
- dimensional modeling(见 star schemas)
- directed acyclic graphs (DAG)
- 工作流程, 工作流调度
- (另见 workflow engines)
- 工作流程, 工作流调度
- 脏读, 没有脏读
- 脏字(事务隔离), 没有脏写
- 分类
- 存储和计算, 存储与计算的分离
- discord(分组聊天)
- GraphQL example, GraphQL
- 歧视, 偏见与歧视
- disks(见 hard disks)
- 分布式行为者框架, 分布式 actor 框架
- 分布式文件系统, 分布式文件系统-分布式文件系统
- 已分发分类账, 总结
- 分布式系统, 分布式系统的麻烦-总结, 术语表
- distributed transactions(见 transactions)
- Django(网络框架), 处理错误和中止
- DMZ (demilitarized zone), 对外提供派生数据
- DNS (Domain Name System), 请求路由, 服务发现
- 用于负载平衡, 负载均衡器、服务发现和服务网格
- Docker (集装箱管理器), 应用代码和状态的分离
- 文档数据模型, 关系模型与文档模型-文档和关系数据库的融合
- 比较关系模式, 何时使用哪种模型-文档和关系数据库的融合
- 多对象事务, 需要, 多对象事务的需求
- 硬化二级指数, 分片与二级索引
- 相对关系模式
- 模式的趋同, 文档和关系数据库的融合
- 数据位置, 读写的数据局部性
- document-partitioned indexes(见 local secondary indexes)
- 领域驱动设计, 简单性:管理复杂度, 事件溯源与 CQRS
- 点版向量, 版本向量
- 双重登录簿记, 总结
- DRBD (Distributed Replicated Block Device), 单主复制
- 漂移(小时), 时钟同步和准确性
- Druid(数据库), 事务处理与分析的特征, 列式存储, 从同一事件日志中派生多个视图
- 处理写入, 写入列式存储
- 预汇总, 分析(Analytics)
- 服务衍生数据, 对外提供派生数据
- Dryad(数据流引擎), 数据流引擎
- 双写、 问题, 保持系统同步
- DuckDB(数据库), 分布式系统的问题, 压实策略
- 面向列的存储, 列式存储
- 用于 ETL, 提取-转换-加载(ETL)
- 减少重复,消除, 抑制重复
- 持久性, 使 B 树可靠, 持久性, 术语表
- 持久执行, 持久化执行与工作流
- 依赖决定性因素, 确定性模拟测试
- Restate(见 Restate (workflow engine))
- Temporal(见 Temporal (workflow engine))
- durable functions(见 workflow engines)
- 时间(时间), 不可靠的时钟
- 用单音钟测量, 单调时钟
- 动态输入语言
- 类比于阅读时的图案, 文档模型中的模式灵活性
- Dynamo(数据库), 无主复制
- Dynamo-style databases(见 leaderless replication)
- DynamoDB(数据库)
- 自动缩放, 运维:自动/手动再平衡
- 散列变硬, 按哈希范围分片
- 基于领导者的复制, 单主复制
- 硬化二级指数, 全局二级索引
E
- EBS(虚拟块设备), 存储与计算的分离
- 比较对象存储, 设置新的副本
- ECC(见 error-correcting codes)
- EDB Postgres Distributed(数据库), 跨地域运行
- 边缘(图), 图数据模型
- 属性图模型, 属性图
- 编辑距离(全文搜索), 全文检索
- 有效即时语义, 容错, 恰好执行一次操作
- (另见 恰好一次语义)
- 维护完整性, 数据流系统的正确性
- Elastic Compute Cloud (EC2)
- 现场实例, 故障处理
- 弹性, 分布式与单节点系统
- 弹性搜索(搜索服务器)
- 精灵(编程语言), 端到端的事件流
- ELT (extract-load-transform), 数据仓库
- 与批量处理的关系, 提取-转换-加载(ETL)
- 严重平行(算法)
- 提取-转换-加载(ETL)(见 ETL)
- MapReduce, MapReduce
- (另见 MapReduce)
- 嵌入式存储引擎, 压实策略
- 嵌入(显示器), 向量嵌入
- 编码(数据格式), 编码与演化-模式的优点
- Avro, Avro-动态生成的模式
- binary variants of JSON and XML, 二进制编码
- 兼容性, 编码与演化
- 电话服务, RPC 的数据编码与演化
- 使用数据库, 流经数据库的数据流-归档存储
- 定义, 编码数据的格式
- JSON, XML, and CSV, JSON、XML 及其二进制变体
- 语言特定格式, 特定语言的格式
- 计划的价值, 模式的优点
- Protocol Buffers, Protocol Buffers-字段标签与模式演化
- 数据说明, 编码数据的格式
- 端到端原则, 端到端原则-在数据系统中应用端到端思考
- 浓缩(流), 流表连接(流扩充)
- Enterprise JavaBeans (EJB), 远程过程调用(RPC)的问题
- 企业软件, 数据系统架构中的权衡
- entities(见 vertices)
- 电子存储, 存储与计算的分离
- 时代(协商一致算法), 从单主复制到共识
- 时代(Unix 时间戳), 日历时钟
- 清除编码(错误校正), 分布式文件系统
- 错误处理
- 错误更正代码, 硬件与软件故障, 分布式文件系统
- Esper (CEP engine), 复合事件处理
- 基本复杂性, 简单性:管理复杂度
- 协调事务, 协调服务-服务发现
- 生成栅栏标志, 隔离僵尸进程和延迟请求, 协调服务
- 线性操作, 实现线性一致性系统, 共识的微妙之处
- 锁和领袖选举, 锁定与领导者选举
- 用于服务发现, 负载均衡器、服务发现和服务网格, 服务发现
- 用于硬性转让, 请求路由
- 使用 Raft 算法, 单主复制
- 伊特鲁姆(块链), 用于可审计数据系统的工具
- 以太网(网络), 云计算与超级计算, 不可靠的网络, 我们不能简单地使网络延迟可预测吗?
- 道德操守, 将事情做正确-立法与自律
- ETL, 数据仓库, 保持系统同步, 术语表
- 与批量处理的关系, 提取-转换-加载(ETL)-提取-转换-加载(ETL)
- 使用批量处理, 批处理
- 欧几利得距离(语义搜索), 向量嵌入
- European Union
- AI Act(见 AI Act)
- GDPR(见 GDPR)
- 事件溯源, 事件溯源与 CQRS-事件溯源与 CQRS
- 并更改数据捕获, 数据变更捕获与事件溯源
- 与变化数据捕获的比较, 数据变更捕获与事件溯源
- 不可更改性和可审计性, 状态、流和不变性, 为可审计性而设计
- 大型可靠数据系统, 操作标识符, 数据流系统的正确性
- 依赖决定性因素, 确定性模拟测试
- event streams(见 streams)
- 事件驱动的架构, 事件驱动的架构-分布式 actor 框架
- 分布式行为者框架, 分布式 actor 框架
- 事件, 传递事件流
- EventSource (browser API), 将状态变更推送给客户端
- EventStoreDB(数据库), 事件溯源与 CQRS
- 最终一致性, 复制, 复制延迟的问题, 安全性与活性
- 证据
- 数据用作, 人类与可靠性
- 可演化性, 可演化性:让变化更容易, 编码与演化
- 电话服务, RPC 的数据编码与演化
- 事件溯源, 事件溯源与 CQRS
- 图表结构数据, 属性图
- 数据库, 文档模型中的模式灵活性, 流经数据库的数据流-归档存储, 从同一事件日志中派生多个视图, 应用演化后重新处理数据
- 后处理数据, 应用演化后重新处理数据, 统一批处理和流处理
- Avro 的策略进化, 写入者模式与读取者模式
- 协议缓冲的策略演变, 字段标签与模式演化
- 阅读时的图谋, 文档模型中的模式灵活性, 编码与演化, 模式的优点
- 恰好一次语义, 恰好一次消息处理, 再谈恰好一次消息处理, 容错, 恰好执行一次操作
- 独占模式, 两阶段锁定的实现
- 指数备份, 描述性能, 处理错误和中止
- ext4 (file system), 分布式文件系统
- eXtended Architecture transactions(见 XA 事务)
- ETL(见 提取-转换-加载(ETL))
F
- 脸书
- 事实
- 事实表(星图), 星型与雪花型:分析模式
- 在数据日志中, Datalog:递归关系查询
- 如果来源, 事件溯源与 CQRS
- 慢故障, 系统模型与现实
- 失败停止模式, 系统模型与现实
- 故障切换, 领导者故障:故障转移, 术语表
- (另见 基于领导者的复制)
- 无领导复制,没有, 当节点故障时写入数据库
- 领袖选举, 分布式锁和租约, 共识, 从单主复制到共识
- 潜在问题, 领导者故障:故障转移
- 失败
- 费斯(媒介指数), 向量嵌入
- 假阳性(Bloom 过滤器), 布隆过滤器
- 扇出, 时间线的物化与更新, 多个消费者
- 断层注射, 容错, 实践中的网络故障, 故障注入
- 断层隔离, 面向多租户的分片
- 过失容忍, 可靠性与容错-人类与可靠性, 术语表
- 错误
- 特性工程(机器学习), 从数据仓库到数据湖
- 联邦数据库, 一切的元数据库
- Feldera(数据库)
- 增量视图维护, 维护物化视图
- 围栏, 线性一致性与网络延迟
- 屏障, 领导者故障:故障转移, 隔离僵尸进程和延迟请求-多副本隔离
- 获取和添加
- 与协商一致的关系, 获取并增加作为共识
- 纤维通道(网络), 分布式文件系统
- 字段标记(协议缓冲), Protocol Buffers-字段标签与模式演化
- Figma (图形软件), 实时协作、离线优先和本地优先应用
- filesystem in userspace (FUSE), 设置新的副本, 分布式文件系统
- 在对象存储中, 对象存储
- 财务数据
- 五特兰, 数据仓库
- FizzBee (specification language), 模型检查与规范语言
- 平面指数(媒介指数), 向量嵌入
- FlatBuffers(数据格式), 编码数据的格式
- Flink(处理框架), 批处理, 数据流引擎
- 流量控制, TCP 的局限性, 消息传递系统, 术语表
- FLP result (on consensus), 共识
- Flyte(工作流调度器), 机器学习
- 追随者, 单主复制, 术语表
- (另见 基于领导者的复制)
- 正式方法, 形式化方法和随机测试-确定性模拟测试
- 转发兼容性, 编码与演化
- 前进衰变(算法), 响应时间指标的应用
- 化石(版本控制系统), 并发控制
- 避免, 不变性的局限性
- FoundationDB(数据库)
- 一致性模式, 什么使系统具有线性一致性?
- 确定性模拟测试, 确定性模拟测试
- 键程硬化, 按键的范围分片
- 进程/核心模式, 分片的利与弊
- 可序列事务, 可串行化快照隔离(SSI), 可串行化快照隔离的性能
- 事务, 事务到底是什么?, 数据库内部的分布式事务
- 分数索引, 何时使用哪种模型
- 碎裂(B树), 磁盘空间使用
- 框架(计算机图形), 同步引擎的利弊
- 前端 (网页开发), 数据系统架构中的权衡
- FrostDB(数据库)
- 确定性模拟测试(DST), 确定性模拟测试
- fsync (系统调用), 使 B 树可靠, 持久性
- 全文检索, 全文检索, 术语表
- Function as a Service (FaaS), 微服务与无服务器
- 职能方案拟订
- inspiration for MapReduce, MapReduce
- 职能要求, 定义非功能性需求
- FUSE(见 filesystem in userspace (FUSE))
- 模糊, 形式化方法和随机测试
- fuzzy search(见 similarity search)
G
- Gallina(特写语言), 模型检查与规范语言
- 游戏开发, 同步引擎的利弊
- 垃圾收集
- 加油站算法定价, 反馈回路
- GDPR (regulation), 数据系统、法律与社会, 不变性的局限性
- GenBank (genome database), 总结
- General Data Protection Regulation(见 GDPR (regulation))
- 基因组分析, 总结
- geographic distribution(见 regions (geographic distribution))
- 地理空间指数, 多维索引与全文索引
- Git(版本控制系统), 并发控制
- 本地第一软件, 实时协作、离线优先和本地优先应用
- 合并冲突, 手动冲突解决
- GitHub, postmortems, 领导者故障:故障转移, 领导者故障:故障转移, 将系统模型映射到现实世界
- 全球二级指数, 全局二级索引, 总结
- globally unique identifiers(见 UUIDs)
- GlusterFS(分布式文件系统), 批处理, 分布式文件系统, 对象存储
- GNU Coreutils (Linux), 排序与内存聚合
- Go(编程语言)
- 垃圾收集, 限制垃圾回收的影响
- GoldenGate (change data capture), 数据变更捕获的实现
- (另见 Oracle)
- 谷歌
- BigQuery(见 BigQuery(数据库))
- Bigtable(见 Bigtable(数据库))
- Chubby(锁服务), 协调服务
- Cloud Storage(对象存储), 设置新的副本, 对象存储
- 请求先决条件, 隔离僵尸进程和延迟请求
- Compute Engine
- 预设实例, 故障处理
- 数据流(流程处理)
- 数据流(流处理器), 流分析, 原子提交再现, 统一批处理和流处理
- (另见 Beam)
- 数据流(变化数据捕获), 变更流的 API 支持
- Docs(协作编辑), 实时协作、离线优先和本地优先应用, CRDT 与操作变换
- 操作转换, CRDT 与操作变换
- Dremel(查询引擎), 列式存储
- Firestore(数据库), 同步引擎的利弊
- MapReduce (batch processing), 批处理
- (另见 MapReduce)
- Percolator(事务系统), 实现线性一致的 ID 生成器
- 持久性磁盘(云服务), 存储与计算的分离
- Pub/Sub(消息系统), 消息代理, 消息代理与数据库的对比, 使用日志进行消息存储
- 响应时间研究, 平均值、中位数与百分位点
- 工作表(协作电子表格), 实时协作、离线优先和本地优先应用, CRDT 与操作变换
- Spanner(见 Spanner(数据库))
- TrueTime (clock API), 带置信区间的时钟读数
- 流言协议, 请求路由
- 治理, 超越数据湖
- 政府对数据的使用, 数据作为资产与权力
- GPS (Global Positioning System)
- 用于时钟同步, 不可靠的时钟, 时钟同步和准确性, 带置信区间的时钟读数, 用于全局快照的同步时钟
- GPT (language model), 向量嵌入
- GPU (graphics processing unit), 云服务的分层, 分布式与单节点系统
- gradual rollout(见 rolling upgrades)
- GraphQL(查询语言), GraphQL
- 验证, 存储过程的利弊
- 图表, 术语表
- 作为数据模型, 图数据模型-GraphQL
- 属性图, 属性图
- RDF and triple-stores, 三元组存储与 SPARQL-SPARQL 查询语言
- DAGs(见 directed acyclic graphs)
- 处理和分析, 机器学习
- 查询语言
- 密码, Cypher 查询语言
- 数据日志, Datalog:递归关系查询-Datalog:递归关系查询
- GraphQL, GraphQL
- 格伦林, 图数据模型
- recursive SQL queries, SQL 中的图查询
- SPARQL, SPARQL 查询语言-SPARQL 查询语言
- 转弯, 属性图
- 作为数据模型, 图数据模型-GraphQL
- 灰色失败, 系统模型与现实
- 无领导复制, 单主与无主复制的性能
- 格勒姆林(图形查询语言), 图数据模型
- grep (Unix 工具) (英语)., 简单日志分析
- gRPC (service calls), 微服务与无服务器, Web 服务
- 前向和后向兼容性, RPC 的数据编码与演化
- GUIDs(见 UUIDs)
H
- Hadoop(数据基础设施)
- HANA(见 SAP HANA(数据库))
- 发生关系前, “先发生"关系与并发
- 硬盘
- 硬件故障, 硬件与软件故障
- 散列函数
- 在 Bloom 过滤器中, 布隆过滤器
- 加入散列
- 在溪流处理中, 流表连接(流扩充)
- 散列变硬, 按键的哈希分片-一致性哈希, 总结
- 散列表格, 日志结构存储
- Hazelcast(模拟数据网)
- FencedLock, 隔离僵尸进程和延迟请求
- Flake ID Generator, ID 生成器和逻辑时钟
- HBase(数据库)
- HDFS (Hadoop Distributed File System), 批处理, 分布式文件系统
- HdrHistogram (numerical library), 响应时间指标的应用
- 头 (Unix 工具), 简单日志分析, 分布式作业编排
- 头顶(财产图), 属性图
- 头部阻塞, 延迟与响应时间
- 堆积文件(数据库), 在索引中存储值
- 多转换并发控制, 多版本并发控制(MVCC)
- 热量管理, 偏斜的工作负载与缓解热点
- 被套期请求, 单主与无主复制的性能
- 分散事务, 跨不同系统的分布式事务, XA 事务的问题
- 启发式决策, 从协调器故障中恢复
- 十六进制(注解本), 机器学习
- 六边形
- 地理空间索引, 多维索引与全文索引
- Hibernate(对象关系映射器), 对象关系映射(ORM)
- 层次模型, 关系模型与文档模型
- 可导航的小世界(媒介指数), 向量嵌入
- hierarchical queries(见 recursive common table expressions)
- high availability(见 fault tolerance)
- 高频事务, 时钟同步和准确性
- high-performance computing (HPC), 云计算与超级计算
- 提示移交, 追赶错过的写入
- 直方图, 响应时间指标的应用
- 蜂窝(数据仓), 云数据仓库
- 查询优化器, 查询语言
- HNSW (vector index), 向量嵌入
- 购物窗口(流程处理), 窗口的类型
- (另见 windows)
- Hoptimator(查询引擎), 一切的元数据库
- 地平线丑闻, 人类与可靠性
- 缺乏事务, 事务
- horizontal scaling(见 scaling out)
- 通过磨损, 分片的利与弊
- HornetQ(消息系统), 消息代理, 消息代理与数据库的对比
- 分布式事务支持, XA 事务
- 热键, 键值数据的分片
- 热点, 键值数据的分片
- 由于名人, 偏斜的工作负载与缓解热点
- 时间序列数据, 按键的范围分片
- 解除武装, 偏斜的工作负载与缓解热点
- hot standbys(见 基于领导者的复制)
- HTAP(见 hybrid transactional/analytic processing)
- HTTP, use in APIs(见 services)
- 人类错误, 人类与可靠性, 实践中的网络故障, 批处理
- 混合逻辑时钟, 混合逻辑时钟
- 混合事务/分析处理, 数据仓库, 分析型数据存储
- hydrating IDs (join), 社交网络案例研究中的反规范化
- 高频图, 属性图
- HyperLogLog (algorithm), 流分析
I
- I/O operations, waiting for, 进程暂停
- IaaS(见 infrastructure as a service (IaaS))
- IBM
- Db2(数据库)
- 分布式事务支持, XA 事务
- 可序列隔离, 快照隔离、可重复读和命名混淆, 两阶段锁定的实现
- MQ(消息系统), 消息代理与数据库的对比
- 分布式事务支持, XA 事务
- System R(数据库), 事务到底是什么?
- WebSphere(消息系统), 消息代理
- Db2(数据库)
- Iceberg(表格式), 云数据仓库
- 幂等性, 远程过程调用(RPC)的问题, 幂等性, 术语表
- by giving operations unique IDs, 多分区请求处理
- by giving requests unique IDs, 操作标识符
- 对于完全的语义, 再谈恰好一次消息处理
- 一元业务, 恰好执行一次操作
- 工作流程引擎中, 持久化执行
- 不可改变性
- 好处, 不可变事件的优点, 为可审计性而设计
- 和清除的权利, 数据系统、法律与社会, 磁盘空间使用
- 删除加密, 事件溯源与 CQRS, 不变性的局限性
- 从事件日志中获取状态, 状态、流和不变性-不变性的局限性
- 事故恢复, 构建和合并 SSTable
- 在B树上, B 树变体, 索引与快照隔离
- 如果来源, 事件溯源与 CQRS, 数据变更捕获与事件溯源
- 限制, 并发控制
- 阻抗不匹配, 对象关系不匹配
- 存疑, 协调器故障
- 模拟数据库, 全内存存储
- 事件
- 导致错误定罪的会计软件错误, 人类与可靠性
- 无咎死后, 人类与可靠性
- 跳跃秒坠机, 时钟同步和准确性
- 数据腐败和货币错误造成的经济损失, 弱隔离级别
- 硬盘上的数据腐败, 持久性
- 数据损失,因最后写成, 用于事件排序的时间戳
- 磁盘上无法读取的数据, 将系统模型映射到现实世界
- 由于重用主钥匙而披露敏感数据, 领导者故障:故障转移
- 事务序列性中的错误, 维护完整性,尽管软件有Bug
- gigabit network interface with 1 Kb/s throughput, 系统模型与现实
- 跳跃第二次崩溃, 软件故障
- 网络断层, 实践中的网络故障
- 网络接口只放下入境包, 实践中的网络故障
- 网络分区和全数据中心故障, 故障与部分失效
- 网络故障处理不当, 实践中的网络故障
- 向前合伙人发送消息, 排序事件以捕获因果关系
- 咬海底电缆的鲨鱼, 实践中的网络故障
- split brain due to 1-minute packet delay, 领导者故障:故障转移, 实践中的网络故障
- SSD failure after 32,768 hours, 软件故障
- 线程争吵导致服务下降, 进程暂停
- 服务器架中的振动, 延迟与响应时间
- 违反独特性限制, 维护完整性,尽管软件有Bug
- incremental view maintenance (IVM), 维护物化视图
- 数据整合, 分拆系统与集成系统
- 索引, OLTP 系统的存储与索引, 术语表
- 并快照隔离, 索引与快照隔离
- 作为衍生数据, 记录系统与派生数据, 组合使用数据存储技术-分拆系统与集成系统
- B树, B 树-B 树变体
- 分组, 在索引中存储值
- comparison of B-trees and LSM-trees, 比较 B 树与 LSM 树-磁盘空间使用
- 覆盖(包括各栏), 在索引中存储值
- 创建, 创建索引
- 全文检索, 全文检索
- 地理空间, 多维索引与全文索引
- 索引范围锁定, 索引范围锁
- 多列(压缩), 多维索引与全文索引
- 中学, 多列索引与二级索引
- 硬化指数和二级指数, 分片与二级索引-全局二级索引, 总结
- 人烟稀少, SSTable 文件格式
- SSTable 与 LSM 树, SSTable 文件格式-压实策略
- 数据变化时更新, 保持系统同步, 维护物化视图
- Industrial Revolution, 回顾工业革命
- InfiniBand (networks), 我们不能简单地使网络延迟可预测吗?
- InfluxDB IOx (storage engine), 列式存储
- information retrieval(见 全文检索)
- infrastructure as a service (IaaS), 云服务与自托管, 云服务的分层
- InnoDB (storage engine)
- 实例(云计算), 云服务的分层
- integrating different data systems(见 数据集成)
- 诚信, 及时性与完整性
- Interface Definition Language (IDL), Protocol Buffers, Avro, Web 服务
- 不变式, 一致性
- (另见 constraints)
- 反向文件索引(向量索引), 向量嵌入
- 倒转索引, 全文检索
- 不可逆转,尽量减少, 可演化性:让变化更容易, 事件溯源与 CQRS, 批处理
- ISDN (Integrated Services Digital Network), 同步与异步网络
- 隔离性
- cgroups(见 cgroups)
- 隔离性, 隔离性, 单对象与多对象操作, 术语表
- 正确性和, 追求正确性
- 用于单对象写入, 单对象写入
- 可串行化, 可串行化-可串行化快照隔离的性能
- 实际执行, 实际串行执行-串行执行总结
- 可串行化快照隔离, 可串行化快照隔离(SSI)-可串行化快照隔离的性能
- 两阶段锁定, 两阶段锁定(2PL)-索引范围锁
- 违反, 单对象与多对象操作
- 薄弱的隔离水平, 弱隔离级别-物化冲突
- IVF (vector index), 向量嵌入
J
- 数据库连接
- Java Enterprise Edition (EE), 远程过程调用(RPC)的问题, 两阶段提交(2PC), XA 事务
- Java Message Service (JMS), 消息代理与数据库的对比
- (另见 messaging systems)
- 比较基于日志的邮件, 日志与传统的消息传递相比, 重播旧消息
- 分布式事务支持, XA 事务
- 消息顺序, 确认与重新传递
- Java Transaction API (JTA), 两阶段提交(2PC), XA 事务
- Java Virtual Machine (JVM)
- 垃圾收集, 进程暂停, 限制垃圾回收的影响
- JIT compilation, 查询执行:编译与向量化
- 批次处理器中的工艺再利用, 数据流引擎
- Jena (RDF framework), RDF 数据模型
- SPARQL 查询语言, SPARQL 查询语言
- Jepsen(过失容忍度测试), 故障注入, 追求正确性
- jitter (网络延迟), 平均值、中位数与百分位点, 网络拥塞和排队
- JMESPath(查询语言), 查询语言
- 合并表格, 多对一与多对多关系, 属性图
- 加入, 术语表
- 作为关系运算符表示, 查询语言
- handling GraphQL query, GraphQL
- 应用程序代码, 规范化、反规范化与连接, 社交网络案例研究中的反规范化
- in DataFrames, 数据框、矩阵与数组
- 关系数据库和文档数据库, 规范化、反规范化与连接
- 二级指数和, 多列索引与二级索引
- 排序合并, JOIN 与 GROUP BY
- 串流连接, 流连接-连接的时间依赖性
- 串流流连接, 流流连接(窗口连接)
- 串行表连接, 流表连接(流扩充)
- 表格连接, 表表连接(维护物化视图)
- 时间的依赖性, 连接的时间依赖性
- 文档数据库中的支持, 文档和关系数据库的融合
- JOTM (transaction coordinator), 两阶段提交(2PC)
- 日记(文件系统), 使 B 树可靠
- JSON
- 管道汇总(用克里语), 文档的查询语言
- Avro 方案说明, Avro
- 二进制变体, 二进制编码
- 数据位置, 读写的数据局部性
- 文档数据模型, 关系模型与文档模型
- 应用数据的问题, JSON、XML 及其二进制变体
- GraphQL response, GraphQL
- 关系数据库, 文档模型中的模式灵活性
- 代表简历(例), 用于一对多关系的文档数据模型
- 模式, JSON 模式
- JSON-LD, 三元组存储与 SPARQL
- JsonPath(查询语言), 查询语言
- JuiceFS(分布式文件系统), 分布式文件系统, 对象存储
- 朱皮特(注解本), 机器学习
- just-in-time (JIT) compilation, 查询执行:编译与向量化
K
- Kafka(消息系统), 消息代理, 使用日志进行消息存储
- 消费者群体, 多个消费者
- 数据整合, 分拆系统与集成系统
- 用于事件源代码, 事件溯源与 CQRS
- Kafka 连接(数据库整合), 数据变更捕获的实现, 变更流的 API 支持, 从同一事件日志中派生多个视图
- 卡夫卡流(流处理器), 流分析, 维护物化视图
- 恰好一次语义, 再谈恰好一次消息处理
- 过失容忍, 失败后重建状态
- ksqlDB (stream database), 维护物化视图
- 基于领导者的复制, 单主复制
- 日志压缩, 日志压缩, 维护物化视图
- 页:1, 使用日志进行消息存储, 幂等性
- 分区, 分片
- 请求路由, 请求路由
- 计划登记, 但什么是写入者模式?
- 服务衍生数据, 对外提供派生数据
- 分层存储, 磁盘空间使用
- 事务, 数据库内部的分布式事务, 原子提交再现
- 不洁领袖选举, 共识的微妙之处
- 使用模型检查, 模型检查与规范语言
- kappa 架构, 统一批处理和流处理
- 关键价值储存, OLTP 系统的存储与索引
- Kinesis(消息系统), 消息代理, 使用日志进行消息存储
- 数据仓集成, 云数据仓库
- Kryo (Java), 特定语言的格式
- ksqlDB (stream database), 维护物化视图
- Kubernetes(集群经理), 云服务与自托管, 微服务与无服务器, 分布式作业编排, 应用代码和状态的分离
- KùzuDB (database), 分布式系统的问题, 图数据模型
- 作为嵌入式存储引擎, 压实策略
- Cypher 查询语言, Cypher 查询语言
L
- labeled property graphs(见 property graphs)
- 羊肉达建筑, 统一批处理和流处理
- Lamport 时间戳, Lamport 时间戳
- Lance(数据格式), 云数据仓库, 列式存储
- (另见 column-oriented storage)
- large language models (LLMs)
- 预处理培训数据, 机器学习
- 最后写入胜利, 最后写入胜利(丢弃并发写入), 检测并发写入, 实现线性一致性系统
- 问题, 用于事件排序的时间戳
- 容易丢失更新, 冲突解决与复制
- 延迟, 延迟与响应时间
- (另见 响应时间)
- 跨区域, 分布式与单节点系统
- 在两阶段锁定下的不稳定, 两阶段锁定的性能
- 网络延迟和资源利用, 我们不能简单地使网络延迟可预测吗?
- 根据请求减少套期保值, 单主与无主复制的性能
- 响应时间对比, 延迟与响应时间
- 尾延迟, 平均值、中位数与百分位点, 响应时间指标的应用, 本地二级索引
- law(见 legal matters)
- (云服务), 云服务的分层
- 基于领导者的复制, 单主复制-逻辑(基于行)日志复制
- (另见 复制)
- 故障切换, 领导者故障:故障转移, 分布式锁和租约
- 处理节点断电, 处理节点故障
- 实施复制日志
- 数据变更捕获, 数据变更捕获-变更流的 API 支持
- (另见 changelogs)
- 基于语句的, 基于语句的复制
- 预写日志(WAL)传输, 预写日志(WAL)传输
- 数据变更捕获, 数据变更捕获-变更流的 API 支持
- 操作的可线性, 实现线性一致性系统
- 锁定和领导者选举, 锁定与领导者选举
- 日志序列号, 设置新的副本, 消费者偏移量
- 读缩放架构, 复制延迟的问题, 单主与无主复制的性能
- 与协商一致的关系, 共识, 从单主复制到共识, 共识的利弊
- 设立新的追随者, 设置新的副本
- 同步对同步, 同步复制与异步复制-同步复制与异步复制
- 无领导复制, 无主复制-版本向量
- 跳跃秒, 软件故障, 时钟同步和准确性
- 时钟, 日历时钟
- 租赁, 进程暂停
- 分类账(会计), 总结
- 不可改变性, 不可变事件的优点
- 遗留系统,维护, 可运维性
- 法律事项, 数据系统、法律与社会-数据系统、法律与社会
- 数据删除, 数据系统、法律与社会, 磁盘空间使用
- 数据存储, 分布式与单节点系统, 面向多租户的分片
- 隐私监管, 数据系统、法律与社会, 立法与自律
- legitimate interest (GDPR), 同意与选择自由
- 平面压缩, 压实策略, 磁盘空间使用
- Levenshtein 自动地图, 全文检索
- 跛脚(部分失败), 系统模型与现实
- 线性(项目管理软件), 实时协作、离线优先和本地优先应用
- 线性代数, 数据框、矩阵与数组
- 线性可缩放性, 描述负载
- 线性一致性, 复制延迟的解决方案, 线性一致性-线性一致性与网络延迟, 术语表
- 和共识, 共识
- 费用, 线性一致性的代价-线性一致性与网络延迟
- CAP定理, CAP 定理
- memory on multi-core CPUs, 线性一致性与网络延迟
- 定义, 什么使系统具有线性一致性?-什么使系统具有线性一致性?
- ID generation, 线性一致的 ID 生成器
- 协调事务, 协调服务
- 数据系统
- 避免协调, 无协调数据系统
- 不同复制方法, 实现线性一致性系统-线性一致性与仲裁
- 使用法定人数, 线性一致性与仲裁
- 在协商一致的制度中读取, 共识的微妙之处
- 依赖, 依赖线性一致性-跨通道时序依赖
- 可序列性, 什么使系统具有线性一致性?
- 链接数据, 三元组存储与 SPARQL
- LinkedIn
- Espresso(数据库), 但什么是写入者模式?
- LIquid(数据库), Datalog:递归关系查询
- 配置文件(例), 用于一对多关系的文档数据模型
- Linux 跳过第二个错误, 软件故障, 时钟同步和准确性
- Litestream (备份工具), 设置新的副本
- 生活属性, 安全性与活性
- LLVM (compiler), 查询执行:编译与向量化
- LMDB (storage engine), 压实策略, B 树变体, 索引与快照隔离
- 负载
- 负载平衡, 描述性能, 负载均衡器、服务发现和服务网格
- 硬件, 负载均衡器、服务发现和服务网格
- 软件, 负载均衡器、服务发现和服务网格
- 使用信件经纪人, 多个消费者
- 装弹, 描述性能
- 本地二级指数, 本地二级索引, 总结
- 本地第一软件, 实时协作、离线优先和本地优先应用
- 局部性, 用于一对多关系的文档数据模型, 读写的数据局部性, 术语表
- 分批处理, 数据流引擎
- 在状态客户端, 同步引擎与本地优先软件, 有状态、可离线的客户端
- 在溪流处理中, 流表连接(流扩充), 失败后重建状态, 流处理器和服务, 基于日志消息传递中的唯一性
- 地点透明度, 远程过程调用(RPC)的问题
- 在演员模式中, 分布式 actor 框架
- 锁定, 云服务的利弊
- 锁, 术语表
- 死锁, 显式锁定, 两阶段锁定的实现
- 分布式锁定, 分布式锁和租约-多副本隔离, 锁定与领导者选举
- 栅栏标志, 隔离僵尸进程和延迟请求
- 与协调处合作执行, 协调服务
- 与协商一致的关系, 单值共识
- 用于事务隔离
- 在快照隔离中, 多版本并发控制(MVCC)
- in two-phase locking (2PL), 两阶段锁定(2PL)-索引范围锁
- 使操作原子化, 原子写操作
- 性能, 两阶段锁定的性能
- 防止肮脏的写作, 实现读已提交
- 防止带有索引范围锁的幽灵, 索引范围锁, 检测影响先前读取的写入
- 读取锁(共享模式), 实现读已提交, 两阶段锁定的实现
- 共享模式和专属模式, 两阶段锁定的实现
- 分布式事务
- 实现冲突, 物化冲突
- 通过明确锁定防止丢失更新, 显式锁定
- 日志序列号, 设置新的副本, 消费者偏移量
- 逻辑时钟, 用于事件排序的时间戳, ID 生成器和逻辑时钟-使用逻辑时钟强制约束, 排序事件以捕获因果关系
- 最后写成的, 最后写入胜利(丢弃并发写入)
- 读后写入一致性, 读己之写
- 混合逻辑时钟, 混合逻辑时钟
- 执行制约因素不足, 使用逻辑时钟强制约束
- Lamport 时间戳, Lamport 时间戳
- 逻辑复制, 逻辑(基于行)日志复制
- 用于获取变化数据, 数据变更捕获的实现
- LogicBlox(数据库), Datalog:递归关系查询
- 日志(数据结构), OLTP 系统的存储与索引, 共享日志作为共识, 术语表
- (另见 shared logs)
- 不可改变性的好处, 不可变事件的优点
- 和清除的权利, 数据系统、法律与社会, 磁盘空间使用
- 压实(Compaction), 构建和合并 SSTable, 压实策略, 日志压缩, 状态、流和不变性
- 流运算符状态, 失败后重建状态
- 执行独特性限制, 基于日志消息传递中的唯一性
- 基于日志的信息, 基于日志的消息代理-重播旧消息
- 比较传统消息, 日志与传统的消息传递相比, 重播旧消息
- 减 减, 消费者偏移量
- 磁盘空间使用情况, 磁盘空间使用
- 重播旧信件, 重播旧消息, 应用演化后重新处理数据, 统一批处理和流处理
- 缓慢的消费者, 当消费者跟不上生产者时
- 使用日志存储信件, 使用日志进行消息存储
- 日志结构存储, OLTP 系统的存储与索引-压实策略
- log-structured merge tree(见 LSM-trees)
- 与协商一致的关系, 共享日志作为共识
- 复制, 单主复制, 复制日志的实现-逻辑(基于行)日志复制
- 数据变更捕获, 数据变更捕获-变更流的 API 支持
- (另见 changelogs)
- 与快照协调, 设置新的副本
- 逻辑(基于row) 复制, 逻辑(基于行)日志复制
- 基于语句的复制, 基于语句的复制
- 预写日志(WAL)传输, 预写日志(WAL)传输
- 数据变更捕获, 数据变更捕获-变更流的 API 支持
- 伸缩性限制, 全序的限制
- 浏览器(商业情报软件), 事务处理与分析的特征, 分析(Analytics)
- 松耦合, 开展分拆工作
- lost updates(见 updates)
- 莲花笔记(同步引擎), 同步引擎的利弊
- LSM-trees (indexes), SSTable 文件格式-压实策略
- 与B树的比较, 比较 B 树与 LSM 树-磁盘空间使用
- Lucene(存储引擎), 全文检索
- 相似性搜索, 全文检索
- 最后写入胜利(见 最后写入胜利)
M
- 机器学习
- 疯狂(决定性模拟测试), 确定性模拟测试
- 万金油, 可伸缩性原则
- 可维护性, 可运维性-可演化性:让变化更容易, 流式系统的哲学
- 可演化性(见 可演化性)
- 可操作性, 可运维性:让运维更轻松
- 简化和管理复杂性, 简单性:管理复杂度
- 多种关系, 多对一与多对多关系
- 模拟为图表, 图数据模型
- 多对一关系, 多对一与多对多关系
- 在恒星计时, 星型与雪花型:分析模式
- MapReduce (batch processing), 批处理, MapReduce-MapReduce
- 用户活动活动分析(实例), JOIN 与 GROUP BY
- 与流处理的比较, 流处理
- 不利条件和限制, MapReduce
- 过失容忍, 故障处理
- 高级工具, 查询语言
- 映射和缩小函数, MapReduce
- 移动数据, 混洗数据
- 排序合并, JOIN 与 GROUP BY
- 工作流程, 工作流调度
- (另见 workflow engines)
- 编组(见 编码)
- MartenDB(数据库), 事件溯源与 CQRS
- 主奴隶复制(过时术语), 单主复制
- 物化, 术语表
- 总价值, 物化视图与数据立方体
- 冲突, 物化冲突
- 实际意见, 物化视图与数据立方体
- 作为衍生数据, 记录系统与派生数据, 组合使用数据存储技术-分拆系统与集成系统
- 如果来源, 事件溯源与 CQRS
- 增量视图维护, 维护物化视图
- (另见 incremental view maintenance (IVM))
- 维护,使用流处理, 维护物化视图, 表表连接(维护物化视图)
- 社会网络时间表实例, 时间线的物化与更新
- 物化, 物化视图与数据立方体
- 增量视图维护, 维护物化视图
- 矩阵, 数据框、矩阵与数组
- 人烟稀少, 数据框、矩阵与数组
- Maxwell(变化数据捕获), 数据变更捕获的实现
- 说, 平均值、中位数与百分位点
- 媒体监测, 在流上搜索
- 中位数, 平均值、中位数与百分位点
- 会议室预订(例), 写偏差的更多例子, 谓词锁, 强制约束
- 调试(调试服务器), 全内存存储
- Memgraph(数据库), 图数据模型
- Cypher 查询语言, Cypher 查询语言
- 内存
- 壁障, 线性一致性与网络延迟
- 腐败, 硬件与软件故障
- 模拟数据库, 全内存存储
- 数据模拟表示, 编码数据的格式
- 内存表, 构建和合并 SSTable
- 随机比特- flips in, 信任但验证
- 索引的使用, 日志结构存储
- 内存表, 构建和合并 SSTable
- 商品(版本控制系统), 并发控制
- 合并, 数据框、矩阵与数组
- 合并排序的文件, 构建和合并 SSTable, 混洗数据
- 默克尔树, 用于可审计数据系统的工具
- Mesos(分组管理器), 应用代码和状态的分离
- message brokers(见 messaging systems)
- message-passing(见 event-driven architecture)
- MessagePack (encoding format), 二进制编码
- 通讯系统, 流处理-重播旧消息
- (另见 streams)
- 后压、缓冲或丢弃信件, 消息传递系统
- 无中介消息, 直接从生产者传递给消费者
- 事件日志, 基于日志的消息代理-重播旧消息
- 作为数据模型, 事件溯源与 CQRS
- 比较传统消息, 日志与传统的消息传递相比, 重播旧消息
- 减 减, 消费者偏移量
- 重播旧信件, 重播旧消息, 应用演化后重新处理数据, 统一批处理和流处理
- 缓慢的消费者, 当消费者跟不上生产者时
- 恰好一次语义, 恰好一次消息处理, 再谈恰好一次消息处理, 容错
- 信件经纪人, 消息代理-确认与重新传递
- 承认和重新交付, 确认与重新传递
- 比较事件日志, 日志与传统的消息传递相比, 重播旧消息
- 同一主题的多个消费者, 多个消费者
- versus RPC, 事件驱动的架构
- 消息丢失, 消息传递系统
- 可靠性, 消息传递系统
- 以日志为基础的信件中的独特性, 基于日志消息传递中的唯一性
- 可调味的失败, 描述性能
- 计票
- 微批次, 微批次与存档点
- 微服务, 微服务与无服务器
- 微软
- Azure Blob Storage(见 Azure Blob Storage)
- Azure managed disks, 存储与计算的分离
- Azure Service Bus(消息系统), 消息代理, 消息代理与数据库的对比
- Azure SQL DB(数据库), 云原生系统架构
- Azure Storage, 对象存储
- Azure Stream Analytics, 流分析
- Azure Synapse Analytics(数据库), 云原生系统架构
- 分布式组件对象模型, 远程过程调用(RPC)的问题
- MSDTC (transaction coordinator), 两阶段提交(2PC)
- SQL Server(见 SQL Server)
- Microsoft Power BI(见 Power BI (business intelligence software))
- 迁移(重写)数据, 文档模型中的模式灵活性, 不同时间写入的不同值, 从同一事件日志中派生多个视图, 应用演化后重新处理数据
- MinIO(对象存储), 分布式文件系统
- 移动应用程序, 数据系统架构中的权衡
- 嵌入式数据库, 压实策略
- 模式检查, 模型检查与规范语言
- 模块操作员(%), 哈希取模节点数
- Mojo(编程语言)
- 内存管理, 限制垃圾回收的影响
- MongoDB(数据库)
- 管道合计, 文档的查询语言
- 原子操作, 原子写操作
- BSON, 读写的数据局部性
- 文档数据模型, 关系模型与文档模型
- 散列变硬, 按键的哈希分片, 按哈希范围分片
- 在云层中, 云原生系统架构
- 加入支持, 文档和关系数据库的融合
- 加入($$ookup 运算符), 规范化、反规范化与连接
- JSON Schema validation, JSON 模式
- 基于领导者的复制, 单主复制
- ObjectIds, ID 生成器和逻辑时钟
- 基于范围的硬化, 按键的范围分片
- 请求路由, 请求路由
- 二级指数, 本地二级索引
- 硬分裂, 重新平衡键范围分片数据
- 存储程序, 存储过程的利弊
- 监测, 云时代的运维, 人类与可靠性, 可运维性:让运维更轻松
- 单音钟, 单调时钟
- 单调读, 单调读
- Morel(查询语言), 查询语言
- MSMQ(消息系统), XA 事务
- 多列索引, 多维索引与全文索引
- 多领导复制, 多主复制-处理写入冲突
- (另见 复制)
- 协作编辑, 实时协作、离线优先和本地优先应用
- 冲突检测, 处理写入冲突
- 解决冲突, 处理写入冲突
- 供多区域复制, 跨地域运行, 线性一致性的代价
- 线性,缺少, 实现线性一致性系统
- 可脱机客户端, 同步引擎与本地优先软件
- 复制地形, 多主复制拓扑-不同拓扑的问题
- 多对象事务, 单对象与多对象操作
- 需求, 多对象事务的需求
- Multi-Paxos (consensus algorithm), 共识的实践
- 多读单写锁定, 两阶段锁定的实现
- 多表索引集群表, 读写的数据局部性
- 多版本并发控制, 多版本并发控制(MVCC), 总结
- detecting stale MVCC reads, 检测陈旧的 MVCC 读取
- 索引和快照隔离, 索引与快照隔离
- 使用同步时钟, 用于全局快照的同步时钟
- 多层面阵列, 数据框、矩阵与数组
- 多重租赁, 存储与计算的分离, 网络拥塞和排队
- 相互排斥, 悲观并发控制与乐观并发控制
- (另见 locks)
- MySQL(数据库)
- archiving WAL to object stores, 设置新的副本
- 二进制日志坐标, 设置新的副本
- 数据变更捕获, 数据变更捕获的实现, 变更流的 API 支持
- 循环复制地形, 多主复制拓扑
- 一致的快照, 设置新的副本
- 分布式事务支持, XA 事务
- global transaction identifiers (GTIDs), 设置新的副本
- 在云层中, 云原生系统架构
- InnoDB storage engine(见 InnoDB)
- 基于领导者的复制, 单主复制
- 多领导复制, 跨地域运行
- 基于行的复制, 逻辑(基于行)日志复制
- 分片(见 Vitess(数据库))
- 快速隔离支持, 快照隔离、可重复读和命名混淆
- (另见 InnoDB)
- 基于语句的复制, 基于语句的复制
N
- N+1 query problem, 对象关系映射(ORM)
- 纳米msg(信息库), 直接从生产者传递给消费者
- Narayana(事务协调员), 两阶段提交(2PC)
- NATS(消息系统), 消息代理
- 自然语言处理, 从数据仓库到数据湖
- Neo4j(数据库)
- Cypher 查询语言, Cypher 查询语言
- 图表数据模型, 图数据模型
- Neon(数据库), 设置新的副本
- 侄子(数据流引擎), 数据流引擎
- Neptune(图数据库), 图数据模型
- Cypher 查询语言, Cypher 查询语言
- SPARQL 查询语言, SPARQL 查询语言
- 网码(游戏开发), 同步引擎的利弊
- Network Attached Storage (NAS), 共享内存、共享磁盘与无共享架构, 分布式文件系统
- 网络模型(数据表示), 关系模型与文档模型
- Network Time Protocol(见 网络时间协议)
- 网络
- NewSQL, 关系模型与文档模型, 复制延迟的解决方案
- 事务和, 事务到底是什么?, 数据库内部的分布式事务
- 下键锁定, 索引范围锁
- NFS (network file system), 分布式文件系统
- 在对象存储中, 对象存储
- Nimble(数据格式), 云数据仓库, 列式存储
- (另见 column-oriented storage)
- node (in graphs)(见 vertices)
- 节点(进程), 分布式与单节点系统, 术语表
- 吵闹的邻居, 网络拥塞和排队
- 原子承诺, 三阶段提交
- 非决定性操作, 基于语句的复制
- 不起作用的要求, 定义非功能性需求, 总结
- 不可重复读作, 快照隔离与可重复读
- (另见 读取偏差)
- 规范化, 规范化、反规范化与连接-多对一与多对多关系, 术语表
- 外国关键参考文献, 多对象事务的需求
- 社会网络案例研究, 社交网络案例研究中的反规范化
- 在记录系统中, 记录系统与派生数据
- 相对于非正常化, 从同一事件日志中派生多个视图
- NoSQL, 关系模型与文档模型, 复制延迟的解决方案, 分拆数据库
- 事务和, 事务到底是什么?
- Notation3 (N3), 三元组存储与 SPARQL
- 网络时间协议, 不可靠的时钟
- 准确性, 时钟同步和准确性, 用于事件排序的时间戳
- 对单音钟的调整, 单调时钟
- 多个服务器地址, 弱形式的谎言
- XML 与 JSON 编码中的数字, JSON、XML 及其二进制变体
- NumPy (Python library), 数据框、矩阵与数组, 列式存储
- NVMe (Non-Volatile Memory Express)(见 solid state drives (SSDs))
O
- 对象数据库, 关系模型与文档模型
- 对象存储, 云服务的分层, 对象存储-对象存储
- 对象关系映射(ORM)框架, 对象关系映射(ORM)
- 对象关系不匹配, 对象关系不匹配
- 可观察性, 分布式系统的问题, 人类与可靠性, 可运维性:让运维更轻松
- 观察员模式, 应用代码和状态的分离
- OBT (one big table), 星型与雪花型:分析模式, 星型与雪花型:分析模式
- 离线系统, 批处理
- (另见 batch processing)
- 离线第一应用程序, 实时协作、离线优先和本地优先应用, 有状态、可离线的客户端
- 页:1
- 加工过的原木中的消费者抵消额, 消费者偏移量
- 已磨损日志中的消息, 使用日志进行消息存储
- OLAP, 事务处理与分析的特征, 术语表
- 数据方块, 物化视图与数据立方体
- OLTP, 事务处理与分析的特征, 术语表
- 分析查询与, 分析(Analytics)
- 数据正常化, 规范化的权衡
- 工作量特点, 实际串行执行
- 现场部署, 云服务与自托管
- 数据仓库, 云数据仓库
- 一个大表格(数据仓计划), 星型与雪花型:分析模式, 星型与雪花型:分析模式
- 单热编码, 数据框、矩阵与数组
- 一对夫妇关系, 用于一对多关系的文档数据模型
- 一对多种关系, 用于一对多关系的文档数据模型
- JSON representation, 用于一对多关系的文档数据模型
- 在线系统, 批处理
- (另见 services)
- 相对于科学计算, 云计算与超级计算
- 肿瘤, 三元组存储与 SPARQL
- Oozie(工作流调度器), 批处理
- OpenAPI (service definition format), 微服务与无服务器, Web 服务, Web 服务
- use of JSON Schema, JSON 模式
- openCypher(见 Cypher(查询语言))
- OpenLink Virtuoso(见 Virtuoso(数据库))
- OpenStack
- Swift(对象存储), 对象存储
- 可操作性, 可运维性:让运维更轻松
- 操作系统与数据库, 分拆数据库
- 业务系统, 分析型与事务型系统
- 操作转换, CRDT 与操作变换
- 行动组, 云时代的运维
- 算子, 查询执行:编译与向量化
- 在溪流处理中, 流处理
- 乐观并发控制, 悲观并发控制与乐观并发控制
- 乐观锁定, 条件写入(比较并设置)
- Oracle(数据库)
- 分布式事务支持, XA 事务
- GoldenGate (change data capture), 数据变更捕获的实现
- 等级查询, SQL 中的图查询, SQL 中的图查询
- 缺乏序列性, 隔离性
- 基于领导者的复制, 单主复制
- 多领导复制, 跨地域运行
- 多表索引集群表, 读写的数据局部性
- 无法阻止写入 skew, 写偏差的特征
- PL/SQL language, 存储过程的利弊
- 防止丢失更新, 自动检测丢失的更新
- 读作承诺隔离, 实现读已提交
- Real Application Clusters (RAC), 锁定与领导者选举
- 快速隔离支持, 快照隔离与可重复读, 快照隔离、可重复读和命名混淆
- TimesTen (in-memory database), 全内存存储
- WAL-based replication, 预写日志(WAL)传输
- ORC(数据格式), 云数据仓库, 列式存储
- (另见 column-oriented storage)
- 协调(服务部署), 云服务与自托管, 微服务与无服务器
- 顺序
- 事件日志, 事件溯源与 CQRS
- 总订单的限制, 全序的限制
- 逻辑时间戳, 逻辑时钟
- of auto-incrementing IDs, ID 生成器和逻辑时钟
- 共享日志, 共识的实践-共识的利弊
- Orkes(工作流程引擎), 持久化执行与工作流
- 孤儿页面(B- 树), 使 B 树可靠
- 发件箱图案, 数据变更捕获与事件溯源
- 异常值(响应时间), 平均值、中位数与百分位点
- 外包, 云服务与自托管
- 超载, 描述性能, 处理错误和中止
P
- PACELC principle, CAP 定理
- 软件包管理器, 应用代码和状态的分离
- 包切换, 我们不能简单地使网络延迟可预测吗?
- 数据包
- 腐败, 弱形式的谎言
- sending via UDP, 直接从生产者传递给消费者
- PageRank (algorithm), 图数据模型, 查询语言, 机器学习
- paging(见 virtual memory)
- 大熊猫(蟒蛇图书馆), 从数据仓库到数据湖, 数据框、矩阵与数组, 列式存储, DataFrames
- Parquet(数据格式), 云数据仓库, 列式存储, 归档存储, 查询语言
- 部分失败, 故障与部分失效, 总结
- 跛脚, 系统模型与现实
- 部分同步(系统模型), 系统模型与现实
- 分区键, 分片的利与弊, 键值数据的分片
- 分区(见 分片)
- Paxos(协商一致算法), 共识, 共识的实践
- payment card industry (PCI), 数据系统、法律与社会
- PCI (payment card industry) compliance, 数据系统、法律与社会
- 百分位点, 平均值、中位数与百分位点, 术语表
- Percolator (Google), 实现线性一致的 ID 生成器
- Percona XtraBackup (MySQL tool), 设置新的副本
- 性能
- 作为过失的降解, 系统模型与现实
- 描述, 描述性能
- 分布式事务, 跨不同系统的分布式事务
- 内存数据库, 全内存存储
- 线性, 线性一致性与网络延迟
- 多领导者复制, 跨地域运行
- 权限隔离, 面向多租户的分片
- 永久不一致, 及时性与完整性
- 悲观并发控制, 悲观并发控制与乐观并发控制
- pglogical (PostgreSQL extension), 跨地域运行
- pgvector (矢量指数), 向量嵌入
- 幻读, 导致写偏差的幻读
- physical clocks(见 clocks)
- pick菜(蟒鱼), 特定语言的格式
- Pinot(数据库), 事务处理与分析的特征, 列式存储
- 处理写入, 写入列式存储
- 预汇总, 分析(Analytics)
- 服务衍生数据, 对外提供派生数据, 对外提供派生数据
- 编审中的执行
- 数据仓查询, 查询执行:编译与向量化
- 枢轴表, 数据框、矩阵与数组
- 时间点, 不可靠的时钟
- 点查询, 事务处理与分析的特征
- 极地(数据目录), 云数据仓库
- 投票, 表示用户、帖子与关注关系
- 多边存储器, 一切的元数据库
- POSIX (portable operating system interface)
- 邮政局地平线丑闻, 人类与可靠性
- 缺乏事务, 事务
- PostgreSQL(数据库)
- archiving WAL to object stores, 设置新的副本
- 数据变更捕获, 数据变更捕获的实现, 变更流的 API 支持
- 分布式事务支持, XA 事务
- 外国数据包, 一切的元数据库
- 全文搜索支持, 组合使用派生数据的工具
- 在云层中, 云原生系统架构
- JSON Schema validation, JSON 模式
- 基于领导者的复制, 单主复制
- 日志序列号, 设置新的副本
- 逻辑解码, 逻辑(基于行)日志复制
- 实现视图维护, 维护物化视图
- 多领导复制, 跨地域运行
- MVCC implementation, 多版本并发控制(MVCC), 索引与快照隔离
- 分割对硬化, 分片
- pgvector (矢量指数), 向量嵌入
- PL/pgSQL language, 存储过程的利弊
- PostGIS geospatial indexes, 多维索引与全文索引
- 防止丢失更新, 自动检测丢失的更新
- 防止写入skew, 写偏差的特征, 可串行化快照隔离(SSI)
- 读作承诺隔离, 实现读已提交
- 表示图表, 属性图
- 可串行化快照隔离, 可串行化快照隔离(SSI)
- 分片(见 Citus(数据库))
- 快速隔离支持, 快照隔离与可重复读, 快照隔离、可重复读和命名混淆
- WAL-based replication, 预写日志(WAL)传输
- 倒排列表, 全文检索
- 在硬化指数中, 本地二级索引
- 死后无咎, 人类与可靠性
- PouchDB(数据库), 同步引擎的利弊
- Power BI (business intelligence software), 事务处理与分析的特征, 分析(Analytics)
- 预汇总, 分析(Analytics)
- 服务衍生数据, 对外提供派生数据
- 分享前, 重新平衡键范围分片数据
- Precision Time Protocol (PTP), 时钟同步和准确性
- 上游锁定, 谓词锁
- 预测分析, 分析型与事务型系统, 预测分析-反馈回路
- 预设, 资源分配
- Prefect(工作流调度器), 持久化执行与工作流, 批处理, 工作流调度
- 云数据仓集成, 查询语言
- Presto(查询引擎), 云数据仓库
- 主密钥, 多列索引与二级索引, 术语表
- 自动递增, ID 生成器和逻辑时钟
- 对分区键, 按哈希范围分片
- primary-backup replication(见 基于领导者的复制)
- 隐私, 隐私与追踪-立法与自律
- 概率算法, 响应时间指标的应用, 流分析
- 进程暂停, 进程暂停-限制垃圾回收的影响
- 处理时间(事件), 时间推理
- 生产者(信息流), 传递事件流
- 产品分析, 事务处理与分析的特征
- 面向列的存储, 列式存储
- 编程语言
- 用于储存程序, 存储过程的利弊
- 预测(活动来源), 事件溯源与 CQRS
- Prolog(语言), Datalog:递归关系查询
- (另见 Datalog)
- 属性图, 属性图
- Cypher 查询语言, Cypher 查询语言
- Property Graph Query Language (PGQL), SQL 中的图查询
- 基于属性的测试, 人类与可靠性, 形式化方法和随机测试
- Protocol Buffers(数据格式), Protocol Buffers-字段标签与模式演化, Protocol Buffers
- 字段标记和计划演变, 字段标签与模式演化
- 数据来源, 为可审计性而设计
- 发布/订阅模式, 消息传递系统
- 出版社(信息流), 传递事件流
- Pulsar (流线平台), 确认与重新传递
- PyTorch (machine learning library), 机器学习
Q
- Qpid(消息系统), 消息代理与数据库的对比
- quality of service (QoS), 我们不能简单地使网络延迟可预测吗?
- Quantcast File System(分布式文件系统), 对象存储
- 查询引擎
- 汇编和矢量化, 查询执行:编译与向量化
- 在云数据仓库中, 云数据仓库
- 算子, 查询执行:编译与向量化
- 优化申报查询, 数据模型与查询语言
- 查询语言
- 密码, Cypher 查询语言
- 数据日志, Datalog:递归关系查询
- GraphQL, GraphQL
- MongoDB aggregation pipeline, 规范化、反规范化与连接, 文档的查询语言
- recursive SQL queries, SQL 中的图查询
- SPARQL, SPARQL 查询语言
- SQL, 规范化、反规范化与连接
- 查询优化器, 查询语言
- 查询计划, 查询执行:编译与向量化
- 排队延迟, 网络拥塞和排队
- 队列(消息), 消息代理
- QUIC (protocol), TCP 的局限性
- 法定人数, 读写仲裁-多地区操作, 术语表
- 配额, 云时代的运维
R
- R(语言), 从数据仓库到数据湖, 数据框、矩阵与数组, DataFrames
- R树(指数), 多维索引与全文索引
- R2(对象存储), 云服务的分层, 分布式文件系统
- RabbitMQ(消息系统), 消息代理, 消息代理与数据库的对比
- 法定人数队列(复制), 单主复制
- 种族条件, 隔离性
- Raft(协商一致算法), 共识, 共识的实践
- RAID (Redundant Array of Independent Disks), 存储与计算的分离, 通过冗余容忍硬件故障, 分布式文件系统
- 铁路,计划迁移, 应用演化后重新处理数据
- RAM(见 memory)
- RAMCloud (in-memory storage), 全内存存储
- 随机写入(访问模式), 顺序与随机写入
- 区域查询
- 排名算法, 机器学习
- Ray(工作流调度器), 机器学习
- RDF (Resource Description Framework), RDF 数据模型
- querying with SPARQL, SPARQL 查询语言
- 远程直接内存访问, 云服务的分层, 云计算与超级计算
- 反应(用户界面库), 端到端的事件流
- 被动方案拟订, 同步引擎的利弊
- 读取承诺隔离级别, 读已提交-实现读已提交
- 执行, 实现读已提交
- 多版本并发控制, 多版本并发控制(MVCC)
- 没有脏读, 没有脏读
- 没有污秽的文字, 没有脏写
- 读取模型(活动来源), 事件溯源与 CQRS
- 读路径, 观察派生数据状态
- (无铅复制), 追赶错过的写入
- 线性, 线性一致性与仲裁
- 只读副本(见 基于领导者的复制)
- 读取偏差, 快照隔离与可重复读, 总结
- 读取未承诺的隔离级别, 实现读已提交
- 写后读一致性, 读己之写, 及时性与完整性
- 交叉设备, 读己之写
- 在衍生数据系统中, 派生数据与分布式事务
- 读 - 修改 - 写入周期, 防止丢失更新
- 读缩放架构, 复制延迟的问题, 单主与无主复制的性能
- 与磨损, 分片的利与弊
- 读作事件, 读也是事件
- 实时
- analytics(见 product analytics)
- 协作编辑, 实时协作、离线优先和本地优先应用
- 发布/订阅数据流, 端到端的事件流
- 响应时间保障, 响应时间保证
- 每日时钟, 日历时钟
- Realm(数据库), 同步引擎的利弊
- 重新平衡困难, 重新平衡键范围分片数据-运维:自动/手动再平衡, 术语表
- (另见 分片)
- 自动或人工重新平衡, 运维:自动/手动再平衡
- 固定块数, 固定数量的分片
- 每个节点的固定硬度数, 按哈希范围分片
- Hash mod N的问题, 哈希取模节点数
- 新鲜度保证, 线性一致性
- 建议引擎, 分析型与事务型系统
- 重组(协商一致), 共识的微妙之处
- 记录, MapReduce
- 流处理中的事件, 传递事件流
- 递归查询
- 在密钥中, Cypher 查询语言
- 在数据日志中, Datalog:递归关系查询
- in SPARQL, SPARQL 查询语言
- lack of, in GraphQL, GraphQL
- SQL common table expressions, SQL 中的图查询
- Red Hat
- Apicurio Registry, JSON 模式
- 红黑树, 构建和合并 SSTable
- 重新交付(通讯), 确认与重新传递
- Redis(数据库)
- redo log(见 write-ahead log)
- Redpanda(消息系统), 消息代理, 设置新的副本
- 分层存储, 磁盘空间使用
- Redshift(数据库), 云数据仓库
- 冗余
- 硬件组件, 通过冗余容忍硬件故障
- 生成数据, 记录系统与派生数据
- (另见 衍生数据)
- Reed–Solomon codes (error correction), 分布式文件系统
- 重构, 可演化性:让变化更容易
- (另见 可演化性)
- (地理分布), 读己之写
- 区域(硬化), 分片
- 寄存器, 什么使系统具有线性一致性?
- regulation(见 legal matters)
- 关系数据模型, 从数据仓库到数据湖, 关系模型与文档模型-文档和关系数据库的融合
- 与文件模型的比较, 何时使用哪种模型-文档和关系数据库的融合
- graph queries in SQL, SQL 中的图查询
- 模拟数据库, 全内存存储
- 多对多对多的关系, 多对一与多对多关系
- 多对象事务, 需要, 多对象事务的需求
- 对象关系不匹配, 对象关系不匹配
- 代表可重排列表, 何时使用哪种模型
- 对文档模式
- 模式的趋同, 文档和关系数据库的融合
- 数据位置, 读写的数据局部性
- 关系数据库
- 最终一致性, 复制延迟的问题
- 历史, 关系模型与文档模型
- 基于领导者的复制, 单主复制
- 逻辑日志, 逻辑(基于行)日志复制
- 哲学比Unix, 分拆数据库, 一切的元数据库
- 方案变化, 文档模型中的模式灵活性, 编码与演化, 不同时间写入的不同值
- 硬化二级指数, 分片与二级索引
- 基于语句的复制, 基于语句的复制
- B树指数的使用, B 树
- relationships(见 edges)
- 可靠性, 可靠性与容错-人类与可靠性, 流式系统的哲学
- Remote Method Invocation (Java RMI), 远程过程调用(RPC)的问题
- remote procedure calls (RPCs), 远程过程调用(RPC)的问题-RPC 的数据编码与演化
- (另见 services)
- 数据编码和演化, RPC 的数据编码与演化
- 问题, 远程过程调用(RPC)的问题
- 使用 Avro, 但什么是写入者模式?
- 对信件经纪人, 事件驱动的架构
- 可再生能源, 分布式与单节点系统
- 可重复读(切换隔离), 快照隔离、可重复读和命名混淆
- 复制品, 单主复制
- 复制, 复制-总结, 术语表
- 持久性, 持久性
- 解决冲突, 冲突解决与复制
- 一致性属性, 复制延迟的问题-复制延迟的解决方案
- 在分布式文件系统中, 分布式文件系统
- 无主(无领导者), 无主复制-版本向量
- 监测停滞情况, 监控陈旧性
- 多领导者, 多主复制-处理写入冲突
- 使用原因, 分布式与单节点系统, 复制
- 硬化和, 分片
- 单人领导, 单主复制-逻辑(基于行)日志复制
- 故障切换, 领导者故障:故障转移
- 实施复制日志, 复制日志的实现-逻辑(基于行)日志复制
- 与协商一致的关系, 从单主复制到共识, 共识的利弊
- 设立新的追随者, 设置新的副本
- 同步对同步, 同步复制与异步复制-同步复制与异步复制
- 状态机复制, 基于语句的复制, 存储过程的利弊, 使用共享日志, 数据库与流
- 事件溯源, 事件溯源与 CQRS
- 依赖决定性因素, 确定性模拟测试
- 利用协商一致, 共识的利弊
- 使用擦除编码, 分布式文件系统
- 使用对象存储, 设置新的副本
- 相对备份, 复制
- 具有多样化数据系统, 保持系统同步
- replication logs(见 logs)
- representations of data(见 data models)
- 后处理数据, 应用演化后重新处理数据, 统一批处理和流处理
- (另见 可演化性)
- 从基于日志的信件, 重播旧消息
- 请求套期, 单主与无主复制的性能
- 请求标识符, 操作标识符, 多分区请求处理
- 请求路由, 请求路由-请求路由
- 方法, 请求路由
- 数据居住法, 分布式与单节点系统, 面向多租户的分片
- 弹性系统, 可靠性与容错
- (另见 fault tolerance)
- 资源隔离, 云计算与超级计算, 面向多租户的分片
- 资源限制, 云时代的运维
- 响应时间
- 作为业绩计量, 描述性能, 批处理
- 保证, 响应时间保证
- 对用户的影响, 平均值、中位数与百分位点
- 在复制系统中, 单主与无主复制的性能
- 暂时性与, 延迟与响应时间
- 平均值和百分位数, 平均值、中位数与百分位点
- 用户体验, 平均值、中位数与百分位点
- 责任和问责制, 责任与问责
- 表述性状态传递, Web 服务
- (另见 services)
- 重报(工作流程引擎), 持久化执行与工作流
- RethinkDB(数据库)
- 加入支持, 文档和关系数据库的融合
- 键程硬化, 按键的范围分片
- 重试风暴, 描述性能, 软件故障
- reverse ETL, 超越数据湖
- Riak(数据库)
- CRDT support, CRDT 与操作变换, 检测并发写入
- 点版向量, 版本向量
- 流言协议, 请求路由
- 散列变硬, 固定数量的分片
- 无领导复制, 无主复制
- 线性,缺少, 线性一致性与仲裁
- 多区域支助, 多地区操作
- 再平衡, 运维:自动/手动再平衡
- 二级指数, 本地二级索引
- 草率法定人数, 单主与无主复制的性能
- 节点(硬化), 分片
- 环缓冲器, 磁盘空间使用
- RisingWave(数据库)
- 增量视图维护, 维护物化视图
- 火箭弹, 拜占庭故障
- RocksDB (storage engine), 构建和合并 SSTable
- 退缩(事务), 事务
- 滚动升级, 通过冗余容忍硬件故障, 编码与演化, 故障与部分失效
- 在多种租户系统中, 面向多租户的分片
- routing(见 request routing)
- 基于行的复制, 逻辑(基于行)日志复制
- 面向行存储, 列式存储
- 抢劫犯(贪污), 硬件与软件故障
- RPCs(见 remote procedure calls)
- 规则(数据), Datalog:递归关系查询
- Rust(编程语言)
- 内存管理, 限制垃圾回收的影响
S
- S3(对象存储), 云服务的分层, 设置新的副本, 批处理, 分布式文件系统, 对象存储
- SaaS(见 软件即服务(SaaS))
- 安全和生活特性, 安全性与活性
- sagas(见 compensating transactions)
- Samza (流处理器), 流分析
- SAP HANA(数据库), 分析型数据存储
- 可伸缩性, 可伸缩性-可伸缩性原则, 流式系统的哲学
- 自动缩放, 运维:自动/手动再平衡
- 通过磨损, 分片的利与弊
- 描述负载, 描述负载
- 描述性能, 描述性能
- 线性, 描述负载
- 原则, 可伸缩性原则
- 复制和, 复制延迟的问题
- 扩大规模与扩大规模, 共享内存、共享磁盘与无共享架构
- 缩放, 共享内存、共享磁盘与无共享架构
- (另见 shared-nothing architecture)
- 通过磨损, 分片的利与弊
- 扩大规模, 共享内存、共享磁盘与无共享架构
- 缓慢变化的维度, 连接的时间依赖性
- 调度
- 阅读时的图谋, 文档模型中的模式灵活性
- 与可变方案比较, 模式的优点
- 拼写图, 文档模型中的模式灵活性
- schemaless databases(见 schema-on-read)
- 计划, 术语表
- Avro, Avro-动态生成的模式
- 读者决定作家的计划, 但什么是写入者模式?
- 计划演变, 写入者模式与读取者模式
- 动态生成, 动态生成的模式
- 变化, 应用演化后重新处理数据
- 影响应用程序代码, 编码与演化
- 兼容性检查, 但什么是写入者模式?
- 数据库中, 流经数据库的数据流-归档存储
- 服务电话, RPC 的数据编码与演化
- 文件模式的灵活性, 文档模型中的模式灵活性
- 用于分析, 星型与雪花型:分析模式-星型与雪花型:分析模式
- for JSON and XML, JSON、XML 及其二进制变体, JSON 模式
- generation and migration using ORMs, 对象关系映射(ORM)
- 案情, 模式的优点
- 迁移, 文档模型中的模式灵活性
- Protocol Buffers, Protocol Buffers-字段标签与模式演化
- 计划演变, 字段标签与模式演化
- 铁路移民计划, 应用演化后重新处理数据
- 传统的设计方法,谬误, 从同一事件日志中派生多个视图
- Avro, Avro-动态生成的模式
- 科学计算, 云计算与超级计算
- scikit-learn (Python 图书馆), 从数据仓库到数据湖
- ScyllaDB(数据库)
- 集群元数据, 请求路由
- consistency level ANY, 单主与无主复制的性能
- 散列变硬, 按键的哈希分片, 按哈希范围分片
- 最后写成的解决冲突, 检测并发写入
- 无领导复制, 无主复制
- 轻量事务, 单对象写入
- 线性,缺少, 实现线性一致性系统
- 日志结构存储, 构建和合并 SSTable
- 多区域支助, 多地区操作
- 使用时钟, 仲裁一致性的局限, 用于事件排序的时间戳
- 节点(硬化), 分片
- search engines(见 全文检索)
- 搜索流, 在流上搜索
- 备库(见 基于领导者的复制)
- 二级指数, 多列索引与二级索引, 术语表
- 二次排序, JOIN 与 GROUP BY
- sed (Unix 工具) (英语)., 简单日志分析
- 自我托管, 云服务与自托管
- 数据仓库, 云数据仓库
- 自我欢乐, 本章小结
- 自动验证系统, 不要盲目信任承诺
- 语义搜索, 向量嵌入
- 语义相似性, 向量嵌入
- 语义网, 三元组存储与 SPARQL
- 半同步复制, 同步复制与异步复制
- 顺序写(访问模式), 顺序与随机写入
- 可串行化, 隔离性, 弱隔离级别, 可串行化-可串行化快照隔离的性能, 术语表
- 线性比对, 什么使系统具有线性一致性?
- 悲观与乐观的并发控制, 悲观并发控制与乐观并发控制
- 序列执行, 实际串行执行-串行执行总结
- 分片, 分片
- 使用存储程序, 将事务封装在存储过程中, 使用共享日志
- 可串行化快照隔离, 可串行化快照隔离(SSI)-可串行化快照隔离的性能
- detecting stale MVCC reads, 检测陈旧的 MVCC 读取
- 检测影响先前读取的写入, 检测影响先前读取的写入
- 分布式执行, 可串行化快照隔离的性能, 数据库内部的分布式事务
- performance of SSI, 可串行化快照隔离的性能
- 防止写入skew, 基于过时前提的决策-检测影响先前读取的写入
- 严格的序列性, 什么使系统具有线性一致性?
- 及时性与完整性, 及时性与完整性
- 两阶段锁定, 两阶段锁定(2PL)-索引范围锁
- 可串行化, 特定语言的格式
- 序列化, 编码数据的格式
- (另见 编码)
- 无服务器, 微服务与无服务器
- 服务发现, 负载均衡器、服务发现和服务网格, 请求路由, 服务发现
- 登记, 负载均衡器、服务发现和服务网格
- using DNS, 负载均衡器、服务发现和服务网格, 请求路由, 服务发现
- 服务级别协议(SLA), 响应时间指标的应用, 描述负载
- 服务网格, 负载均衡器、服务发现和服务网格
- Service Organization Control (SOC), 数据系统、法律与社会
- 服务时间, 延迟与响应时间
- 面向服务的体系结构, 微服务与无服务器
- (另见 services)
- 服务, 流经服务的数据流:REST 与 RPC-RPC 的数据编码与演化
- 微服务, 微服务与无服务器
- 与批量/流程处理器的关系, 批处理, 流处理器和服务
- remote procedure calls (RPCs), 远程过程调用(RPC)的问题-RPC 的数据编码与演化
- 问题, 远程过程调用(RPC)的问题
- 与数据库相似, 流经服务的数据流:REST 与 RPC
- 网络服务, Web 服务
- 会话窗口(流处理), 窗口的类型
- (另见 windows)
- 分片, 分片-总结, 术语表
- 和共识, 使用共享日志
- 复制, 分片
- 分散事务, 分布式事务
- 热的软糖, 键值数据的分片
- 分批处理, 批处理
- 键程分割, 重新平衡键范围分片数据
- 多硬性操作, 多分区数据处理
- 关键值数据, 键值数据的分片-偏斜的工作负载与缓解热点
- 按密钥范围, 按键的范围分片
- 摇摆和热点, 偏斜的工作负载与缓解热点
- 词源, 分片
- 分区键, 分片的利与弊, 键值数据的分片
- 再平衡
- 密钥范围压缩数据, 重新平衡键范围分片数据
- 重新平衡困难, 重新平衡键范围分片数据-运维:自动/手动再平衡
- 自动或人工重新平衡, 运维:自动/手动再平衡
- Hash mod N的问题, 哈希取模节点数
- 使用固定的碎片数, 固定数量的分片
- 使用 N 个节点, 按哈希范围分片
- 请求路由, 请求路由-请求路由
- 二级指数, 分片与二级索引-全局二级索引
- 连续执行事务和, 分片
- 正在排序硬化数据, 混洗数据
- 共享日志, 共识的实践-共识的利弊, 全序的限制, 基于日志消息传递中的唯一性
- 共享模式, 两阶段锁定的实现
- 共享磁盘架构, 共享内存、共享磁盘与无共享架构, 分布式文件系统
- 共享内存架构, 共享内存、共享磁盘与无共享架构
- 共享- 无结构, 共享内存、共享磁盘与无共享架构, 术语表
- 鲨鱼
- shredding (deletion)(见 crypto-shredding)
- 粉碎(专栏编码), 列式存储
- 粉碎(相关模型), 何时使用哪种模型
- 混洗, 混洗数据-混洗数据
- 兄弟, 手动冲突解决, 捕获先发生关系, 冲突解决与复制
- (另见 conflicts)
- 仓, 数据仓库
- 相似性搜索
- 简单, 简单性:管理复杂度
- 歌手, 数据仓库
- single-instruction-multi-data (SIMD) instructions, 查询执行:编译与向量化
- single-leader replication(见 基于领导者的复制)
- 单条执行, 原子写操作, 实际串行执行
- 在溪流处理中, 日志与传统的消息传递相比, 并发控制, 基于日志消息传递中的唯一性
- SingleStore(数据库)
- 内存储, 全内存存储
- 工地可靠性工程师, 云时代的运维
- 大小级紧凑, 压实策略, 磁盘空间使用
- 偏斜, 术语表
- 时钟摇摆, 对同步时钟的依赖-带置信区间的时钟读数, 实现线性一致性系统
- 事务隔离
- 含义, 快照隔离与可重复读
- 不平衡的工作量, 键值数据的分片
- 补偿, 偏斜的工作负载与缓解热点
- 由于名人, 偏斜的工作负载与缓解热点
- 时间序列数据, 按键的范围分片
- 跳过列表, 构建和合并 SSTable
- 服务级别协议(见 服务级别协议)
- Slack(分组聊天)
- GraphQL example, GraphQL
- SlateDB(数据库), 构建和合并 SSTable, 设置新的副本
- 滑动窗口(流处理), 窗口的类型
- (另见 windows)
- 草率法定人数, 单主与无主复制的性能
- 缓慢变化的维度, 连接的时间依赖性
- 涂抹(倾斜秒调整), 时钟同步和准确性
- 快照(数据库)
- 作为备份, 复制
- 计算衍生数据, 创建索引
- 变化数据捕获中, 初始快照
- 可串行化快照隔离, 可串行化快照隔离(SSI)-可串行化快照隔离的性能
- 新建复制品, 设置新的副本
- 快速隔离和可重复读取, 快照隔离与可重复读-快照隔离、可重复读和命名混淆
- implementing with MVCC, 多版本并发控制(MVCC)
- indexes and MVCC, 索引与快照隔离
- 可见度规则, 观察一致快照的可见性规则
- 全球快照同步时钟, 用于全局快照的同步时钟
- Snowflake(数据库), 云原生系统架构, 云服务的分层, 云数据仓库, 批处理
- Snowflake (ID generator), ID 生成器和逻辑时钟
- 雪花计划, 星型与雪花型:分析模式
- SOAP (web services), 远程过程调用(RPC)的问题
- SOC2(见 Service Organization Control (SOC))
- 社会图表, 图数据模型
- 社会
- 的责任, 数据系统、法律与社会, 立法与自律
- 社会技术系统, 人类与可靠性
- 软件即服务(SaaS), 数据系统架构中的权衡, 云服务与自托管
- 软件错误, 软件故障
- 维护诚信, 维护完整性,尽管软件有Bug
- 太阳风暴, 硬件与软件故障
- solid state drives (SSDs)
- Solr (搜索服务器)
- 排序(Unix 工具), 简单日志分析, 简单日志分析, 排序与内存聚合, 分布式作业编排
- 排序归并连接(MapReduce), JOIN 与 GROUP BY
- Sorted String Tables(见 SSTables)
- 排序
- 列存储中的排序顺序, 列存储中的排序顺序
- 真相来源(权威数据源)(见 systems of record)
- Spanner(数据库)
- 一致性模式, 什么使系统具有线性一致性?
- 数据位置, 读写的数据局部性
- 在云层中, 云原生系统架构
- 使用时钟快照隔离, 用于全局快照的同步时钟
- 事务, 事务到底是什么?, 数据库内部的分布式事务
- TrueTime API, 带置信区间的时钟读数
- Spark(处理框架), 从数据仓库到数据湖, 云原生系统架构, 批处理, 数据流引擎
- SPARQL(查询语言), SPARQL 查询语言
- 零星指数, SSTable 文件格式
- 稀疏矩阵, 数据框、矩阵与数组
- 脑裂, 领导者故障:故障转移, 请求路由, 术语表
- 执行限制, 唯一性约束需要达成共识
- 在共识算法中, 共识, 从单主复制到共识
- 预防, 实现线性一致性系统
- 使用栅栏标志来避免, 隔离僵尸进程和延迟请求-多副本隔离
- 现场实例, 故障处理
- 电子表格, 数据系统架构中的权衡, 数据框、矩阵与数组
- SQL (Structured Query Language), 简单性:管理复杂度, 关系模型与文档模型, 云数据仓库
- 用于分析, 数据仓库, 列式存储
- 图表查询, SQL 中的图查询
- 隔离级别标准,问题, 快照隔离、可重复读和命名混淆
- 加入, 规范化、反规范化与连接
- 简历(例), 用于一对多关系的文档数据模型
- 社会网络家庭时间表(例), 表示用户、帖子与关注关系
- SQL injection vulnerability, 拜占庭故障
- 基于语句的复制, 基于语句的复制
- 存储程序, 存储过程的利弊
- 批次处理框架中的支持, 批处理
- 视图, Datalog:递归关系查询
- SQL Server(数据库)
- SQLite(数据库), 分布式系统的问题, 压实策略
- archiving WAL to object stores, 设置新的副本
- SRE (site reliability engineer), 云时代的运维
- SSDs(见 solid state drives)
- SSTables (storage format), SSTable 文件格式-压实策略
- 建造和维护, 构建和合并 SSTable
- making LSM-Tree from, 构建和合并 SSTable
- 阶段发布(见 rolling upgrades)
- 停滞(旧数据), 读己之写
- 跨渠道时间依赖性, 跨通道时序依赖
- 无头数据库中, 当节点故障时写入数据库
- 多转换并发控制, 检测陈旧的 MVCC 读取
- 监测, 监控陈旧性
- 客户端状态, 将状态变更推送给客户端
- 相对线性, 线性一致性
- 相对于及时性, 及时性与完整性
- standbys(见 基于领导者的复制)
- 恒星复制地形, 多主复制拓扑
- 恒星计划, 星型与雪花型:分析模式-星型与雪花型:分析模式
- 星球大战类比(事件时间与处理时间), 事件时间与处理时间
- 饥饿(时间安排), 资源分配
- 国家
- 从不可改变事件日志中得出, 状态、流和不变性
- 状态变化与应用程序代码之间的相互作用, 数据流:应用代码与状态变化的交互
- 保持衍生状态, 维护派生状态
- 由流处理器在流-流连接中维护, 流流连接(窗口连接)
- 观察导出状态, 观察派生数据状态-多分区数据处理
- 流处理器失败后重建, 失败后重建状态
- 应用代码和, 应用代码和状态的分离
- 状态机复制, 基于语句的复制, 存储过程的利弊, 使用共享日志, 数据库与流
- 事件溯源, 事件溯源与 CQRS
- 依赖决定性因素, 确定性模拟测试
- 无国籍人制度, 数据系统架构中的权衡
- 基于语句的复制, 基于语句的复制
- 依赖决定性因素, 确定性模拟测试
- 静态输入语言
- 类比于图案, 文档模型中的模式灵活性
- 统计和数字算法, 数据框、矩阵与数组
- StatsD (metrics aggregator), 直接从生产者传递给消费者
- 股票市场饲料, 直接从生产者传递给消费者
- 爆彼之头, 领导者故障:故障转移
- 问题, 隔离僵尸进程和延迟请求
- 停止所有处理(见 garbage collection)
- 存储
- 构建数据存储技术, 组合使用数据存储技术-分拆系统与集成系统
- 存储区网络, 共享内存、共享磁盘与无共享架构, 分布式文件系统
- 存储引擎, 存储与检索-总结
- 存储程序, 将事务封装在存储过程中-存储过程的利弊, 术语表
- 和共享日志, 使用共享日志
- 利弊因素, 存储过程的利弊
- 类似于流处理器, 应用代码作为派生函数
- 风暴(流处理器), 流分析
- distributed RPC, 事件驱动架构与 RPC, 多分区数据处理
- 三叉戟状态处理, 幂等性
- 斜拉机事件, 处理滞留事件
- Stream Control Transmission Protocol (SCTP), TCP 的局限性
- 流处理, 流处理-本章小结, 术语表
- 在工作范围内获得外部服务, 流表连接(流扩充), 微批次与存档点, 幂等性, 恰好执行一次操作
- 与批量处理相结合, 统一批处理和流处理
- 与批量处理的比较, 流处理
- 复合事件处理, 复合事件处理
- 过失容忍, 容错-失败后重建状态
- 数据整合, 批处理与流处理-统一批处理和流处理
- 用于事件源代码, 事件溯源与 CQRS
- 保持衍生状态, 维护派生状态
- 维持实际意见, 维护物化视图
- messaging systems(见 messaging systems)
- 关于时间的推理, 时间推理-窗口的类型
- relation to databases(见 streams)
- 与服务的关系, 流处理器和服务
- 与批次处理的关系, 批处理
- 在流中搜索, 在流上搜索
- 单条执行, 日志与传统的消息传递相比, 并发控制
- 流式分析, 流分析
- 串流连接, 流连接-连接的时间依赖性
- 串流流连接, 流流连接(窗口连接)
- 串行表连接, 流表连接(流扩充)
- 表格连接, 表表连接(维护物化视图)
- 时间的依赖性, 连接的时间依赖性
- 流程, 流处理-重播旧消息
- 端对端,向客户推进事件, 端到端的事件流
- messaging systems(见 messaging systems)
- processing(见 流处理)
- 与数据库的关系, 数据库与流-不变性的局限性
- (另见 changelogs)
- 变更流的 API 支持, 变更流的 API 支持
- 数据变更捕获, 数据变更捕获-变更流的 API 支持
- 按时间分列的状态衍生物, 状态、流和不变性
- 事件溯源, 数据变更捕获与事件溯源
- 保持系统同步, 保持系统同步-保持系统同步
- 不可改变事件哲学, 状态、流和不变性-不变性的局限性
- 专题, 传递事件流
- 严格的序列性, 什么使系统具有线性一致性?
- 及时性与完整性, 及时性与完整性
- 条纹(列编码), 列式存储
- 强一致性(见 线性一致性)
- 最终的一致性, 自动冲突解决
- 强烈的单份序列性, 什么使系统具有线性一致性?
- 主题、上游和物体(三层), 三元组存储与 SPARQL
- 订阅者, 传递事件流
- (另见 consumers)
- 超级计算机, 云计算与超级计算
- Superset(数据可视化软件), 分析(Analytics)
- 监视, 监视
- (另见 隐私)
- 寿司原则, 从数据仓库到数据湖
- 可持续性, 分布式与单节点系统
- Swagger(服务定义格式), Web 服务
- swapping to disk(见 virtual memory)
- Swift(编程语言)
- 内存管理, 限制垃圾回收的影响
- 同步引擎, 同步引擎与本地优先软件-同步引擎的利弊
- 实例, 同步引擎的利弊
- 用于本地第一软件, 实时协作、离线优先和本地优先应用
- 同步网络, 同步与异步网络, 术语表
- 同步复制, 同步复制与异步复制, 术语表
- 有多个领导, 多主复制
- 系统管理员, 云时代的运维
- 系统模型, 知识、真相和谎言, 系统模型与现实-确定性模拟测试
- 假设, 信任但验证
- 算法的正确性, 定义算法的正确性
- 绘制真实世界的地图, 将系统模型映射到现实世界
- 安全和生活, 安全性与活性
- 记录系统, 记录系统与派生数据, 术语表
- 数据变更捕获, 数据变更捕获的实现, 理解数据流
- 事件日志, 事件溯源与 CQRS
- 事件日志处理为, 状态、流和不变性
- 系统思维, 反馈回路
T
- t- digest(算法), 响应时间指标的应用
- 表格连接, 表表连接(维护物化视图)
- Tableau(数据可视化软件), 事务处理与分析的特征, 分析(Analytics)
- 尾巴 (Unix 工具), 使用日志进行消息存储
- tail latency(见 延迟)
- 尾顶(财产图), 属性图
- task (workflows)(见 workflow engines)
- TCP (Transmission Control Protocol), TCP 的局限性
- 时间(工作流程引擎), 持久化执行与工作流
- Tensorflow (机器学习图书馆), 机器学习
- Teradata(数据库), 云原生系统架构, 云数据仓库
- term-partitioned indexes(见 global secondary indexes)
- 终止(协商一致), 单值共识, 原子提交作为共识
- 测试, 人类与可靠性
- 击打(内存断), 进程暂停
- 线程(并发)
- Actor 模型, 分布式 actor 框架, 事件驱动架构与 RPC
- (另见 event-driven architecture)
- 原子操作, 原子性
- 背景线程, 构建和合并 SSTable
- 执行暂停, 我们不能简单地使网络延迟可预测吗?, 进程暂停-进程暂停
- 内存障碍, 线性一致性与网络延迟
- 预设, 进程暂停
- single(见 single-threaded execution)
- Actor 模型, 分布式 actor 框架, 事件驱动架构与 RPC
- 三阶段承诺, 三阶段提交
- 三方关系, 属性图
- Thrift(数据格式), Protocol Buffers
- 吞吐量, 描述性能, 描述负载, 批处理
- TIBCO, 消息代理
- Enterprise Message Service, 消息代理与数据库的对比
- StreamBase (stream analytics), 复合事件处理
- TiDB(数据库)
- 基于共识的复制, 单主复制
- 区域(硬化), 分片
- 请求路由, 请求路由
- 服务衍生数据, 对外提供派生数据
- 硬化二级指数, 全局二级索引
- 快速隔离支持, 快照隔离与可重复读
- 时间戳, 实现线性一致的 ID 生成器
- 事务, 事务到底是什么?, 数据库内部的分布式事务
- 使用模型检查, 模型检查与规范语言
- 分层存储, 设置新的副本, 磁盘空间使用
- TigerBeetle(数据库), 总结
- 确定性模拟测试, 确定性模拟测试
- TigerGraph(数据库)
- GSQL language, SQL 中的图查询
- Tigris(对象存储), 分布式文件系统
- TileDB(数据库), 数据框、矩阵与数组
- 时间
- 时间序列数据
- 每日时钟, 日历时钟
- 混合逻辑时钟, 混合逻辑时钟
- 及时性, 及时性与完整性
- 超时, 不可靠的网络, 术语表
- 动态配置, 网络拥塞和排队
- 失败, 领导者故障:故障转移
- 长度, 超时和无界延迟
- TimescaleDB(数据库), 列式存储
- 时间戳, 逻辑时钟
- 指定流处理中的事件, 你用的是谁的时钟?
- 读后写入一致性, 读己之写
- 用于事务命令, 用于全局快照的同步时钟
- 执行制约因素不足, 使用逻辑时钟强制约束
- 密钥范围, 按键的范围分片
- 兰波特, Lamport 时间戳
- 逻辑, 排序事件以捕获因果关系
- 命令事件, 用于事件排序的时间戳
- 时间戳, 实现线性一致的 ID 生成器
- TLA+ (specification language), 模型检查与规范语言
- 符号桶(限制重试), 描述性能
- 墓碑, 构建和合并 SSTable, 磁盘空间使用, 日志压缩
- 专题(信息), 消息代理, 传递事件流
- 撕裂的页面(B- 树), 使 B 树可靠
- 全序, 术语表
- 追踪, 分布式系统的问题
- 跟踪行为数据, 隐私与追踪
- (另见 隐私)
- 权衡, 数据系统架构中的权衡-数据系统、法律与社会
- transaction coordinator(见 协调者)
- transaction manager(见 协调者)
- 事务处理, 事务处理与分析的特征-事务处理与分析的特征
- 与分析的比较, 事务处理与分析的特征
- 与数据存储的比较, 分析型数据存储
- 事务, 事务-总结, 术语表
- ACID properties of, ACID 的含义
- 数据完整性, 及时性与完整性
- 复制, 复制延迟的解决方案
- compensating(见 compensating transactions)
- 概念, 事务到底是什么?
- 分布式事务, 分布式事务-再谈恰好一次消息处理
- 避开, 派生数据与分布式事务, 开展分拆工作, 强制约束-无协调数据系统
- 失败放大, 维护派生状态
- 已磨损的系统, 分片的利与弊
- 可疑/不确定状况, 协调器故障, 存疑时持有锁
- 两阶段提交, 两阶段提交(2PC)-三阶段提交
- 使用, 跨不同系统的分布式事务-恰好一次消息处理
- XA 事务, XA 事务-XA 事务的问题
- OLTP versus analytics queries, 分析(Analytics)
- 目标, 事务
- 可串行化, 可串行化-可串行化快照隔离的性能
- 实际执行, 实际串行执行-串行执行总结
- 悲观与乐观的并发控制, 悲观并发控制与乐观并发控制
- 可串行化快照隔离, 可串行化快照隔离(SSI)-可串行化快照隔离的性能
- 两阶段锁定, 两阶段锁定(2PL)-索引范围锁
- 单对象和多对象, 单对象与多对象操作-处理错误和中止
- 快照隔离(见 snapshots)
- 严格的序列性, 什么使系统具有线性一致性?
- 薄弱的隔离水平, 弱隔离级别-物化冲突
- 曲线(图), 属性图
- 三(数据结构), 构建和合并 SSTable, 全文检索
- as SSTable index, SSTable 文件格式
- 触发器(数据库), 传递事件流
- Trino(数据仓库), 云数据仓库
- 联邦数据库, 一切的元数据库
- 查询优化器, 查询语言
- 用于 ETL, 提取-转换-加载(ETL)
- 工作流程示例, 工作流调度
- 三层, 三元组存储与 SPARQL-SPARQL 查询语言
- SPARQL 查询语言, SPARQL 查询语言
- 翻转窗口(流处理), 窗口的类型
- (另见 windows)
- 在微战斗中, 微批次与存档点
- Turbopuffer(种子搜索) Name, 设置新的副本
- Turtle (RDF data format), 三元组存储与 SPARQL
- Twitter(见 X (social network))
- 两阶段提交, 两阶段提交(2PC)-协调器故障, 术语表
- 与双相锁定混淆, 两阶段锁定(2PL)
- 协调员失败, 协调器故障
- 协调员恢复, 从协调器故障中恢复
- 如何运作, 系统性的承诺
- 绩效成本, 跨不同系统的分布式事务
- problems with XA transactions, XA 事务的问题
- 持有锁定的事务, 存疑时持有锁
- 两阶段锁定, 两阶段锁定(2PL)-索引范围锁, 什么使系统具有线性一致性?, 术语表
- 与两阶段提交混淆, 两阶段锁定(2PL)
- 增长和缩小阶段, 两阶段锁定的实现
- 索引范围锁定, 索引范围锁
- 业绩, 两阶段锁定的性能
- 类型检查,动态对静态, 文档模型中的模式灵活性
U
- UDP (User Datagram Protocol)
- comparison to TCP, 网络拥塞和排队
- 多广播, 直接从生产者传递给消费者
- 终极在线(游戏), 分片
- 未绑定的数据集, 流处理, 术语表
- (另见 streams)
- 无限制的延误, 术语表
- 解析数据库, 分拆数据库-多分区数据处理
- 构建数据存储技术, 组合使用数据存储技术-分拆系统与集成系统
- 联邦制与拆分制, 一切的元数据库
- 围绕数据流设计应用程序, 围绕数据流设计应用-流处理器和服务
- 观察导出状态, 观察派生数据状态-多分区数据处理
- 实现视图和缓存, 物化视图和缓存
- 多硬数据处理, 多分区数据处理
- 推动客户端更改状态, 将状态变更推送给客户端
- 构建数据存储技术, 组合使用数据存储技术-分拆系统与集成系统
- uncertain (transaction status)(见 存疑)
- 联盟类型(在 Avro), 模式演化规则
- uniq(Unix 工具), 简单日志分析, 简单日志分析, 分布式作业编排
- 独特性限制
- 同步检查, 宽松地解释约束
- 需要协商一致, 唯一性约束需要达成共识
- 需要线性, 约束与唯一性保证
- 以日志为基础的信件中的独特性, 基于日志消息传递中的唯一性
- 团结(数据目录), 云数据仓库
- universally unique identifiers(见 UUIDs)
- unix 哲学
- unix 管道, 简单日志分析
- 与分布式批量处理相比, 工作流调度
- UPDATE statement (SQL), 文档模型中的模式灵活性
- 更新
- 使用量
- 批量过程调度, 资源分配
- 通过预设增加, 故障处理
- 与暂时取舍, 我们不能简单地使网络延迟可预测吗?
- uTP protocol (BitTorrent), TCP 的局限性
- UUIDs, ID 生成器和逻辑时钟
V
- 有效性(协商一致), 单值共识, 原子提交作为共识
- vBuckets(硬化), 分片
- 矢量时钟, 版本向量
- (另见 版本向量)
- 和 Lamport/hybrid 逻辑钟, Lamport/混合逻辑时钟 vs. 向量时钟
- 和版本向量, 版本向量
- 向量嵌入, 向量嵌入
- 矢量处理, 查询执行:编译与向量化
- 供应商锁定, 云服务的利弊
- Venice(数据库), 对外提供派生数据
- 核查, 信任但验证-用于可审计数据系统的工具
- 避免盲目信任, 不要盲目信任承诺
- 设计可审计性, 为可审计性而设计
- 端对端完整性检查, 端到端原则重现
- 可审计数据系统工具, 用于可审计数据系统的工具
- 版本控制系统
- 版本向量, 不同拓扑的问题, 版本向量
- Vertica(数据库), 云数据仓库
- 处理写入, 写入列式存储
- vertical scaling(见 scaling up)
- 顶点(图), 图数据模型
- 属性图模型, 属性图
- 电子游戏, 同步引擎的利弊
- 视频转码(例如), 跨通道时序依赖
- views (SQL queries), Datalog:递归关系查询
- materialized views(见 物化)
- 视图戳复制, 共识, 共识的实践
- 虚拟块设备, 存储与计算的分离
- 虚拟文件系统, 分布式文件系统
- 比较分布式文件系统, 分布式文件系统
- 虚拟机, 云服务的分层
- 虚拟内存
- Virtuoso(数据库), SPARQL 查询语言
- VisiCalc (spreadsheets), 围绕数据流设计应用
- Vitess(数据库)
- 键程硬化, 按键的范围分片
- 节点(硬化), 分片
- 词汇, 三元组存储与 SPARQL
- Voice over IP (VoIP), 网络拥塞和排队
- VoltDB(数据库)
W
- 预写式日志, 使 B 树可靠
- WAL-G (backup tool), 设置新的副本
- WarpStream(消息系统), 磁盘空间使用
- web services(见 services)
- 网络用户, 直接从生产者传递给消费者
- 网络方法(通讯), 消息代理
- WebSocket (protocol), 将状态变更推送给客户端
- 宽柱数据模型, 读写的数据局部性
- 相对于面向列的存储, 列压缩
- 窗口(流程处理), 流分析, 时间推理-窗口的类型
- 更改日志的无限窗口, 维护物化视图, 流表连接(流扩充)
- 知道所有事件何时到来, 处理滞留事件
- 串流在窗口内连接, 流流连接(窗口连接)
- 窗口类型, 窗口的类型
- WITH RECURSIVE syntax (SQL), SQL 中的图查询
- Word2Vec (language model), 向量嵌入
- 工作流程引擎, 持久化执行与工作流
- Airflow(见 Airflow(工作流调度器))
- 批处理, 工作流调度
- Camunda(见 Camunda (workflow engine))
- Dagster(见 Dagster(工作流调度器))
- 持久执行, 持久化执行与工作流
- 提取-转换-加载(ETL)(见 ETL)
- 执行器, 持久化执行与工作流
- 乐团, 持久化执行与工作流, 批处理
- Orkes(见 Orkes (workflow engine))
- Prefect(见 Prefect(工作流调度器))
- 依赖决定性因素, 确定性模拟测试
- Restate(见 Restate (workflow engine))
- Temporal(见 Temporal (workflow engine))
- 工作设置, 排序与内存聚合
- 写入放大, 写放大
- 写路径, 观察派生数据状态
- 写偏差, 写偏差与幻读-物化冲突
- 预写式日志, 使 B 树可靠, 预写日志(WAL)传输
- 持久执行, 持久化执行
- 写入(数据库)
- 原子写入操作, 原子写操作
- 检测影响前读的写入, 检测影响先前读取的写入
- 防止污秽的写作,, 没有脏写
- WS-* framework, 远程过程调用(RPC)的问题
- WS-AtomicTransaction (2PC), 两阶段提交(2PC)
X
- X (社会网络)
- 建造住房时间表(例如), 案例研究:社交网络首页时间线, 从同一事件日志中派生多个视图, 表表连接(维护物化视图), 物化视图和缓存
- 加入费用, 社交网络案例研究中的反规范化
- 描述负载, 描述负载
- 过失容忍, 容错
- 业绩计量, 描述性能
- DistributedLog (event log), 使用日志进行消息存储
- Snowflake (ID generator), ID 生成器和逻辑时钟
- 建造住房时间表(例如), 案例研究:社交网络首页时间线, 从同一事件日志中派生多个视图, 表表连接(维护物化视图), 物化视图和缓存
- XA 事务, 两阶段提交(2PC), XA 事务-XA 事务的问题
- xargs (Unix 工具) (英语)., 简单日志分析
- XFS (file system), 分布式文件系统
- XGBoost (machine learning library), 机器学习
- XML
- 二进制变体, 二进制编码
- 数据位置, 读写的数据局部性
- encoding RDF data, RDF 数据模型
- 应用数据的问题, JSON、XML 及其二进制变体
- 关系数据库, 文档模型中的模式灵活性
- XML databases, 关系模型与文档模型, 文档的查询语言
- Xorq(查询引擎), 一切的元数据库
- XPath, 文档的查询语言
- XQuery, 文档的查询语言
Y
- 亚虎
- 响应时间研究, 平均值、中位数与百分位点
- YARN (job scheduler), 分布式作业编排, 应用代码和状态的分离
- ApplicationMaster, 分布式作业编排
- Yjs (CRDT library), 同步引擎的利弊
- YugabyteDB(数据库)
- 散列变硬, 按哈希范围分片
- 键程硬化, 按键的范围分片
- 多领导复制, 跨地域运行
- 请求路由, 请求路由
- 硬化二级指数, 全局二级索引
- 平板(硬化), 分片
- 事务, 事务到底是什么?, 数据库内部的分布式事务
- 使用时钟同步, 用于全局快照的同步时钟
Z
- Zab(协商一致算法), 共识, 共识的实践
- use in ZooKeeper, 实现线性一致性系统
- 零拷贝, 编码数据的格式
- zero-disk architecture (ZDA), 设置新的副本
- ZeroMQ (messaging library), 直接从生产者传递给消费者
- 僵尸(分裂的大脑), 隔离僵尸进程和延迟请求
- zones (cloud computing)(见 availability zones)
- ZooKeeper (coordination service), 协调服务-服务发现
- 生成栅栏标志, 隔离僵尸进程和延迟请求, 使用共享日志, 协调服务
- 线性操作, 实现线性一致性系统
- 锁和领袖选举, 锁定与领导者选举
- 观察员, 服务发现
- 用于服务发现, 负载均衡器、服务发现和服务网格, 服务发现
- 用于硬性转让, 请求路由
- 使用 Zab 算法, 共识
最后更新于