索引

3FS（分布式文件系统）, 分布式文件系统

中止（事务）, 事务, 原子性
- 级联, 没有脏读
- 在两阶段提交中, 两阶段提交（2PC）
- 乐观并发控制的性能, 可串行化快照隔离的性能
- 重试已中止的事务, 处理错误和中止
抽象, 云服务的分层, 简单性：管理复杂度, 数据模型与查询语言, 事务, 总结
意外复杂性, 简单性：管理复杂度
问责制, 责任与问责
会计（财务数据）, 总结, 不可变事件的优点
Accumulo（数据库）
- 宽柱数据模型, 读写的数据局部性, 列压缩
ACID 属性（事务）, ACID 的含义
- 原子性, 原子性, 单对象与多对象操作
- 一致性, 一致性, 维护完整性，尽管软件有Bug
- 持久性, 使 B 树可靠, 持久性
- 隔离性, 隔离性, 单对象与多对象操作
确认（消息）, 确认与重新传递
active/active replication（见 multi-leader replication）
active/passive replication（见基于领导者的复制）
ActiveMQ（消息系统）, 消息代理, 消息代理与数据库的对比
- 分布式事务支持, XA 事务
ActiveRecord（对象关系映射器）, 对象关系映射（ORM）, 处理错误和中止
activity (workflows)（见 workflow engines）
Actor 模型, 分布式 actor 框架
- （另见 event-driven architecture）
- 与流处理的比较, 事件驱动架构与 RPC
自适应容量, 偏斜的工作负载与缓解热点
Advanced Message Queuing Protocol（见 AMQP）
航空航天系统, 拜占庭故障
Aerospike（数据库）
- 强一致性模式, 单对象写入
AGE（图数据库）, Cypher 查询语言
汇总
- 数据立方体和已实现视图, 物化视图与数据立方体
- 分批处理, 排序与内存聚合
- 流程中, 流分析
聚合管道（MongoDB）, 规范化、反规范化与连接, 文档的查询语言
敏捷, 可演化性：让变化更容易
- 最小化不可逆性, 批处理, 应用演化后重新处理数据
- 充满自信地快速前进, 端到端原则重现
一致意见, 单值共识, 原子提交作为共识
- （另见共识）
AI (artificial intelligence)（见 machine learning）
AI Act (European Union), 数据系统、法律与社会
Airbyte, 数据仓库
Airflow（工作流调度器）, 持久化执行与工作流, 批处理, 工作流调度
- 云数据仓集成, 查询语言
- 用于 ETL, 提取-转换-加载（ETL）
阿卡迈
- 响应时间研究, 平均值、中位数与百分位点
算法
- 算法正确性, 定义算法的正确性
- B树, B 树-B 树变体
- 分布式系统, 系统模型与现实
- 归并排序, 构建和合并 SSTable, 混洗数据
- 调度, 资源分配
- SSTable 与 LSM 树, SSTable 文件格式-压实策略
全互联复制拓扑, 多主复制拓扑
AllegroGraph（数据库）, 图数据模型
- SPARQL 查询语言, SPARQL 查询语言
ALTER TABLE 语句（SQL）, 文档模型中的模式灵活性, 编码与演化
亚马逊
- Dynamo（见 Dynamo（数据库））
- 响应时间研究, 平均值、中位数与百分位点
Amazon Web Services (AWS)
- Aurora（见 Aurora（云数据库））
- ClockBound（见 ClockBound（时间同步））
- 正确性测试, 形式化方法和随机测试
- DynamoDB（见 DynamoDB（数据库））
- EBS（见 EBS（虚拟块设备））
- Kinesis（见 Kinesis（消息系统））
- Neptune（见 Neptune（图数据库））
- 网络可靠性, 实践中的网络故障
- S3（见 S3（对象存储））
放大
- 偏见, 偏见与歧视
- 故障, 维护派生状态
- 尾延迟, 响应时间指标的应用, 本地二级索引
- 写入放大, 写放大
AMQP（高级消息队列协议）, 消息代理与数据库的对比
- （另见 messaging systems）
- 比较基于日志的邮件, 日志与传统的消息传递相比, 重播旧消息
- 消息顺序, 确认与重新传递
分析系统, 分析型与事务型系统
- 作为衍生数据系统, 记录系统与派生数据
- 来自运营系统的 ETL, 数据仓库
- 治理, 超越数据湖
分析, 分析型与事务型系统-记录系统与派生数据
- 与事务处理的比较, 事务处理与分析的特征
- 数据正常化, 规范化的权衡
- data warehousing（见 data warehousing）
- predictive（见 predictive analytics）
- 与批量处理的关系, 分析（Analytics）-分析（Analytics）
- 计划, 星型与雪花型：分析模式-星型与雪花型：分析模式
- 快速隔离查询, 快照隔离与可重复读
- 流式分析, 流分析
分析工程, 分析型与事务型系统
反熵, 追赶错过的写入
Antithesis（确定性仿真测试）, 确定性模拟测试
Apache Accumulo（见 Accumulo）
Apache ActiveMQ（见 ActiveMQ）
Apache AGE（见 AGE）
Apache Arrow（见 Arrow（数据格式））
Apache Avro（见 Avro）
Apache Beam（见 Beam）
Apache BookKeeper（见 BookKeeper）
Apache Cassandra（见 Cassandra）
Apache Curator（见 Curator）
Apache DataFusion（见 DataFusion（查询引擎））
Apache Druid（见 Druid（数据库））
Apache Flink（见 Flink（处理框架））
Apache HBase（见 HBase）
Apache Iceberg（见 Iceberg（表格式））
Apache Jena（见 Jena）
Apache Kafka（见 Kafka）
Apache Lucene（见 Lucene）
Apache Oozie（见 Oozie（工作流调度器））
Apache ORC（见 ORC（数据格式））
Apache Parquet（见 Parquet（数据格式））
Apache Pig（查询语言）, 查询语言
Apache Pinot（见 Pinot（数据库））
Apache Pulsar（见 Pulsar）
Apache Qpid（见 Qpid）
Apache Samza（见 Samza）
Apache Solr（见 Solr）
Apache Spark（见 Spark；见 Spark（处理框架））
Apache Storm（见 Storm）
Apache Superset（见 Superset（数据可视化软件））
Apache Thrift（见 Thrift）
Apache ZooKeeper（见 ZooKeeper）
Apama （流式分析）, 复合事件处理
append-only files（见 logs）
Application Programming Interfaces (APIs), 数据模型与查询语言
- 用于改变流, 变更流的 API 支持
- 分布式事务, XA 事务
- 服务费用, 流经服务的数据流：REST 与 RPC-RPC 的数据编码与演化
  - （另见 services）
  - 可演化性, RPC 的数据编码与演化
  - RESTful, Web 服务
application state（见国家）
approximate search（见 similarity search）
档案储存、数据库数据, 归档存储
arcs（见 edges）
ArcticDB（数据库）, 数据框、矩阵与数组
算术平均值, 平均值、中位数与百分位点
数组
- 数组数据库, 数据框、矩阵与数组
- 多层面, 数据框、矩阵与数组
Arrow（数据格式）, 列式存储, DataFrames
artificial intelligence（见 machine learning）
ASCII text, Protocol Buffers
ASN.1 (schema language), 模式的优点
关联表格, 多对一与多对多关系, 属性图
同步网络, 不可靠的网络, 术语表
- 比较同步网络, 同步与异步网络
- 系统模型, 系统模型与现实
同步复制, 同步复制与异步复制, 术语表
- 故障数据损失, 领导者故障：故障转移
- 从同步跟踪器读取, 复制延迟的问题
- 有多个领导, 多主复制
异步传输模式, 我们不能简单地使网络延迟可预测吗？
原子广播, 共享日志作为共识
原子钟, 带置信区间的时钟读数, 用于全局快照的同步时钟
- （另见 clocks）
原子性, 术语表
- 原子自增, 单对象写入
- 比较和设置, 条件写入（比较并设置）, 什么使系统具有线性一致性？
  - （另见比较和设置）
- 异常数据, 规范化的权衡
- 获取和添加/递增, ID 生成器和逻辑时钟, 共识, 获取并增加作为共识
- 写入操作, 原子写操作
原子性, 原子性, 单对象与多对象操作, 术语表
- 原子提交
  - 避开, 多分区请求处理, 无协调数据系统
  - 屏蔽和非屏蔽, 三阶段提交
  - 在溪流处理中, 恰好一次消息处理, 再谈恰好一次消息处理, 原子提交再现
  - 维护衍生数据, 保持系统同步
- 分布式事务, 分布式事务-再谈恰好一次消息处理
- 用于多对象事务, 单对象与多对象操作
- 用于单对象写入, 单对象写入
- 与协商一致的关系, 原子提交作为共识
可审计性, 信任但验证-用于可审计数据系统的工具
- 设计, 为可审计性而设计
- 自动审计系统, 不要盲目信任承诺
- 通过不可改变性, 不可变事件的优点
- 可审计数据系统工具, 用于可审计数据系统的工具
Aurora（云数据库）, 云原生系统架构
Aurora DSQL（数据库）
- 快速隔离支持, 快照隔离与可重复读
自动缩放, 运维：自动/手动再平衡
Automerge (CRDT library), 同步引擎的利弊
可用性, 可靠性与容错
- （另见 fault tolerance）
- 在 CAP 定理中, CAP 定理
- 领袖选举, 共识的微妙之处
- 在服务级别协议（SLA）中, 响应时间指标的应用
可用区, 通过冗余容忍硬件故障, 读己之写
Avro（数据格式）, Avro-动态生成的模式
- 动态生成的计划, 动态生成的模式
- 对象容器文件, 但什么是写入者模式？, 归档存储
- 读者决定作家的计划, 但什么是写入者模式？
- 计划演变, 写入者模式与读取者模式
- 批量处理中的用途, MapReduce
awk （Unix 工具）（英语）., 简单日志分析, 简单日志分析, 分布式作业编排
Axon Framework, 事件溯源与 CQRS
Azkaban（工作流调度器）, 批处理
Azure Blob Storage（对象存储）, 云服务的分层, 设置新的副本
- 有条件的标题, 隔离僵尸进程和延迟请求
Azure managed disks, 存储与计算的分离
Azure SQL DB（数据库）, 云原生系统架构
Azure Storage, 对象存储
Azure Synapse Analytics（数据库）, 云原生系统架构
Azure Virtual Machines
- 现场虚拟机, 故障处理

Gallina（特写语言）, 模型检查与规范语言
游戏开发, 同步引擎的利弊
垃圾收集
- 不可改变性和, 不变性的局限性
- 进程暂停, 延迟与响应时间, 进程暂停-限制垃圾回收的影响, 多数派原则
  - （另见 process pauses）
加油站算法定价, 反馈回路
GDPR (regulation), 数据系统、法律与社会, 不变性的局限性
- 同意书, 同意与选择自由
- 数据最小化, 立法与自律
- 合法权益, 同意与选择自由
- 使用权, 面向多租户的分片
- 清除的权利, 数据系统、法律与社会, 磁盘空间使用, 面向多租户的分片
GenBank (genome database), 总结
General Data Protection Regulation（见 GDPR (regulation)）
基因组分析, 总结
geographic distribution（见 regions (geographic distribution)）
地理空间指数, 多维索引与全文索引
Git（版本控制系统）, 并发控制
- 本地第一软件, 实时协作、离线优先和本地优先应用
- 合并冲突, 手动冲突解决
GitHub, postmortems, 领导者故障：故障转移, 领导者故障：故障转移, 将系统模型映射到现实世界
全球二级指数, 全局二级索引, 总结
globally unique identifiers（见 UUIDs）
GlusterFS（分布式文件系统）, 批处理, 分布式文件系统, 对象存储
GNU Coreutils (Linux), 排序与内存聚合
Go（编程语言）
- 垃圾收集, 限制垃圾回收的影响
GoldenGate (change data capture), 数据变更捕获的实现
- （另见 Oracle）
谷歌
- BigQuery（见 BigQuery（数据库））
- Bigtable（见 Bigtable（数据库））
- Chubby（锁服务）, 协调服务
- Cloud Storage（对象存储）, 设置新的副本, 对象存储
  - 请求先决条件, 隔离僵尸进程和延迟请求
- Compute Engine
  - 预设实例, 故障处理
- 数据流（流程处理）
  - 数据仓集成, 云数据仓库
  - 移动数据, 混洗数据
- 数据流（流处理器）, 流分析, 原子提交再现, 统一批处理和流处理
  - （另见 Beam）
- 数据流（变化数据捕获）, 变更流的 API 支持
- Docs（协作编辑）, 实时协作、离线优先和本地优先应用, CRDT 与操作变换
  - 操作转换, CRDT 与操作变换
- Dremel（查询引擎）, 列式存储
- Firestore（数据库）, 同步引擎的利弊
- MapReduce (batch processing), 批处理
  - （另见 MapReduce）
- Percolator（事务系统）, 实现线性一致的 ID 生成器
- 持久性磁盘（云服务）, 存储与计算的分离
- Pub/Sub（消息系统）, 消息代理, 消息代理与数据库的对比, 使用日志进行消息存储
- 响应时间研究, 平均值、中位数与百分位点
- 工作表（协作电子表格）, 实时协作、离线优先和本地优先应用, CRDT 与操作变换
- Spanner（见 Spanner（数据库））
- TrueTime (clock API), 带置信区间的时钟读数
流言协议, 请求路由
治理, 超越数据湖
政府对数据的使用, 数据作为资产与权力
GPS (Global Positioning System)
- 用于时钟同步, 不可靠的时钟, 时钟同步和准确性, 带置信区间的时钟读数, 用于全局快照的同步时钟
GPT (language model), 向量嵌入
GPU (graphics processing unit), 云服务的分层, 分布式与单节点系统
gradual rollout（见 rolling upgrades）
GraphQL（查询语言）, GraphQL
- 验证, 存储过程的利弊
图表, 术语表
- 作为数据模型, 图数据模型-GraphQL
  - 属性图, 属性图
  - RDF and triple-stores, 三元组存储与 SPARQL-SPARQL 查询语言
- DAGs（见 directed acyclic graphs）
- 处理和分析, 机器学习
- 查询语言
  - 密码, Cypher 查询语言
  - 数据日志, Datalog：递归关系查询-Datalog：递归关系查询
  - GraphQL, GraphQL
  - 格伦林, 图数据模型
  - recursive SQL queries, SQL 中的图查询
  - SPARQL, SPARQL 查询语言-SPARQL 查询语言
- 转弯, 属性图
灰色失败, 系统模型与现实
- 无领导复制, 单主与无主复制的性能
格勒姆林（图形查询语言）, 图数据模型
grep （Unix 工具）（英语）., 简单日志分析
gRPC (service calls), 微服务与无服务器, Web 服务
- 前向和后向兼容性, RPC 的数据编码与演化
GUIDs（见 UUIDs）

Hadoop（数据基础设施）
- 比较分布式数据库, 批处理
- MapReduce（见 MapReduce）
- NodeManager, 分布式作业编排
- YARN（见 YARN (job scheduler)）
HANA（见 SAP HANA（数据库））
发生关系前, “先发生"关系与并发
硬盘
- 访问模式, 顺序与随机写入
- 侦查腐败, 端到端原则, 不要盲目信任承诺
- 错误在, 硬件与软件故障, 持久性
- 顺序对随机写入, 顺序与随机写入
- 连续写入吞吐量, 磁盘空间使用
硬件故障, 硬件与软件故障
散列函数
- 在 Bloom 过滤器中, 布隆过滤器
加入散列
- 在溪流处理中, 流表连接（流扩充）
散列变硬, 按键的哈希分片-一致性哈希, 总结
- 连续的散列, 一致性哈希
- Hash mod N的问题, 哈希取模节点数
- 区域查询, 按哈希范围分片
- 合适的散列函数, 按键的哈希分片
- 有固定的硬块数, 固定数量的分片
散列表格, 日志结构存储
Hazelcast（模拟数据网）
- FencedLock, 隔离僵尸进程和延迟请求
- Flake ID Generator, ID 生成器和逻辑时钟
HBase（数据库）
- 由于缺乏围栏而出现错误, 分布式锁和租约
- 键程硬化, 按键的范围分片
- 日志结构存储, 构建和合并 SSTable
- 区域（硬化）, 分片
- 请求路由, 请求路由
- 大小级紧凑, 压实策略
- 宽柱数据模型, 读写的数据局部性, 列压缩
HDFS (Hadoop Distributed File System), 批处理, 分布式文件系统
- （另见 distributed filesystems）
- 检查数据完整性, 不要盲目信任承诺
- DataNode, 分布式文件系统
- NameNode, 分布式文件系统
- use in MapReduce, MapReduce
- 工作流程示例, 工作流调度
HdrHistogram (numerical library), 响应时间指标的应用
头（Unix 工具）, 简单日志分析, 分布式作业编排
头顶（财产图）, 属性图
头部阻塞, 延迟与响应时间
堆积文件（数据库）, 在索引中存储值
- 多转换并发控制, 多版本并发控制（MVCC）
热量管理, 偏斜的工作负载与缓解热点
被套期请求, 单主与无主复制的性能
分散事务, 跨不同系统的分布式事务, XA 事务的问题
启发式决策, 从协调器故障中恢复
十六进制（注解本）, 机器学习
六边形
- 地理空间索引, 多维索引与全文索引
Hibernate（对象关系映射器）, 对象关系映射（ORM）
层次模型, 关系模型与文档模型
可导航的小世界（媒介指数）, 向量嵌入
hierarchical queries（见 recursive common table expressions）
high availability（见 fault tolerance）
高频事务, 时钟同步和准确性
high-performance computing (HPC), 云计算与超级计算
提示移交, 追赶错过的写入
直方图, 响应时间指标的应用
蜂窝（数据仓）, 云数据仓库
- 查询优化器, 查询语言
HNSW (vector index), 向量嵌入
购物窗口（流程处理）, 窗口的类型
- （另见 windows）
Hoptimator（查询引擎）, 一切的元数据库
地平线丑闻, 人类与可靠性
- 缺乏事务, 事务
horizontal scaling（见 scaling out）
- 通过磨损, 分片的利与弊
HornetQ（消息系统）, 消息代理, 消息代理与数据库的对比
- 分布式事务支持, XA 事务
热键, 键值数据的分片
热点, 键值数据的分片
- 由于名人, 偏斜的工作负载与缓解热点
- 时间序列数据, 按键的范围分片
- 解除武装, 偏斜的工作负载与缓解热点
hot standbys（见基于领导者的复制）
HTAP（见 hybrid transactional/analytic processing）
HTTP, use in APIs（见 services）
人类错误, 人类与可靠性, 实践中的网络故障, 批处理
混合逻辑时钟, 混合逻辑时钟
混合事务/分析处理, 数据仓库, 分析型数据存储
hydrating IDs (join), 社交网络案例研究中的反规范化
高频图, 属性图
HyperLogLog (algorithm), 流分析

N+1 query problem, 对象关系映射（ORM）
纳米msg（信息库）, 直接从生产者传递给消费者
Narayana（事务协调员）, 两阶段提交（2PC）
NATS（消息系统）, 消息代理
自然语言处理, 从数据仓库到数据湖
Neo4j（数据库）
- Cypher 查询语言, Cypher 查询语言
- 图表数据模型, 图数据模型
Neon（数据库）, 设置新的副本
侄子（数据流引擎）, 数据流引擎
Neptune（图数据库）, 图数据模型
- Cypher 查询语言, Cypher 查询语言
- SPARQL 查询语言, SPARQL 查询语言
网码（游戏开发）, 同步引擎的利弊
Network Attached Storage (NAS), 共享内存、共享磁盘与无共享架构, 分布式文件系统
网络模型（数据表示）, 关系模型与文档模型
Network Time Protocol（见网络时间协议）
网络
- 拥堵和排队, 网络拥塞和排队
- 数据中心网络地形, 云计算与超级计算
- faults（见 faults）
- 线性化和网络延迟, 线性一致性与网络延迟
- 网络分区, 实践中的网络故障
  - 在 CAP 定理中, 线性一致性的代价
- 超时和无限制延误, 超时和无界延迟
NewSQL, 关系模型与文档模型, 复制延迟的解决方案
- 事务和, 事务到底是什么？, 数据库内部的分布式事务
下键锁定, 索引范围锁
NFS (network file system), 分布式文件系统
- 在对象存储中, 对象存储
Nimble（数据格式）, 云数据仓库, 列式存储
- （另见 column-oriented storage）
node (in graphs)（见 vertices）
节点（进程）, 分布式与单节点系统, 术语表
- 在基于领导器的复制中处理断电, 处理节点故障
- 失败的系统模型, 系统模型与现实
吵闹的邻居, 网络拥塞和排队
原子承诺, 三阶段提交
非决定性操作, 基于语句的复制
- （另见 deterministic operations）
- 在分布式系统中, 确定性模拟测试
- 工作流程引擎中, 持久化执行
- 部分失败, 故障与部分失效
- 非决定因素, 确定性模拟测试
不起作用的要求, 定义非功能性需求, 总结
不可重复读作, 快照隔离与可重复读
- （另见读取偏差）
规范化, 规范化、反规范化与连接-多对一与多对多关系, 术语表
- 外国关键参考文献, 多对象事务的需求
- 社会网络案例研究, 社交网络案例研究中的反规范化
- 在记录系统中, 记录系统与派生数据
- 相对于非正常化, 从同一事件日志中派生多个视图
NoSQL, 关系模型与文档模型, 复制延迟的解决方案, 分拆数据库
- 事务和, 事务到底是什么？
Notation3 (N3), 三元组存储与 SPARQL
网络时间协议, 不可靠的时钟
- 准确性, 时钟同步和准确性, 用于事件排序的时间戳
- 对单音钟的调整, 单调时钟
- 多个服务器地址, 弱形式的谎言
XML 与 JSON 编码中的数字, JSON、XML 及其二进制变体
NumPy (Python library), 数据框、矩阵与数组, 列式存储
NVMe (Non-Volatile Memory Express)（见 solid state drives (SSDs)）

对象数据库, 关系模型与文档模型
对象存储, 云服务的分层, 对象存储-对象存储
- Azure Blob Storage（见 Azure Blob Storage）
- 比较分布式文件系统, 对象存储
- 与关键价值库存的比较, 对象存储
- 数据库由, 设置新的副本
- 备份, 复制
- 用于云数据仓库, 云数据仓库, 写入列式存储
- 数据库复制, 设置新的副本
- Google Cloud Storage（见 Google Cloud Storage）
- 对象大小, 存储与计算的分离
- S3（见 S3（对象存储））
- storing LSM segment files, 构建和合并 SSTable
- 支持围栏, 隔离僵尸进程和延迟请求
- 数据湖中的使用, 从数据仓库到数据湖
对象关系映射（ORM）框架, 对象关系映射（ORM）
- 处理错误和中止事务, 处理错误和中止
- 不安全的读写周期代码, 原子写操作
对象关系不匹配, 对象关系不匹配
可观察性, 分布式系统的问题, 人类与可靠性, 可运维性：让运维更轻松
观察员模式, 应用代码和状态的分离
OBT (one big table), 星型与雪花型：分析模式, 星型与雪花型：分析模式
离线系统, 批处理
- （另见 batch processing）
离线第一应用程序, 实时协作、离线优先和本地优先应用, 有状态、可离线的客户端
页:1
- 加工过的原木中的消费者抵消额, 消费者偏移量
- 已磨损日志中的消息, 使用日志进行消息存储
OLAP, 事务处理与分析的特征, 术语表
- 数据方块, 物化视图与数据立方体
OLTP, 事务处理与分析的特征, 术语表
- 分析查询与, 分析（Analytics）
- 数据正常化, 规范化的权衡
- 工作量特点, 实际串行执行
现场部署, 云服务与自托管
- 数据仓库, 云数据仓库
一个大表格（数据仓计划）, 星型与雪花型：分析模式, 星型与雪花型：分析模式
单热编码, 数据框、矩阵与数组
一对夫妇关系, 用于一对多关系的文档数据模型
一对多种关系, 用于一对多关系的文档数据模型
- JSON representation, 用于一对多关系的文档数据模型
在线系统, 批处理
- （另见 services）
- 相对于科学计算, 云计算与超级计算
肿瘤, 三元组存储与 SPARQL
Oozie（工作流调度器）, 批处理
OpenAPI (service definition format), 微服务与无服务器, Web 服务, Web 服务
- use of JSON Schema, JSON 模式
openCypher（见 Cypher（查询语言））
OpenLink Virtuoso（见 Virtuoso（数据库））
OpenStack
- Swift（对象存储）, 对象存储
可操作性, 可运维性：让运维更轻松
操作系统与数据库, 分拆数据库
业务系统, 分析型与事务型系统
- （另见在线事务处理）
- 作为记录系统, 记录系统与派生数据
- ETL into analytical systems, 数据仓库
操作转换, CRDT 与操作变换
行动组, 云时代的运维
算子, 查询执行：编译与向量化
- 在溪流处理中, 流处理
乐观并发控制, 悲观并发控制与乐观并发控制
乐观锁定, 条件写入（比较并设置）
Oracle（数据库）
- 分布式事务支持, XA 事务
- GoldenGate (change data capture), 数据变更捕获的实现
- 等级查询, SQL 中的图查询, SQL 中的图查询
- 缺乏序列性, 隔离性
- 基于领导者的复制, 单主复制
- 多领导复制, 跨地域运行
- 多表索引集群表, 读写的数据局部性
- 无法阻止写入 skew, 写偏差的特征
- PL/SQL language, 存储过程的利弊
- 防止丢失更新, 自动检测丢失的更新
- 读作承诺隔离, 实现读已提交
- Real Application Clusters (RAC), 锁定与领导者选举
- 快速隔离支持, 快照隔离与可重复读, 快照隔离、可重复读和命名混淆
- TimesTen (in-memory database), 全内存存储
- WAL-based replication, 预写日志（WAL）传输
ORC（数据格式）, 云数据仓库, 列式存储
- （另见 column-oriented storage）
协调（服务部署）, 云服务与自托管, 微服务与无服务器
- 批量任务执行, 分布式作业编排-分布式作业编排
- 工作流程引擎, 批处理
顺序
- 事件日志, 事件溯源与 CQRS
- 总订单的限制, 全序的限制
- 逻辑时间戳, 逻辑时钟
- of auto-incrementing IDs, ID 生成器和逻辑时钟
- 共享日志, 共识的实践-共识的利弊
Orkes（工作流程引擎）, 持久化执行与工作流
孤儿页面（B- 树）, 使 B 树可靠
发件箱图案, 数据变更捕获与事件溯源
异常值（响应时间）, 平均值、中位数与百分位点
外包, 云服务与自托管
超载, 描述性能, 处理错误和中止

UDP (User Datagram Protocol)
- comparison to TCP, 网络拥塞和排队
- 多广播, 直接从生产者传递给消费者
终极在线（游戏）, 分片
未绑定的数据集, 流处理, 术语表
- （另见 streams）
无限制的延误, 术语表
- 在网络中, 超时和无界延迟
- 进程暂停, 进程暂停
解析数据库, 分拆数据库-多分区数据处理
- 构建数据存储技术, 组合使用数据存储技术-分拆系统与集成系统
  - 联邦制与拆分制, 一切的元数据库
- 围绕数据流设计应用程序, 围绕数据流设计应用-流处理器和服务
- 观察导出状态, 观察派生数据状态-多分区数据处理
  - 实现视图和缓存, 物化视图和缓存
  - 多硬数据处理, 多分区数据处理
  - 推动客户端更改状态, 将状态变更推送给客户端
uncertain (transaction status)（见存疑）
联盟类型（在 Avro）, 模式演化规则
uniq（Unix 工具）, 简单日志分析, 简单日志分析, 分布式作业编排
独特性限制
- 同步检查, 宽松地解释约束
- 需要协商一致, 唯一性约束需要达成共识
- 需要线性, 约束与唯一性保证
- 以日志为基础的信件中的独特性, 基于日志消息传递中的唯一性
团结（数据目录）, 云数据仓库
universally unique identifiers（见 UUIDs）
unix 哲学
- 比较关系数据库, 分拆数据库, 一切的元数据库
- 与流处理的比较, 流处理
unix 管道, 简单日志分析
- 与分布式批量处理相比, 工作流调度
UPDATE statement (SQL), 文档模型中的模式灵活性
更新
- 防止丢失更新, 防止丢失更新-冲突解决与复制
  - 原子写入操作, 原子写操作
  - 自动检测丢失的更新, 自动检测丢失的更新
  - 比较和设置, 条件写入（比较并设置）
  - 冲突解决和推广, 冲突解决与复制
  - 使用明确的锁定, 显式锁定
- 防止写入skew, 写偏差与幻读-物化冲突
使用量
- 批量过程调度, 资源分配
- 通过预设增加, 故障处理
- 与暂时取舍, 我们不能简单地使网络延迟可预测吗？
uTP protocol (BitTorrent), TCP 的局限性
UUIDs, ID 生成器和逻辑时钟

有效性（协商一致）, 单值共识, 原子提交作为共识
vBuckets（硬化）, 分片
矢量时钟, 版本向量
- （另见版本向量）
- 和 Lamport/hybrid 逻辑钟, Lamport/混合逻辑时钟 vs. 向量时钟
- 和版本向量, 版本向量
向量嵌入, 向量嵌入
矢量处理, 查询执行：编译与向量化
供应商锁定, 云服务的利弊
Venice（数据库）, 对外提供派生数据
核查, 信任但验证-用于可审计数据系统的工具
- 避免盲目信任, 不要盲目信任承诺
- 设计可审计性, 为可审计性而设计
- 端对端完整性检查, 端到端原则重现
- 可审计数据系统工具, 用于可审计数据系统的工具
版本控制系统
- 合并冲突, 手动冲突解决
- 依赖不可改变的数据, 并发控制
版本向量, 不同拓扑的问题, 版本向量
- 点数, 版本向量
- 对向量时钟, 版本向量
Vertica（数据库）, 云数据仓库
- 处理写入, 写入列式存储
vertical scaling（见 scaling up）
顶点（图）, 图数据模型
- 属性图模型, 属性图
电子游戏, 同步引擎的利弊
视频转码（例如）, 跨通道时序依赖
views (SQL queries), Datalog：递归关系查询
- materialized views（见物化）
视图戳复制, 共识, 共识的实践
- 使用模型检查, 模型检查与规范语言
- 视图编号, 从单主复制到共识
虚拟块设备, 存储与计算的分离
虚拟文件系统, 分布式文件系统
- 比较分布式文件系统, 分布式文件系统
虚拟机, 云服务的分层
- 上下文开关, 进程暂停
- 网络性能, 网络拥塞和排队
- 吵闹的邻居, 网络拥塞和排队
- 虚拟时钟在, 时钟同步和准确性
虚拟内存
- 因页面错误造成的进程暂停, 延迟与响应时间, 进程暂停
Virtuoso（数据库）, SPARQL 查询语言
VisiCalc (spreadsheets), 围绕数据流设计应用
Vitess（数据库）
- 键程硬化, 按键的范围分片
节点（硬化）, 分片
词汇, 三元组存储与 SPARQL
Voice over IP (VoIP), 网络拥塞和排队
VoltDB（数据库）
- 交叉硬度序列化, 分片
- 确定性储存程序, 存储过程的利弊
- 内存储, 全内存存储
- 进程/核心模式, 分片的利与弊
- 二级指数, 本地二级索引
- 事务的序列执行, 实际串行执行
- 基于语句的复制, 基于语句的复制, 失败后重建状态
- 流程处理中的事务, 原子提交再现

预写式日志, 使 B 树可靠
WAL-G (backup tool), 设置新的副本
WarpStream（消息系统）, 磁盘空间使用
web services（见 services）
网络用户, 直接从生产者传递给消费者
网络方法（通讯）, 消息代理
WebSocket (protocol), 将状态变更推送给客户端
宽柱数据模型, 读写的数据局部性
- 相对于面向列的存储, 列压缩
窗口（流程处理）, 流分析, 时间推理-窗口的类型
- 更改日志的无限窗口, 维护物化视图, 流表连接（流扩充）
- 知道所有事件何时到来, 处理滞留事件
- 串流在窗口内连接, 流流连接（窗口连接）
- 窗口类型, 窗口的类型
WITH RECURSIVE syntax (SQL), SQL 中的图查询
Word2Vec (language model), 向量嵌入
工作流程引擎, 持久化执行与工作流
- Airflow（见 Airflow（工作流调度器））
- 批处理, 工作流调度
- Camunda（见 Camunda (workflow engine)）
- Dagster（见 Dagster（工作流调度器））
- 持久执行, 持久化执行与工作流
- 提取-转换-加载（ETL）（见 ETL）
- 执行器, 持久化执行与工作流
- 乐团, 持久化执行与工作流, 批处理
- Orkes（见 Orkes (workflow engine)）
- Prefect（见 Prefect（工作流调度器））
- 依赖决定性因素, 确定性模拟测试
- Restate（见 Restate (workflow engine)）
- Temporal（见 Temporal (workflow engine)）
工作设置, 排序与内存聚合
写入放大, 写放大
写路径, 观察派生数据状态
写偏差, 写偏差与幻读-物化冲突
- 特性, 写偏差与幻读-导致写偏差的幻读, 基于过时前提的决策
- 实例, 写偏差与幻读, 写偏差的更多例子
- 物化冲突, 物化冲突
- 实际发生情况, 维护完整性，尽管软件有Bug
- 幻读, 导致写偏差的幻读
- 预防
  - 在快照隔离中, 基于过时前提的决策-检测影响先前读取的写入
  - 双相锁定, 谓词锁-索引范围锁
  - 选项, 写偏差的特征
预写式日志, 使 B 树可靠, 预写日志（WAL）传输
- 持久执行, 持久化执行
写入（数据库）
- 原子写入操作, 原子写操作
- 检测影响前读的写入, 检测影响先前读取的写入
- 防止污秽的写作,, 没有脏写
WS-* framework, 远程过程调用（RPC）的问题
WS-AtomicTransaction (2PC), 两阶段提交（2PC）

最后更新于 2026-02-24

术语表后记

索引

符号

A

B

C

D

E

F

G

H

I

J

K

L

M

N

O

P

Q

R

S

T

U

V

W

X

Y

Z