移动大数据平台架构设计方案.pdf

上传人:李朗 文档编号:367545 上传时间:2018-09-26 格式:PDF 页数:39 大小:1.58MB
下载 相关 举报
移动大数据平台架构设计方案.pdf_第1页
第1页 / 共39页
移动大数据平台架构设计方案.pdf_第2页
第2页 / 共39页
移动大数据平台架构设计方案.pdf_第3页
第3页 / 共39页
移动大数据平台架构设计方案.pdf_第4页
第4页 / 共39页
移动大数据平台架构设计方案.pdf_第5页
第5页 / 共39页
亲,该文档总共39页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、集 团 公 司 网 络 部大 数 据 技 术 网 络 部 网 管 支 撑 处2015年 12月集 团 公 司 网 络 部目 录- 2 - 一 、 大 数 据 的 背 景 与 定 义二 、 大 数 据 的 关 键 技 术三 、 网 管 领 域 应 用 展 望- 2 - 集 团 公 司 网 络 部数 据 管 理 技 术 发 展 历 史数 据 管 理 技 术 历 经 人 工 管 理 、 文 件 管 理 、 数 据 库 管 理 等 时 代 , 大 数 据 技 术 的 出 现 使该 领 域 进 入 了 一 个 新 的 发 展 阶 段- 3 - 1946 1951 1956 1961 1970 1974

2、1979 1991 2001 2003 2008 2011第 一 台 计算 机ENIAC面世 磁 带 +卡片人 工 管理 磁 盘 被发 明 ,进 入 文件 管 理时 代 网 络 型 SQLE-RGE公 司 发明 第 一 个 网络 模 型 数 据库 , 但 仅 限于 GE自 己的 主 机1960年 代 , IT系 统 规 模 和 复 杂 度 变 大 , 数 据 与 应 用 分离 的 需 求 开 始 产 生 , 数 据 库 技 术 开 始 萌 芽 并 蓬 勃 发 展 ,并 在 1990年 后 逐 步 统 一 到 以 关 系 型 数 据 库 为 主 导IBM E.F.Dodd提出 关 系模 型 SQ

3、L语言 被 发明 关 系 型数 据 库ORACLE发 布 第一 个 商用 SQL关 系 数据 库 ,后 续 快速 发 展 数 据 仓 库数 据 仓 库 开始 涌 现 , 关系 数 据 库 开始 全 面 普 及且 平 台 无 关 ,进 入 成 熟 期2001年 后 , 互 联 网 迅速 发 展 , 数 据 量 成 倍 递增 , 量 变 引 起 质 变 , 开始 对 数 据 管 理 技 术 提 出全 新 的 要 求1946年 , 电 脑 诞 生 , 数据 与 应 用 紧 密 捆 绑 在 文 件中 , 彼 此 不 分 Hadoop成为 Apache顶 级 项 目 ,重 点 支 持 海量 数 据 分

4、布式 管 理 和 分布 式 计 算GFS谷 歌 发 表论 文 介 绍分 布 式 计算集 团 公 司 网 络 部大 数 据 发 展 背 景全 球 信 息 化 发 展 已 步 入 大 数 据 时 代150亿 个 设 备 连 接 到 互 联 网全 球 每 秒 钟 发 送 290万 封 电 子 邮 件每 天 有 2.88 万 小 时 视 频 上 传 到 YoutubeFacebook 每 日 评 论 达 32亿 条 , 每 天 上 传 照 片 近 3亿 张, 每 月 处 理 数 据 总 量 约 130万 TB2011年 全 球 产 生 数 据 量 1.8ZB, 预 计 2020年 将 增 长 到35Z

5、B大 数 据 正 迅 速 成 为 最 值 得 关 注 的 IT领 域 之 一2011年 5月 , EMC World 2011大 会 主 题 “ 云 计 算 相 遇大 数 据 ” , EMC 除 了 一 直 倡 导 的 云 计 算 外 , 还 抛 出 “大数 据 “( BigData) 概 念2011年 6月 底 , IBM、 麦 肯 锡 等 众 多 国 外 机 构 发 布 “大 数据 “相 关 研 究 报 告 , 予 以 积 极 跟 进2011 年 10 月 , Gartner 认 为 2012 年 十 大 战 略 技 术 将 包括 “大 数 据 “2011 年 11 月 底 , IDC 将

6、 “大 数 据 “放 入 2012 年 信 息 通 信产 业 十 大 预 测 之 一- 4 - IDC全 球 数 据 量 预 测 ( 1ZB = 1百 万 PB = 10亿 TB)Google网 站 Big data关 键 词 搜 索 及 新 闻 引 用 量集 团 公 司 网 络 部大 数 据 的 定 义IDC对 大 数 据 的 定 义大 数 据 技 术 将 被 设 计 用 于 在 成 本 可 承 受 (economically) 的 条 件 下 , 通 过 非 常 快速 ( velocity) 的 采 集 、 发 现 和 分 析 , 从 大 体 量 ( volumes) 、 多 类 别 (v

7、ariety) 的 数 据 中 提 取 价 值 ( value) , 是 IT领 域 新 一 代 的 技 术 与 架 构解 读 大 数 据 定 义业 务 目 标 : 在 1E( 成 本 可 接 受 -economically)的 条 件 下 从 大 数 据 中 提 取 数 据 的 价 值 ( Value)技 术 要 求 : 满 足 3V ( 快 速 -Velocity、大 体 量 -Volumes、 多 类 别 -Variety) 的 特 征技 术 方 案 : 未 提 及 , 可 能 是 新 兴 技 术 与 传 统 技 术 的 混 搭- 5 - 集 团 公 司 网 络 部IT行 业 大 数 据

8、 相 关 动 向 和 举 措- 6 - 大 数 据 正 成 为 IT行 业 全 新 的 制 高 点 , 各 企 业 和 组 织 纷 纷 助 推 大 数 据 的 发 展 , 相 关 技 术 呈现 百 花 齐 放 局 面 , 并 在 互 联 网 应 用 领 域 崭 露 头 角商 业 解 决 方 案l HP 2011年 推 出 vertica数 据 库 l Oracle 2011年 推 出 noSQL数 据 库l EMC 2010年 收 购 Greenpluml Teradata 2011年 收 购 Asterdata, 并 推 出SQL-Mapreducel IBM 2010年 收 购 Netez

9、zal SAP 2011年 收 购 Sybase 开 源 解 决 方 案l 开 源 组 织 Apache在 2008年 将 Hadoop列 为 顶 级项 目 l 2010年 HBase自 Hadoop上 诞 生 l 开 源 组 织 GNU 2010年 发 布 Mongodb l Vmware 2010年 提 供 开 源 产 品 Redis l Twitter 2011年 提 供 开 源 产 品 Storm商 业 企 业 和 开 源 组 织 都 纷 纷 推 出 各 种 大 数 据 解 决 方 案 , 这 些 方 案 既 存 在 相 同 点 , 也 各 有 侧重 , 目 前 尚 无 统 一 的 行

10、 业 技 术 标 准 或 技 术 领 域 细 分 规 则互 联 网 企 业 IT实 力 强 且 海 量 数 据 处 理 需 求 最 为 迫 切 ,是 大 数 据 发 起 者 、 倡 导 者 、 开 发 者 和 最 终 使 用 者 ,大 数 据 应 用 场 景 十 分 清 晰l Google 研 发 Bigtable并 自 行 使 用l Yahoo发 起 Hadoop/Hbase开 源 并 自 用 ,FACEBOOK、 百 度 、 淘 宝 等 均 使 用l Twitter开 发 Storm自 用 并 提 供 开 源 传 统 企 业 IT能 力 有 限 , 数 据 处 理 工 作 主 要 依 赖

11、于 系统 集 成 商 , 重 点 在 应 用 实 现 , IT技 术 路 线 上 以 跟 随成 熟 技 术 ( 含 开 源 技 术 ) 为 主目 前 还 是 以 数 据 库 、 数 据 仓 库 技 术 为 主 , 对 大 数据 技 术 仍 处 于 认 知 或 小 范 围 摸 索 实 验 阶 段 , 应 用场 景 仍 在 分 析 梳 理 中互 联 网 企 业 传 统 企 业- 6 - 集 团 公 司 网 络 部目 录- 7 - 一 、 大 数 据 的 背 景 与 定 义二 、 大 数 据 的 关 键 技 术三 、 网 管 领 域 应 用 展 望集 团 公 司 网 络 部相 关 概 念 与 相 关

12、 技 术 概 览数 据 结 构 : 结 构 化 数 据 与 非 结 构 化 数 据数 据 库 数 据 模 型 : 关 系 型 数 据 库 与 非 关 系 型 数 据 库数 据 处 理 特 性 : OLTP与 OLAP数 据 一 致 性 : 强 一 致 性 与 最 终 一 致 性数 据 存 储 方 式 : 行 式 存 储 与 列 式 存 储数 据 库 存 储 与 处 理 架 构 : SMP与 MPP数 据 存 储 架 构 : 传 统 分 布 式 文 件 与 新 型 分 布 式 文 件数 据 处 理 架 构 : 基 于 并 行 计 算 的 分 布 式 数 据 处 理 技 术 ( MapReduce

13、)- 8 - 集 团 公 司 网 络 部数 据 的 结 构 结 构 化 、 非 结 构 化 、 半 结 构 化 数 据- 9 - 对 比 项 结 构 化 数 据 非 结 构 化 数 据 半 非 结 构 化 数 据定 义 有 数 据 结 构 描 述 信 息的 数 据 不 方 便 用 固 定 结 构 来表 现 的 数 据 介 于 完 全 结 构 化 数 据和 完 全 无 结 构 的 数 据之 间 的 数 据结 构 与 内 容 的 关 系 先 有 结 构 、 再 有 数 据 只 有 数 据 , 没 有 结 构 先 有 数 据 , 再 有 结 构示 例 各 类 表 格 图 形 、 图 像 、 音 频

14、、视 频 信 息 HTML文 档 , 它 一 般 是自 描 述 的 , 数 据 的 结构 和 内 容 混 在 一 起结 构 化 数 据 和 非 结 构 化 数 据 都 是 客 观 存 在 , 大 数 据 技 术 需 要 涵 盖 两 者集 团 公 司 网 络 部数 据 库 数 据 模 型 关 系 型 数 据 库 与 非 关 系 型 数 据 库在 大 数 据 技 术 中 “非 关 系 型 “数 据 库 技 术 是 必 不 可 少 的 , 但 关 系 数 据 库 也 是 不 可 或 缺 的- 10 - 对 比 项 关 系 型 数 据 库 非 关 系 型 数 据 库定 义 创 建 在 关 系 模 型

15、基 础 上 , 借 助 于 集 合 代 数等 数 学 概 念 和 方 法 来 处 理 数 据 库 中 的 数 据 关 系 模 型 由 关 系 数 据 结 构 、 关 系 操 作 集 合 、关 系 完 整 性 约 束 三 部 分 组 成 没 有 标 准 定 义 包 括 : 表 存 储 数 据 库 、 键 值 存 储数 据 库 、 面 向 文 档 的 数 据 库 等接 口 语 言 SQL( Structured Query Language,结 构 化 查 询 语 言 ) , 对 数 据 库 中 的 数 据 进行 查 询 、 操 作 和 管 理 无 统 一 标 准 包 括 : 各 自 定 义 的

16、API、 类 SQL、MR等典 型 案 例 Oracel、 DB2、 Sybase、 SQL Server、Mysql、 Postgresql等 新 型 的 MPP RDB( Greenplum) 也 属 于关 系 型 数 据 库 Hbase、 MongoDB、 Redis集 团 公 司 网 络 部数 据 处 理 特 性 OLTP与 OLAP- 11 - 比 较 项 联 机 事 务 处 理 OLTP( On-Line Transaction Processing ) 联 机 分 析 处 理 OLAP( On-Line Analytical Processing )基 本 类 型 业 务 操 作

17、 型 业 务 分 析 型数 据 特 性 对 一 条 记 录 数 据 会 多 次 修 改 , 支 持大 量 并 发 用 户 添 加 和 修 改 数 据 数 据 写 入 后 基 本 不 再 修 改 , 能 较 好 地 支 持大 量 并 发 用 户 进 行 大 数 据 量 查 询技 术 特 性 确 保 数 据 的 一 致 性确 保 事 务 的 完 整 性数 据 读 写 实 时 性 高 支 持 多 维 数 据 以 及 对 多 维 数 据 的 复 杂 分 析大 数 据 量数 据 量 GB-TB级 TB-PB级典 型 示 例 银 行 业 务 系 统 /数 据 库 各 类 决 策 分 析 系 统 /数 据

18、库OLTP以 业 务 操 作 型 为 主 , OLAP以 业 务 分 析 性 为 主 , 两 者 对 技 术 的 要 求 很 难 兼 顾- 11 - 集 团 公 司 网 络 部数 据 一 致 性 : 强 一 致 性 与 最 终 一 致 性- 12 - 强 一 致 性 和 最 终 一 致 性 都 是 指 客 户 端 向 数 据 库 系 统 写 入 数 据 后 , 数 据 库 系 统 能 够 提 供的 数 据 一 致 性 的 表 现对 比 项 强 一 致 性 ( 即 时 一 致 性 ) 最 终 一 致 性 弱 一 致 性场 景 定 义 假 定 三 个 进 程 A、 B、 C是 互 相 独 立 的

19、, 且 都 在 对 存 储 系 统 进 行 读 写 操 作数 据 一 致 性 表 现 A写 入 数 据 到 存 储 系统 后 , 存 储 系 统 能 够保 证 后 续 任 何 时 刻 发起 读 操 作 的 B、 C 可以 读 到 A写 入 的 数 据 A写 入 数 据 到 存 储 系统 后 , 经 过 一 定 时 间 ,或 者 在 某 个 特 定 操 作后 , B、 C最 终 会 读到 A写 入 的 数 据 A写 入 数 据 到 存 储 系统 后 , 存 储 系 统 不 能够 保 证 后 续 发 起 读 操作 的 B、 C可 以 读 到 A写 入 的 数 据示 例 OLTP需 要 强 一 致

20、性 OLAP需 最 终 一 致 性 绝 大 多 数 应 用 不 能 够容 忍 弱 一 致 性集 团 公 司 网 络 部数 据 存 储 方 式 行 式 存 储 与 列 式 存 储- 13 - 传 统 关 系 型 数 据 库 主 要 采 用 行 存 储 模 式 , 海 量 数 据 的 高 效 存 储 和 访 问 要 求 引 发 了 从行 存 储 模 式 向 列 存 储 模 式 的 转 变行 存 储用 户 生 日 聊 天 记 录 日 均 在 线 时 长用 户 1 1981-10-3 Xxxx yyyy. 2用 户 2 1990-5-15 Mm nnn 3.7用 户 1 1981-10-3 Xxxx

21、yyyy. 2用 户 2 1990-5-15 Mm nnn 3.7 列 存 储用 户 1 1 9 8 1 -1 0 -3用 户 2 1 9 9 0 -5 -1 5用 户 1 Xxxx yyyy 用 户 2 Mm nnn 用 户 1 2用 户 2 3 .7行 存 储 列 存 储存 储 一 行 中 各 列 一 起 存 放 ,单 行 集 中 存 储 一 行 中 各 列 独 立 存放 , 单 列 集 中 存 储索 引效 率 海 量 数 据 索 引 既 占 用大 量 空 间 , 且 索 引 效率 会 随 着 数 据 增 长 越来 越 低 基 于 列 自 动 索 引 ,海 量 数 据 查 询 效 率高 ,

22、 不 产 生 额 外 存储空 间效 率 同 一 行 不 同 列 数 据 类型 不 同 , 压 缩 效 率 低空 值 列 依 然 占 据 空 间 列 同 数 据 类 型 , 压缩 效 率 高空 值 不 占 空 间I/O 查 某 列 必 须 读 出 整 行 ,I/O负 荷 高 、 速 度 慢 只 需 读 出 某 列 数 据 ,I/O低 速 度 快结 构 表 结 构 改 变 影 响 很 大 可 随 时 动 态 增 加 列适 用场 景 数 据 写 入 后 需 要 修 改和 删 除 , 基 于 行 的 反复 查 询 , 多 用 于 OLTP数 据 库 批 量 数 据 一 次 写 入和 基 于 少 量 列

23、 的 反复 查 询 , 多 用 于OLAP数 据 库样 例 数 据 表集 团 公 司 网 络 部数 据 库 存 储 与 处 理 架 构 SMP与 MPP在 数 据 量 急 剧 膨 胀 的 背 景 下 , 数 据 库 处 理 要 求 超 出 了 单 机 或 SMP架 构 能 力 范 围 , 最 高 配 置 小 型机 也 无 法 满 足 , 所 以 在 大 数 据 技 术 中 , MPP架 构 ( 计 算 分 布 +存 储 分 布 ) 架 构 成 为 主 流- 14 - 计 算 分 布 ,存 储 集 中DB Serv共 享 磁 盘DB Serv DB ServDB Serv网 络SAN/FC计 算

24、 集 中 ,存 储 集 中DB Serv磁 盘 计 算 分 布 ,存 储 分 布DB ServDB Serv DB ServDB Serv高 速 通 信 网 络磁 盘 磁 盘 磁 盘 磁 盘Master如 : Oracle传 统单 机 数 据 库 如 : Oracle RAC小 型 机 +共 享 盘 阵 如 : Greenplum、 HbaseX86+本 地 硬 盘传 统 单 机 数 据 库 SMP架 构 数 据 库 MPP架 构 数 据 库对 称 多 处 理 , Symmetrical Multi-Processing有 两 台 以 上 的 服 务 器 , 各 主 机 之 间 共 享 总 线

25、 结 构 ,共 享 数 据 存 储 磁 盘节 点 数 有 限 制 , 主 要 通 过 提 高 节 点 配 置 来 提 高 整体 处 理 能 力 , 扩 展 能 力 有 限对 共 享 磁 盘 的 访 问 可 能 成 为 瓶 颈SMP 大 规 模 并 行 处 理 , Massively Parallel Processing多 个 松 耦 合 处 理 单 元 组 成 , 数 据 存 在 本 机 磁 盘 上通 过 增 加 服 务 器 数 量 提 高 系 统 处 理 能 力 , 理 论 上可 无 限 扩 展 , 目 技 术 可 实 现 上 千 个 节 点 互 联对 软 件 体 系 要 求 较 高 ,

26、需 要 通 过 软 件 层 来 调 度 和平 衡 各 个 节 点 的 负 载 和 并 行 处 理 过 程MPP集 团 公 司 网 络 部数 据 存 储 架 构 : 传 统 分 布 式 文 件 与 新 型 分 布 式 文 件- 15 - 传 统 分 布 式 文 件 系 统 也 可 以 适 应 海 量 数 据 增 长 , 但 是 由 于 数 据 计 算 与 存 储 是 分 离 的 , 随 数 据 量的 增 长 , 网 络 带 宽 形 成 瓶 颈 。 新 型 分 布 式 文 件 系 统 采 用 数 据 计 算 与 存 储 绑 定 的 新 策 略 , 可 有 效应 对 海 量 数 据 增 长X86 P

27、C集 群数 据 存 储 : 磁 盘 阵 列 数 据 存 储 与 计 算 合 一数 据 计 算 :数 据 服 务 器数 据 靠 网 络 传 输 本 机 硬 盘 本 机 硬 盘 本 机 硬 盘 本 机 硬 盘计 算 模 式拥 有 成 本 盘 阵 负 责 存 储 , 数 据 服 务 器 负责 计 算 , 彼 此 靠 网 络 连 接 , 计算 效 率 受 网 络 带 宽 影 响 PC机 自 行 负 责 存 储 和 计 算 , 数 据 与 计算 绑 定 , 不 受 网 络 带 宽 影 响 专 用 设 备 价 格 昂 贵 , 维 护 费 用 高 通 用 PC, 价 格 低 廉 , 维 护 方 便存 储 模

28、 式 磁 盘 阵 列 存 储 由 每 台 PC机 自 带 硬 盘 组 成容 错 模 式 不 能 容 忍 盘 阵 设 备 出 问 题 ,靠 RAID容 错 个 别 硬 盘 故 障 容 许 PC节 点 故 障 , 通 过 多 个 文 件 副 本保 证 数 据 完 整 性数 据 存 储 与 计 算 分 离 - 15 - 集 团 公 司 网 络 部新 型 分 布 式 文 件 系 统 Hadoop HDFS- 16 - Hadoop HDFS是 新 型 分 布 式 文 件 系 统 的 典 型 代 表 , 提 供 高 可 靠 、 高 扩 展 、 高 吞 吐 能 力 的 海 量文 件 数 据 存 储 元 数

29、 据 节 点Namenode 文 件 名 , 文 件 块 ,文 件 块 所 在 数 据节 点 , 文 件 元 数 据1 2 3数 据 节 点Datanode 数 据 节 点Datanode 数 据 节 点Datanode 数 据 节 点Datanode先 读 取 文 件 元 数 据 ,知 道 文 件 在 哪后 读 取 各 个 文 件 块 管 理 文 件 分 布 存 储 优 点l 支 持 任 意 超 大 文 件 存 储 ; 硬 件 节 点 可 不 断 扩展 , 低 成 本 存 储l 对 上 层 应 用 屏 蔽 分 布 式 部 署 结 构 , 提 供 统 一的 文 件 系 统 访 问 接 口 ,

30、感 觉 就 是 一 个 大 硬 盘 ;应 用 无 需 知 道 文 件 具 体 存 放 位 置 , 使 用 简 单 ;l 文 件 分 块 存 储 ( 1块 缺 省 64MB), 不 同 块 可分 布 在 不 同 机 器 节 点 上 , 通 过 元 数 据 记 录 文件 块 位 置 ; 应 用 顺 序 读 取 各 个 块l 系 统 设 计 为 高 容 错 性 , 允 许 廉 价 PC故 障 ;每 块 文 件 数 据 在 不 同 机 器 节 点 上 保 存 3份 ;这 种 备 份 的 另 一 个 好 处 是 可 方 便 不 同 应 用 就近 读 取 , 提 高 访 问 效 率缺 点l 适 合 大 数

31、 据 文 件 保 存 和 分 析 , 不 适 合 小 文 件 ,由 于 分 布 存 储 需 要 从 不 同 节 点 读 取 数 据 , 效率 反 而 没 有 集 中 存 储 高 ; 一 次 写 入 多 次 读 取 ,不 支 持 文 件 修 改l 是 最 基 础 的 大 数 据 技 术 , 基 于 文 件 系 统 层 面提 供 文 件 访 问 能 力 , 不 如 数 据 库 技 术 强 大 ,但 也 是 海 量 数 据 库 技 术 的 底 层 依 托l 文 件 系 统 接 口 完 全 不 同 于 传 统 文 件 系 统 , 应用 需 要 重 新 开 发上 层 应 用 Yahoo Amazon F

32、acebook Ebay 淘 宝 百 度 中 国 移 动 飞 信 中 国 移 动 大 云行业应用 技 术 特 点集 团 公 司 网 络 部基 于 并 行 计 算 的 分 布 式 数 据 处 理 技 术 (MapReduce)- 17 - TaskTracker(MapTask)TaskTracker(MapTask)TaskTracker(MapTask) TaskTracker(ReduceTask)TaskTracker(ReduceTask)中间结果中间结果中间结果输出数据输出数据JobTracker用户程序(JobClient)提 交 作 业任 务 调 度 任 务 调 度状 态 监 控

33、 状 态 监 控123MapReduce技术特性自动并行化:系统自动进行作业并行化处理自动可靠处理:系统自动处理节点/任务的故障检测和恢复灵活扩展:节点可以灵活加入和退出,系统自动感知节点状态并进行处理高性能:计算任务将被调度至数据所在的节点,减少网络开销,提升执行性能MapReduceMapReduce是 解 决 海 量 数 据 处 理 的 并 行 编 程 环 境集 团 公 司 网 络 部各 类 新 兴 数 据 库面 向 文 档 的 数 据 库 MongoDB基 于 内 存 的 键 值 存 储 数 据 库 Redis分 布 式 MPP架 构 /列 存 储 数 据 库 HBase分 布 式 M

34、PP架 构 /支 持 列 存 /关 系 型 数 据 库 Greenplum- 18 - 集 团 公 司 网 络 部面 向 文 档 的 数 据 库 技 术 原 理- 19 - 传 统 数 据 库 只 适 合 存 储 结 构 化 数 据 , 对 于 海 量 非 结 构 化 、 半 结 构 化 数 据 则 显 得 无 能为 力 ; 面 向 文 档 数 据 库 技 术 则 填 补 了 这 一 空 白传 统 做 法 面 向 文 档 数 据 库关 系 数 据 库 视 频 /图 像 /音 频 文 件复 杂 数 据 放 在 关 系 数 据 库 , 低 价 值大 文 件 放 在 文 件 系 统 , 彼 此 分

35、离 存储 和 访 问 数 据 库 的 记 录 就 是 文 档 , 涵 盖 各 种数 据 类 型 , 数 据 统 一 管 理 和 访 问数 据 库 可 分 布 式 部 署 , 对 外 提 供 统一 视 图数 据 库 二 维 表 行 数 据 库 集 合 文 档 技 术 特 点l分 布 式 存 储l所 有 数 据 保 存 在 文 件 中l文 件 中 所 有 数 据 基 于 结构 化 描 述 语 言 组 织 , 支持 各 种 数 据 类 型 , 包 括大 型 对 象 ( 视 频 /音 频 等 )l支 持 多 种 类 似 SQL的 数据 检 索 方 式l适 用 场 景网 站 数 据 存 储大 尺 寸 低

36、 价 值 数 据多 类 型 混 杂 的 数 据 存 储集 团 公 司 网 络 部面 向 文 档 的 数 据 库 MongoDB- 20 - MongoDB是 面 向 文 档 数 据 库 典 型 代 表 , 视 觉 中 国 网 站 采 用 MongoDB替 换 原 有 关系 数 据 库 mysql, 实 现 对 各 类 数 据 的 统 一 管 理 和 应 用DB 在 数 据 处 理 量 上 升 一 倍 的情 况 下 , 硬 件 资 源 利 用 率反 而 下 降 20% 数 据 读 取 速 度 , 从 400ms减 少 为 60ms, 效 率 提 升 6倍 数 据 文 件 , 从 200G降 到

37、了70个 G 结 构 化 数 据 与 非 结 构 化 图片 数 据 实 现 一 体 化 处 理 Schema自 由 , 大 大 提 升开 发 效 率 实 现 动 态 集 群 , 添 加 新 机器 无 需 中 断 业 务应 用 效 果关 系 数 据 库 用 户 信 息 表 MongoDB用 户 信 息 文档用 户 ID用 户 名 地 址地 址地 址个 人 站 点个 人 站 点个 人 站 点创 意 图 片创 意 图 片创 意 图 片用 户 信 息 分 多 表 存 储表 关 联 查 询图 片 文 件 另 外 存 储 , 自 行处 理 用 户 数 据 集 中 在 一 个 文 档 中数 据 与 图 片

38、文 件 一 体 化 存 储用 户 数 据 内 容 任 意 扩 展创意图片集 团 公 司 网 络 部基 于 内 存 的 键 值 存 储 数 据 库 技 术 原 理- 21 - 由 于 传 统 关 系 型 数 据 库 主 要 采 用 二 维 表 硬 盘 存 储 方 式 , 难 以 满 足 海 量 数 据 高 速 大 并发 读 写 的 需 要 , 基 于 键 值 的 分 布 式 存 储 技 术 应 运 而 生 并 得 到 广 泛 应 用关 系 数 据 库WEB应 用 服 务 器磁 盘 阵 列关 系 数 据 库 互 联 网 用 户 键 值 存 储 数 据 库 WEB应 用 服 务 器互 联 网 用 户

39、X86集 群存 储 介 质数 据 结 构获 取 方 式 硬 盘 , 读 写 速 度 慢 内 存 , 读 写 速 度 快 二 维 表 , 不 支 持 复 杂 数 据 结 构 键 值 , 值 类 型 支 持 复 杂 数 据 结 构 SQL, 支 持 复 杂 查 询 应 用 程 序 编 程 接 口 API, 不 支 持 复 杂 查 询 技 术 特 点l 以 内 存 为 主 要 存 储 区 域 ,读 写 速 度 最 快 , 硬 盘 用于 周 期 性 备 份l 键 值 ( KEY-VALUE)结 构 ,基 于 KEY实 现 分 区 存 储 ,从 而 支 持 分 布 式 部 署 ,提 高 并 发 访 问

40、能 力l VALUE支 持 链 、 集 合 等复 杂 数 据 结 构 , 便 于 程序 直 接 使 用 , 减 少 处 理环 节l 适 合 海 量 数 据 实 时 大 批量 简 单 读 写存 储 模 式 磁 盘 阵 列 集 中 存 储 支 持 X86分 布 式 部 署 KEY1 VALUE1KEY2 VALUE2KEY-n VALUE-n数 据 在 内 存 中 存 储 和 处 理集 团 公 司 网 络 部基 于 内 存 的 键 值 存 储 数 据 库 Redis- 22 - 键 值 存 储 技 术 的 典 型 产 品 是 Redis, 由 Vmware公 司 研 发 并 提 供 开 源 , 国

41、 内 最 大 的 应用 是 新 浪 微 博 , 有 200多 台 物 理 机 运 行 RedisRedis服 务 器 内 存Redis服 务 器 内 存Redis服 务 器 内 存Redis服 务 器 内 存读 取应 用 服 务 器 写 入写 入写 入写 入 新 浪 微 博 需 要 为 千 万 级 用 户 实 时 快 速 计 算并 刷 新 关 注 、 粉 丝 、 微 博 的 计 数 , 并 对 用户 及 时 通 知 新 消 息 等 , 采 用 Redis使 所 有 操作 都 在 多 台 机 器 的 内 存 中 并 发 进 行 , 读 写效 率 提 升 至 少 15倍 以 上集 团 公 司 网

42、络 部分 布 式 MPP架 构 /列 存 储 数 据 库 HBase- 23 - Hadoop HBase 是 分 布 式 MPP架 构 、 列 式 存 储 数 据 库 的 典 型 代 表数据节点 数据节点 数据节点Hadoop分 布 式 文件 系 统HBase分 布 式 数据 库 海 量 数 据 表( 例 : 用 户 行 为 分 析 )数 据 分 区 , 并 发 读 写 , 根 据 数 据 量 增 长 自 动 横 向 扩 展 分 区用 户 名 A-D 用 户 名 E-H 用 户 名 W-Z表 分 区 表 分 区 表 分 区数 据 物 理 存 储 位 置 透 明 , 采 取主 备 方 式 确

43、保 可 靠 存 储 , 可 动态 增 加 数 据 节 点 机 器 大 数 据 量 PB级 分 布 式 并 发 处 理 效 率 高 易 扩 展 、 动 态 伸 缩 适 用 于 廉 价 设 备 集 群 适 合 基 于 列 的 读 操 作 , 不适 合 基 于 行 的 写 操 作 不 适 合 关 系 模 型 数 据 组 织模 式 Hbase特 点 Yahoo Amazon Facebook Ebay 淘 宝 百 度 中 国 移 动 飞 信行 业 应 用X86 PC服 务 器 X86 PC服 务 器 X86 PC服 务 器集 团 公 司 网 络 部分 布 式 MPP架 构 /支 持 列 存 /关 系

44、型 数 据 库 Greenplum- 24 - EMC公 司 的 商 业 产 品 GreenPlum是 一 个 基 于 分 布 式 文 件 存 储 、 MPP分 布 式 处 理 架构 的 数 据 库 , 同 时 支 持 行 存 与 列 存 , 并 且 仍 然 保 持 了 关 系 数 据 模 型外 部 数 据 源并 行 装 载 或 导 出Segment节 点执 行 查 询 计 划 及数 据 库 存 储 管 理网 络 互 联Master节 点生 成 查 询 计 划 并 派发 汇 总 执 行 结 果 SQL语 句 巨 人 网 络 征 途 游 戏 后 台 采用 GreenPlum作 为 用 户 行为

45、分 析 手 段 , 比 原 有 系 统完 整 应 用 提 高 80倍 效 率 ,单 笔 查 询 提 高 120倍主 要 客 户 包 括 : NASDAQ、 FOX、 巨 人 网 络 、 阿 里 巴 巴 、 中 信 银 行 、 淘 宝 等- 24 - 集 团 公 司 网 络 部分 布 式 MPP数 据 仓 库 代 表 产 品 特 性 比 较- 25 - 产 品 名 称 应 用 场 景 接 口 方 式 扩 展 能 力 X86平 台 LinuxGreenplum OLAP/OLTP 标 准 SQL 最 大 支 持 达 万 个 节 点 支 持 支 持Teradata OLAP 标 准 SQL( SQL

46、-92) 可 达 4096节 点 , 最 大数 据 量 超 过 100PB 支 持 支 持netezzaOLAP 标 准 SQL 110台 一 体 机 , 可 管理 PB级 数 据 量 , 新 一代 产 品 会 更 高 不 支 持 , 仅 支 持 专有 一 体 机 硬 件 支 持infobright OLAP 标 准 SQL 具 备 较 强 并 行 扩 展 能力 支 持 支 持Exadata OLAP/OLTP 标 准 SQL 支 持 多 机 扩 展 满 足 大数 据 量 管 理 需 求 支 持 , 但 性 能 劣 于专 有 一 体 机 硬 件 支 持集 团 公 司 网 络 部大 数 据 方

47、案 与 应 用 案 例Hadoop项 目 群Hadoop + MPP RDB混 搭 架 构信 令 监 测 系 统 数 据 存 储 架 构 优 化 方 案飞 信 系 统 好 友 智 能 推 荐 方 案BOSS系 统 WAP话 单 清 洗 /转 换 /汇 总 /分 析- 26 - 集 团 公 司 网 络 部Hadoop项 目 发 展 历 程2002年 : Nutch项 目 启 动 , 用 于 互 联 网 网 页 的 抓 取 和 搜 索2003年 : Google披 露 GFS, 2004则 实 现 了 Nutch Distributed Filesytem (NDFS)2004年 : Google

48、 MapReduce发 布 , 2005年 则 实 现 了 Nutch MapReduce并 移 植 到 NDFS上2006年 2月 : Hadoop成 为 一 个 独 立 的 项 目 , 同 时 Doug Cutting加 入 Yahoo!2008年 1月 : Hadoop成 为 Apache的 顶 级 项 目2008年 4月 : Hadoop集 群 在 Sortbenchmark中 获 得 第 一 名 ( 910台 服 务 器 , 排 序 1TB数 据 , 209秒 )- 27 - Hadoop起 源 于 Doug Cutting的 Apache Nutch项 目 , 是 Apache资

49、助 的一 个 顶 级 开 源 项 目 , Hadoop不 仅 仅 是 一 个 产 品 , 更 是 一 套 生 态 系 统集 团 公 司 网 络 部Hadoop项 目 组 成- 28 - ;Hadoop核 心 子 项 目HDFS: 是 一 个 分 布 式 文 件 系 统HBase: 是 一 个 基 于 HDFS、 列 存 储 数 据 库 , 提 供 海 量 数 据 存 储 能 力MapReduce: 是 一 个 编 程 环 境 , 提 供 并 行 处 理 框 架 , 用 于 对 HBase和 HDFS的 访 问Hive: 提 供 类 似 SQL的 查 询 语 言 , 通 过 MapReduce完 成 计 算 , 实 现 对 HBase的 访 问- 28 - 集 团 公 司 网 络 部案 例 : “ Hadoop + MPP RDB” 混 搭 架 构在 Hadoop + MPP RDB架 构 中Hadoop负

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公文档 > 方案计划

copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1