ImageVerifierCode 换一换
格式:DOC , 页数:19 ,大小:1.38MB ,
资源ID:367309      下载积分:2000 积分
快捷下载
登录下载
邮箱/手机:
温馨提示:
如需开发票,请勿充值!快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝扫码支付 微信扫码支付   
注意:如需开发票,请勿充值!
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【http://www.mydoc123.com/d-367309.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(旅游大数据平台方案.doc)为本站会员(王申宇)主动上传,麦多课文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知麦多课文库(发送邮件至master@mydoc123.com或直接QQ联系客服),我们立即给予删除!

旅游大数据平台方案.doc

1、 1 / 19 旅游研究院 大 数据挖掘与分析 科研平台建设方案 2 / 19 一 . 背景 1.1 数据挖掘和大数据分析行业背景和发展趋势 移动互联网、电子商务以及社交媒体的快速发展使得企业需要面临的数据量成指数增长。根据 IDC 数字宇宙 (Digital Universe)研究报告显示, 2020 年全球新建和复制的信息量已经超过 40ZB,是 2015 年的 12 倍 ;而中国的数据量则会在 2020 年超过 8ZB,比 2015 年增长 22 倍。数据量的飞速增长带来了大数据技术和服务市场的繁荣发展。 IDC 亚太区 (不含日本 )最新关于大数据和分析 (BDA)领域的市场研究表明,

2、大数据技术和服务市场规模将会从 2012 年的 5.48 亿美元增加到 2017 年的 23.8 亿美元,未来 5 年的复合增长率达到 34.1%。该市场涵盖了存储、服务器、网络、软件以及服务市场。数据量的增长是一种非线性的增长速度。 据 IDC 分析报道 ,最近一年来,亚太区出现了越来越广泛的大数据和分析领域的应用案例。在中国,从互联网企业,到电信、金融、政府这样的传统行业,都开始采用各种大数 据和分析技术,开始了自己的大数据实践之旅 ;应用场景也在逐渐拓展,从结构化数据的分析,发展到半结构化、非结构化数据的分析,尤其是社交媒体信息分析受到用户的更多关注。用户们开始评估以 Hadoop、数据

3、库一体机以及内存计算技术为代表的大数据相关新型技术。 最新调研结果显示,提高竞争优势,降低成本以及吸引新的客户是中国用户对大数据项目最期望的三大回报。目前现有的大数据项目主要集中在业务流程优化以及提高客户满意度方面的应用。 IDC 发现很多用户希望大数据能够为企业带来业务创新,并且开始使用高级分析的解决方案以管理复杂的 数据环境。过去一年中用户对社交数据的收集和分析应用的关注度增加明显。未来,地理位置信息分析将会增长迅速,这也会推动用户对大数据安全和隐私管理的关注。在亚太区,澳大利亚和新加坡的用户对大数据的相关投资主要在咨询服务方面,更关注如何根据新的最佳实践需求设计和实施方案。中国和印度在大

4、数据领域的硬件投资则非常明显,更倾向于数据中心相关的基础架构的投资。 3 / 19 在传统的数据分析与商业数据挖掘中,人们通常遵循二八原则。也就是任务20%的用户提供了 80%的价值,因此利用优势资源用户对于少数用户的服务。随着互联网的发展,越来越多的低价值用户进入到商业体系中,这部分用户成为商业企业竞争的目标。比如电商行业,大量顾客都是传统意义上的低价值客户,数据表明对于这部分用户价值的挖掘可以改变二八原则,甚至可达到价值的几乎均匀分布。并且由于计算技术的发展,对于大数据的分析也成为了可能。 1.2 旅游行业开展大数据分析及应用的意义 旅游行业有行业广、规模大、移动性强的特点,因此更加依赖大

5、数据。 当前,旅游业也在“新常态”下迎来了升级的挑战和变革的机遇,新常态对于一般的经济部门是经济速度放慢、人均 GDP 增速减小,很多传统行业在调整结构,但新常态对旅游行业却是速度加快的。旅游大数据的解决之道,在于整合国内多途径的大数据源,形成旅游大数据生态,为国内旅游业提供大数据解决方案,促进旅游业的转型升级。 1.3 数据挖掘与大数据分析科研平台建设的必要性 数据挖掘与大数据分析是以计算机基础为基础 , 以挖掘算法为核心 , 紧密面向行业应用的一门综合性学科 。 其主要技术涉及概率论与数理统计 、 数据挖掘 、算法与数据结构 、 计算机网络 、 并 行计算等多个专业方向 , 因此该学科对于

6、 科研平台 具有较高的专业要求 。科研平台不仅要提供基础的编程环境,还要提供大数据的运算环境以及用于科学研究的实战大数据案例。这些素材的准备均需完整的科研平台作为支撑。 目前,在我国高校的专业设置上与数据挖掘与大数据分析相关的学科专业包括 :计算机科学与技术、信息管理与信息系统、统计学、经济、金融、贸易、生物信息 、 旅游 以及公共卫生等。这些专业的在使用科研平台时的侧重点各不相同,使用人员层次水平也不相同,对算法的使用也不相同,因此,需要建设一个便利、操作简易、算法全面、可视化的大数 据科研平台是非常有必要的。 4 / 19 二 . 数据挖掘与大数据分析科研平台总体规划 2.1 科研平台规划

7、 科研平台 建设的基本原则是科研 为主, 同时 为 教学实验 提供部分计算资源及安全资源, 系统在授权范围内共享科研系统的计算资源 , 提高教学实验的真实性 。 项目的总体架构如图 1 所示。 2 1 U2 U2 U2 U2 U2 U2 U2 U2 U2 1 U2 U2 U2 U2 U2 U2 U2 U2 U2 1 U2 U2 U2 U2 U2 U2 U2 U2 U2 1 U2 U2 U2 U2 U2 U1 0 U核 心 交换 机千 兆 数 据交 换 机千 兆 数 据交 换 机H a d o o p 集 群可 视 化 计 算集 群虚 拟 化 实 验集 群H a d o o p 集 群大 数 据

8、 科 研 环 境图 1.总体架构图 系统整体由千兆核心交换机作为核心节点 , 并以两个千兆接入交换机作为科研与实验环境的交换节点 。科研环境由我司开发的商业 Hadoop 集群为基础,上5 / 19 层集成便于操作的大数据科研应用系统,集成 10TB 大数据案例集及可拖拽的数据算法和可视化算法。 2.2 科研平台功能规划 本 科研平台 针对数据挖掘有大数据分析研究内容 , 兼顾科研与教学的需求 ,既能满足科研工作中对大数据分析高性能平台要求也具有教学实验平台简单易用的特点 。 1) 大数据 资源规划 内置 商业级 数据资源, 按 常见科研分类规划数据资源, 可以 直接用于科学研究, 具有 数据

9、资源授权管控功能 。 2) 大数据分析 功能规划 建设以 商业版 Hadoop 为核心的大数据分析平台 , 系统提供 MapReduce 以及Spark 等大数据挖掘功能 。 系统具有完整的管理调度功能 。 3) 硬件资源功能规划 系统具有 24 个 Intel Xeon E5 CPU 计算能力 ,提供超过 40TB 的存储能力以及 1T 以上的内存,可满足 1000 任务共时计算内能,方便扩充。 6 / 19 三 . 数据挖掘与大数据分析科研平台建设方案 3.1 大数据科研平台设备架构 机 架 1计 算 节 点计 算 节 点接 口 节 点接 口 节 点主 节 点高 性 能 交 换 机机 架

10、2计 算 节 点计 算 节 点计 算 节 点计 算 节 点备 份 主 节 点高 性 能 交 换 机机 架 3计 算 节 点计 算 节 点计 算 节 点计 算 节 点管 理 节 点高 性 能 交 换 机图 3.设备架构 3.1.1 主节点和备份主节点 主节点负责整个分布式大数据平台的运行。主节点始终在内存中保存整个文件系统的目录结构,每个目录有哪些文件,每个文件有哪些分块及每个分块保存在哪个计算上,用于处理读写请求。同时,主节点还负责将作业分解成子任务,并将这些子任务分配到各个计算节点上。备份主节点在主节点发生故障时承担主节点的各种任务,使得分布式大数据平台仍然能够正常运行。 3.1.2 管理节

11、点 管理节点用于管理整个分布式大数据平台,可进行节点安装、配置、服务配置等,提供网页窗口界面提高了系统配置的可见度,而且降低了集群参数设置的复杂度。 7 / 19 3.1.3 接口节点 终端用户通过接 口节点连接和使用分布式大数据平台,提交任务并获得结果,并可以用其他数据分析工具做进一步处理,与外界进行数据交互(如连接关系型数据库)。 3.1.4 计算节点 分布式大数据平台包含了多个计算节点。计算节点是系统中真正存储数据和做数据运算的节点。每个计算节点周期性地和主节点通信,还时不时和客户端代码以及其他计算节点通信。计算节点还维护一个开放的 socket 服务器,让客户端代码和其他计算节点通过它

12、可以读写数据,这个服务器还会汇报给主节点。 3.2 大数据科研平台底层架构 大数据科研平台 低层架构 以 我司自主 研发的商业版 Hadoop 为基 础架构 , 包含和大数据分析 、 数据挖掘 、 机器学习等功能模块 ,并以 HDFS 以及 Hbase 作为存储基础。 分 布 式 存 储 ( S e n t r y )分 布 式 资 源 调 度 管 理( Y A R N )分 布 式 持 久 化 数 据 存 储 ( H D F S )分 布 式 实 时 数 据 库( H b a s e )批 处 理( M a p R e d u c e , P i g )交 互 式 S Q L 引 擎( H

13、i v e )机 器 学 习 算 法 库( M a h o u t )内 存 计 算( S p a r k )任 务 执 行 调 度 接 口( S h e l l )数 据 交 互 接 口( J D B C , O D B C )统 计 建 模( R )管 理 监 控( H o n y a E S - d a t a )图 2. 软件架构 8 / 19 3.2.1 分布式持久化数据存储 HDFS Hadoop 分布式文件系统( HDFS)被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。 HDFS 是一个高度

14、容错性的系统,适合部署在廉价的机器上。 HDFS 能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。 HDFS 放 宽了一部分 POSIX 约束,来实现流式读取文件系统数据的目的。 3.2.2 分布式实时数据库 HBase HBase 是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的 Google 论文“ Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable 利用了 Google 文件系统(所提供的分布式数据存储一样, HBase 在Hadoop 之上提供了类似于 BigTable 的能力。 HBase 是 Apache 的 Hadoop

15、 项目的子项目。 HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数 据库。另一个不同的是 HBase 基于列的而不是基于行的模式。 3.2.3 分布式资源调度管理 YARN Yarn 是 Hadoop2.0 的 MapReduce 框架。 YARN 分层结构的本质是 ResourceManager。这个实体控制整个集群并管理应用程序向基础计算资源的分配。 ResourceManager 将各个资源部分(计算、内存、带宽等)精心安排给基础 NodeManager ( YARN 的每节点代理)。 ResourceManager 还与 ApplicationMaster 一起分

16、配资源,与 NodeManager 一起启动和监视它们的基础应用程序。在此上下文中, ApplicationMaster 承担了以前的 TaskTracker 的一些角色, ResourceManager 承担了 JobTracker 的角色。 3.2.4 交互式 SQL引擎 Hive Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的 SQL 查询功能,可以将 SQL 语句转换为MapReduce 任务进行运行。 其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应

17、用,十分适合数据仓库的统计分析。 9 / 19 3.2.5 内存计算 Spark Spark是 UC Berkeley AMP 实验室所开源的类 Hadoop MapReduce 的通用的并行计算框架。 Spark 拥有 Hadoop MapReduce 所具有的优点;但不同于MapReduce 的是 Job 中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce 算 法。 3.3 科研平台的功能 3.3.1 科研项目管理 在 科研 平台中, 科研 计算是以 计算 项目来保存的,包括了 计算 项目建立、计算项目维

18、护、计算项目设计、 计算 项目运行和结果 可视化 等几个环节。从技术角度来说,计算项目中也包括了 算法组件 、 算法 流程和数据集,一旦设计完后, 就可 用于 计算, 后期 还可以调整算法和基于新的数据资源进行计算。 计算项目 完成后,可以 训练 出算法模型, 在新 的计算项目中使用已经训练好的模型 进行 数据的预测, 形成 一次训练多次 使用 的算法实现。 3.3.2 平台 内置 数据 集 在科研工作中 , 如何获取到 海量高 质量大 数据 资源 是最大的难点。 目前在互联网等渠道是很难找到科研工作所需的数据源, 尤其是经过 数据 清洗 和治理后 的高质量数据 。 数据超市 平台 利用以下模

19、式, 通过 外部的资源,为高校的科研工作提供优质数据资源: 1) 通过商务 合作的模式, 直接 与 数据 所有权拥有者进行灵活的商务沟通,获得 科研 的数据使用授权; 2)邀请行业内 优质 的第三方数据服务提供商 入驻 数据超市平台; 3) 通过 数据采集的 方式 , 经过 数据寻源、 采集、治理 、 清洗后 ,引入 具有公开 版权 的数据资源; 所有引入数据都 会 经过数据工程师的严格审核, 保证 数据的清洁和质量,可以直接 用于 数据计算。 10 / 19 如 平台内置的专利数据, 包括 了国内 近 2000 万 各类商业 数据, 并且不断 更新, 可以 直接 用于 旅游各方面 的 科学研

20、究 。有别区目前 行业 提供的数据库, 数据超市直接提供了原始的数据, 可以打通 其他的行业数据,用于深层次的数据分析和经济预测。 3.3.3 科研 数据上传 科研老师已有的数据 可以 上传到平台参与数据计算, 老师 可以 在 平台上建立数据表, 然后 把本地数据文件上传到数据表中。 也 可以 维护外部 的 JDBC 数据源, 平台 会把外部数据自动抽取到平台中进行计算和预测。 3.3.4 集成算法 组件 为了便于科研老师 快速 进行科研数据的 加工 、 分析 和计算 , 数据超市平台 集成了 50 多种 通用大数据 算法 组件 ,包括回归算法、分类算法、聚类算法、关联规划算法、推荐算法、预测

21、评估、数据预处理算法、机器学习等。所有的算法无须重新编程,只需要拖拽绘图完成即可进行计算,如下图: 算法 组件经过配置 可以实现 强大的自定义计算功能和效果,调整后的模型可以完成老师需要的数据 分析 和预测。 11 / 19 3.3.5 科研平台可视化功能 提供 20 余种可视化展示模式,一键选择,一键切换,可按使用者需求展示大数据之美, 根据 需要展示对应的纬度, 并 可以一键 生成 高质量 PNG 文件,保存到本地后 可 用于科研报告和论文等。 12 / 19 四 . 平台 数据集 清单 科研平台为方便用户快速开展科学研究、生成科研数据报告,平台提供了 一些通用的 数据集 , 包括各类 标

22、准科研数据 等 。 平台 也内置 了 数百款 可选 数据 集 , 分为多个数据包, 总量 近 10TB, 并且随商务和采集工作推进, 仍 在不断增加中。 五 . 定制数据服务 根据 科研老师的需求,数据超市平台提供数据采集和商务合作等定制数据引入模式,数据引入后, 可以 直接 引入 数据超市,由老师来进行使用。 如 老师需要 旅游服务评价类 数据进行 服务 情况的分析和预测, 可以直接 通过数据超市内 的 数据定制模块提出数据需求,经 数据 超市平台管理员汇总后,可以通过数据超市平台进行数据的准备, 交给 老师进行使用。 六 . 科研平台算法清单 平台集成的算法包括 72 种 ,全部来自科研

23、网站 , 经过 了商业机构的验证,引入 平台后 完成 了 分布式优化 , 可以高效 执行 ,详细如下表: 序号 算法分类 算法名称 算法描述 1 回归算法 线性回归 利用线性模型对数值型变量进行拟合。 2 回归算法 决策树回归 利用平方误差最小化准则,进行特征选择,生成二叉树,从而对对数值型变量进行拟合 3 回归算法 随机森林回归 以回归决策树为基模型,将一定数量的基模型组合对数值型变量拟合,并对基模型的预测结果平均作为算法的最终结果 4 回归算法 梯度提升回归树 以二叉回归决策树为基函数的加法模型与前向分步结合的算法 ,通过对损失函数在当前模型的预测值的梯度作为近似残差进行拟合,从而对数值型

24、变量预测。 5 分类算法 逻辑回归二分类 对目标变量为二值型分类变量,建立参数化逻辑斯谛分布,即 sigmoid 函数,近似条件概率分布,以实现二值分类。 13 / 19 6 分类算法 逻辑回归多分类 逻辑回归多分类 ,k 个独立的 logistic 回归分类器与onevsall 结合的分类模型 ,分类对象类别之间不是互斥的 7 分类算法 Softmax 回归多分类 Softmax 回归就是逻辑回归的一般形式 ,是 logistic回归模型在多分类问题上的推广 ,分类对象类别是互斥的 8 分类算法 决策树分类 利用信息增益准则或基尼指数最小化准则,进行特征选择,生成二叉树,从而对对目标变量为离

25、散变量的数据进行分类 9 分类算法 随机森林分类 以分类决策树为基模型,将一定数量的基模型组合对离散型的目标变量拟合,并根据基模型的预测结果进行投票,以占多数结果的种类作为算法的最终结果 10 分类算法 梯度提升分类树 以二叉分类决策树为基函数的加法模型与前向分步结合的算法 , 通过对损失函数在当前模型的预测值的梯度作为近似残差进行拟合,从而对分类型目标变量预测。 11 分类算法 BP 神经网络 以感知器为基函数,通过将当前基函数的的输出作为下一个感知器的输入,从而实现对离散型分类变量的分类 12 分类算法 贝叶斯分类 基于贝叶斯定理与特征条件独立假设,对给定数据集,学习输入输出的联合概率分布

26、,利用贝叶斯原理输出后验概率最大的预测类作为预测结果 13 分类算法 支持向量机分类 在感知机的基础上,通过在特征空间上间隔最大和核技巧,实现对二类目标变量分类 14 聚类算法 K 均值聚类 将无标记样本根据特征空间中的数据结构,划入 K个不相交的子集中 15 聚类算法 二分 K 均值聚类 K 均值聚类的改进版,能克服原算法收敛局部最小的缺点,每次选其中一簇分成两簇。 16 聚类算法 高斯混合模型 对于符合高斯分布的数据,假设存在 K 个高斯模型,将数据反复迭代,期望极大化。将样本聚到后验概率最大的模型类下。 17 关联规则算法 频繁项集挖掘算法( FP-Growth) 主要分为两个步骤: F

27、P-tree 构建、递归挖掘 FP-tree。挖掘出共同出现的频繁物品集。 18 推荐算法 协同过滤算法 协同过滤是在海量数据中挖掘出某部分与目标客户行为类似的数据,并根据某种指标对其进行排序。 19 预测评估 分类预测及评估 分类算法中,在已有训练数据训练模型的基础上,将未训练的数据代入算法中,预测结果与实际目标变量比对评估,检测模型的性能。 14 / 19 20 预测评估 回归预测及评估 回归算法中,在已有训练数据训练模型的基础上,将未训练的数据代入算法中,预测结果与实际目标变量比对评估,检测模型的性能。 21 预测评估 聚类预测及评估 聚类算法中,在已有训练数据训练模型的基础上,将未训练

28、的数据代入算法中,预测结果与实际数据类型比对评估,检测模型的性能。 22 预测评估 推荐评估 推荐算法中,在已有训练数据训练模型的基础上,将未训练的数 据代入算法中,预测结果与物品类目比对评估,检测模型的性能。 23 数据预处理 归一化 将有量纲的数据转化为无量纲的数据, min-max 标准化 24 数据预处理 Join-两表关联 类似 sql join 的功能,将两张表通过一个字段对或者多个字段对的相等关系关联合成一张表 25 数据预处理 类型转换( string 类型转换数值类型) 将不同数据的类型按需要进行转换 26 数据预处理 Union 对不同数据集取并集 27 数据预处理 标准化

29、 /正则化 标准化是将数据缩放到一个区间范围内,如正态分布,小数定标,逻辑斯谛分布。正则化是利用先验知识,对模型增加约束,防止过拟合。 28 数据预处理 缺失值填充 对数据中某项数值所对应的某些样本缺失,通过某种先验假设,根据样本其他已知数据项对缺失值拟合预测。 29 数据预处理 拆分 按照比例拆分样本集,如设置 0.6,切分成 60:40 两个样本集。 30 数据预处理 随机采样 当数据量过大或模型训练批容量有限时,随机采取一定量 /比例的样本集。 31 数据预处理 增加序列号 在数据表第一列追加 ID 列。 32 数据预处理 Select 数据库查询操作, 查询 某限定条件下的样本 33

30、数据预处理 Select_Distinct 数据库查询操作, 查询某限定条件下并过滤掉重复的样本 34 数据预处理 Select_Where 数据库查询操作,查询指定条件下的样本 35 数据预处理 Select_And_Or 数据库查询操作,查询条件的交集与并集 36 数据预处理 Select_OrderBy 数据库查询操作,查询结果按某指标排序 37 数据预处理 Select_Limit 数据库查询操作,查询某限定段的数据 38 数据预处理 Select_Like 数据库查询操作,查询包含指定字段的数据 39 特征工程 主成分分析 数据降维去噪常用方法,对数据的协方差矩阵取前K 个最大方差方

31、向作为新的数据方向。 40 特征工程 Onehot 编码 用户将特征值进行二元编码映射成二元向量,并与数值向量进行拼接 42 特征工程 特征尺度变换 由于计算需要或根据数据特点将某特征对应数据项进行缩放,不改变样本间该数值项的相对大小 43 特征工程 特征重要性分析 指根据数据集各项特征在算法模型中对目标变量的相对重要程度的分析,从而提出冗余特征,关注15 / 19 重要特征,提高算法模型的效率准确性 44 特征工程 特征离散 对连续型特征按某方法转换为离散型变量 45 文本分析 SplitWord 分布式 jieba 分词接口,基于 Trie 树结构实现高效的词图扫描,生成句子中汉字所有可能

32、成词情况所构成的有向无环图( DAG);采用了动态规划查找最大概率路径 , 找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法 46 文本分析 文档主 题生成模型( LDA) LDA(Latent Dirichlet allocation),是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量 k 即可。 LDA 首先由 David M. Blei、 Andrew Y. Ng 和 Michael I. Jordan 于 2

33、003年提出,目前在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。 47 文本分析 TF 特征 将文本文档的集合转换为词频计数的向量。 48 文本分析 HashingTF 特征 使用散列技巧将一系列词语映射到其词频的向量,HashingTF 的过程就是对每一个词作了一次哈希并对特征维数取余得到该词的位置,然后按照该词出现的次数计次。所以就不用像传统方法一样每次维护一张词表,运用 HashingTF 就可以方便的得到该词所对应向量元素的位置。当然这样做的代价就是向量维数会非常大,好在 spark 可以支持稀疏向量,所以计算开销并不大。 49 文本分析 TF-IDF 特征

34、TF-IDF( term frequencyinverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术。 TF-IDF 是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。 TF-IDF 加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。 50 文本分析 字符串相似度 一个字符串转换成另外一个字符串的代价,转换的代价越高则说明两个字符串的相似度越低。 51 文本分析 停用词过滤 针对文档数据,将包含的特定

35、词汇过滤掉,不计入统计数据中 52 文本分析 Word2Vec Word2Vec 是一种著名的 词嵌入( Word Embedding) 方法,它可以计算每个单词在其给定语料库环境下的 分布式词向量( Distributed Representation,亦直接被称为词向量)。词向量表示可以在一定程度上刻画每个单词的语义。如果词16 / 19 的语义相近,它们的词向量在向量空间中也相互接近,这使得词语的向量化建模更加精确,可以改善现有方法并提高鲁棒性。词向量已被证明在许多自然语言处理问题,如:机器翻译,标注问题,实体识别等问题中具有非常重要的作用。 Word2Vec 具有两种模型,其一是 CB

36、OW ,其思想是通过每个词的上下文窗口词词向量来预测中心词的词向量。其二是 Skip-gram,其思想是通过每个中心词来预测其上下文窗口词,并根据预测结果来修正中心词的词向量。该组件目前只支持后者。 53 文本分析 词频统计 在对文章进行分词的基础上,按行保序输出对应文章 ID 列 (docId)对应文章的词 ,统计指定文章 ID 列(docId)对应文章内容 (docContent)的词频。 54 文本分析 文本摘要 通过 pagerank算法计算得到的重要性最高的若干句子可以当作摘要。 55 文本分析 关键词提取 全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语 5

37、6 文本分析 长句拆分 根据长句中的标点符号将句子进行分割成多个短句 57 工具算法 sql 脚本 用户可以在该组件自定义的 SQL 脚本从而完成对数据的转换处理 58 统计分析 单样本 T 检验 单样本 T 检验:单样本 t 检验( one-sample t-test)又称单样本均数 t 检验,适用于样本均数 x 与已知总体均数 u0 的比较,其比较目的是检验样本均数 x所代表的总体均数 u0 是否与已知总体均数 u0 有差别。已知总体均数 u0,一般为标准值、理论值或经大量观察得到的较稳定的指标值。 T 检验的前提是样本总体服从正态分布 59 统计分析 配对样本均数 T 检验 配对样本均数

38、 t 检验( paired t test) ,又称非独立两样本均数 t 检验,适用于配对设计计量资料均数的比较,其比较目的是检验两相关样本均数所代表的未知总体均数是否有差别。 60 统计分析 两独立样本均数 T 检验 两独立样本 t 检验 (two-sample t-test),又称成组 t 检验,它适用于完全随机设计的两样本均数的比较,其目的是检验两样本所来自总体的均数是否相等。完全随机设计是将受试对象随机地分配到两组中,每组对象分别接受不同的处理,分析比较两组的处理效应。 61 统计分析 方差齐性检验 由两样本方差推断两总体方差是否相同。有三种方差齐 性检验的方法可供选择。选用 Bartl

39、ett 检验:如果我们的数据服从正态分布,那么这种方法将是最为适用的。对于正态分布的数据,这种检验极为灵敏;而当数据为非正态分布时,使用该方法则很容易导致假阳性误判。 Levene 检验:当样本数据偏17 / 19 态或者非正态性的情况下,选用 Levene 检验鲁棒性与精度比 Bartlett 检验好。 Fligner-Killeen 检验: 这是一个非参数的检验方法,完全不依赖于对分布的假设。 62 统计分析 卡方适配度检验 卡方适配度检验, Chi-Square Goodness of Fit Test.验证一组观察值的次数分配是否异于理论上的分配。其 H0 假设(虚无假设, null

40、hypothesis)为一个样本中已发生事件的次数分配会服从某个特定的理论分配。通常情况下这个特定的理论分配指的是均匀分配 63 统计分析 卡方独立性检验 卡方独立性检测, Chi-Square Independence Test,验证从两个变量抽出的配对观察值组是否互相独立。其虚无假设是:两个变量呈统计独立性。 64 统计分析 百分位 对一个存在的表,单列数据计算百分位 65 统计分析 皮尔森相关系数矩阵 计算 两两字段(数值型)的皮尔森相关系数。 66 统计分析 全表统计 分别计算全表的每个字段的统计信息,包括缺省值、最大最小值、方差、偏值等等。 67 统计分析 Quantile 分位数统

41、计信息指标 68 统计分析 协方差矩阵 协方差用于衡量两个变量的总体误差 69 统计分析 箱线图 它是用一组数据中的最小值、第一四分位数、中位数、第三四分位数和最大值来反映数据分布的中心位置和散布范围,可以粗略地看出数据是否具有对称性。通过将多组数据的箱线图画在同一坐标上,则可以清晰地显示各组数据的分布差异,为发现问题、改进流程提供线索。 70 统计分析 洛伦兹曲线 称为洛伦士曲线,洛伦兹曲线,是美国统计学家洛伦兹提出的用来描述社会收入分配状况的一种曲线,它由累积的一定人口数占总人口中的百分比与这部分人口所获得的收入占总收入中的百分比状况来表示。 71 统计分析 正态检验 正态分布检验组件支持

42、 Kolmogorov-Smirnov Test。该检验方法是比较一个频率分布 f(x)与理论分布g(x)或者两个观测值分布的检验方法。其原假设 H0:两个数据分布一致或者数据符合理论分布。目前该组件只支持检验频率分布与理论分布的一致性。 在 科研平台中可以 查看 具体的算法,还包括算法的介绍、 输入 、 输出 和使用方法 和适用场景等 信息。 18 / 19 七 . 科研平台设备清单 序号 设备 /系统名称 功能 数量 1 高校大数据挖掘与分析科研平台 科研平台基础功能。 1 2 科研计算项目管理 负责科研计算项目的管理,包括了计算项目建立、维护、设计和执行。 1 3 科研大数据挖掘算法包

43、包括机器学习、数据预处理、特征工程、文本分析、工具算法等 6 大类算法。 1 4 科研大数据可视化效果包 通过可视化效果洞察数据的关联关系,包括柱形图、折线图、残值图、面积图等 20 余种可视化效果。 1 5 数据管理模块 负责进行数据的管理功能,分为外部数据管理和内置数据源数据管理两部分,包括数据的引入和授权等功能。 1 6 计算资源管控模块 用于后台整体计算资源的使用和监控,包括计算资源的分配、使用、监督、回收和监控,更高效的利用计1 19 / 19 算资源。 7 科研数据包 _旅游 用于多学科的数据计算和预测等,包括酒店、航班、火车等旅游方面的数据,可以用于旅游人群、旅游资源的科学研究。 1

copyright@ 2008-2019 麦多课文库(www.mydoc123.com)网站版权所有
备案/许可证编号:苏ICP备17064731号-1