数据分析与挖掘
1.概述
信息分析的用途:
定性分析:逻辑推理;
定量分析:建立数学模型,计算,求解。
数据分析的对象包括:
时间序列:企业历年的数据。
截面数据:企业同一时间的数据。
2.数据统计分析
数据分析的工作(阶段)有哪些?
(1)选择数字特征;
(2)收集并整理数据;
(3)计算数字特征;
(4)建立模型;
(5)检验模型误差;
(6)利用模型预测;
(7)评价统计与预测结果。
记忆:
选择、整理、计算、建模、检验、预测、评价
3.时间数据分析方法
是按时序排列的一组来自同一现象的观察值。
(1)时间序列成分
趋势:长期持续向上或持续向下的倾向。
季节变动:实际过程受各种影响而呈现的周期性波动。
规则波动:周期不等的变动,呈涨落交替之状。
不规则波动:除去趋势、季节变动和周期波动之后的波动。
(2)时间序列建模的步骤
1)取得时间序列样本。
2)将样本点画成图,进行相关分析。
3)模式识别与拟合。
4)预测未来。
时间序列常用模型:
(1)ARMA模型
(2)回归模型
4.大数据系统和数据挖掘技术
(1)大数据
大数据常以万亿或EB衡量,且种类多、实时性 强,蕴藏的商业价值大。很多现有的新或旧的信息基础设施、工具和技术可用来开发和利用大数据中蕴藏的价值。
(2)数据挖掘
数据挖掘与数据分析不同,区别在于:
1)处理工作量;(多与少的区别)
2)制约条件;(数据挖掘不做假设,自动建立方程)
3)处理对象;(数据挖掘对象类型繁多)
4)处理结果。(数据挖掘的结果不易解释,着眼于预测未来,并提出决策建议)
(3)数据挖掘步骤
按照挖掘对象,数据挖掘分为数据库与数据仓库挖掘和网络挖掘两种。
数据挖掘一般有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘、模式评估和知识表示8个步骤。
……
例:网络信息挖掘的具体步骤有哪些?(4分)
网络信息挖掘具体步骤如下:
1)确立目标样本。
2)提取特征信息。
3)网络信息获取。
4)信息特征匹配。