5.5 数据挖掘及其应用
随着信息量的增加,人们越来越需要工具和手段来对大批量的信息进行加工,从中找出规律与趋势。在信息处理技术中,这被称为数据挖掘(Data Mining)。数据挖掘的作用主要是预测。
数据挖掘与统计的主要区别是:使用数据挖掘工具的人是商业的最终用户而不是统计学家。数据挖掘能够将统计过程自动化,得到的结果比较容易理解和使用,减少最终用户的负担。
凡在数据库中寻找到现存的有用信息时,称之为“发现”,这是数据挖掘的功能之一。当我们在寻找能够预测未来走势的信息时,称之为“预测”。
数据挖掘主要有四类产品:⑴目标方案。主要将数据挖掘用于某一特殊问题或领域。因此能够将数据挖掘算法中的复杂性降低或进行自动化处理。⑵商业工具。主要目的是帮助商业最终用户能方便地使用和理解数据挖掘,以便能够从这些工具中得到有用的信息,避免错误的使用挖掘工具。⑶商业分析工具。主要是提供给那些对数据挖掘工作和变量代表的含义有些了解的用户使用。⑷研究分析工具。是为数据挖掘研究者或统计分析人员使用的。通常包括大量的统计、图形和可视化软件,同时包括一些最新的前沿技术。
对数据挖掘产品的评价通常从三方面考虑:⑴商业评价,它更多考虑市场特点。⑵应用评价,立足于比较细节的层次,说明某一技术在哪个应用领域效果最好。⑶算法评价,是最详细的评价,它是从数据挖掘的最低层来比较这些技术