互联网 > 大数据

讲述SQL Server 2008 数据挖掘的概念

1179人参与2018-06-01

  您必须了解数据,以便在创建挖掘模型时作出正确的决策。浏览技术包括计算最小值和最大值,计算平均偏差和标准偏差,以及查看数据的分布。例如,通过查看最大值、最小值和平均值,您可以确定数据并不能代表客户或业务流程,因此您必须获取更多均衡数据或查看您的预期结果所依据的假定。标准偏差和其他分发值可以提供有关结果的稳定性和准确性的有用信息。大型标准偏差可以指示添加更多数据可以帮助改进模型。与标准分发偏差很大的数据可能已被扭曲,抑或准确反映了现实问题,但很难使模型适合数据。

  借助您自己对业务问题的理解来浏览数据,您可以确定数据集是否包含缺陷数据,随后您可以设计用于解决该问题的策略或者更深入地理解业务的典型行为。

  BI Development Studio 中的数据源视图设计器包含数种可用于浏览数据的工具。

  此外,在创建模型时,Analysis Services 还会针对该模型中包含的数据自动创建统计摘要,您可以进行查询以便用于报告或进一步分析。

  生成模型

  如以下关系图中突出显示的那样,数据挖掘过程的第四步就是生成一个或多个挖掘模型。您将使用从浏览数据步骤中获得的知识来帮助定义和创建模型。

  

  通过创建挖掘结构定义要使用的数据。挖掘结构定义数据源,但只有对挖掘结构进行处理后,该结构才会包含任何数据。处理挖掘结构时,Analysis Services 生成可用于分析的聚合信息以及其他统计信息。基于该结构的所有挖掘模型均可使用该信息。

  在处理模型之前,数据挖掘模型只是一个容器,指定用于输入的列、要预测的属性以及指示算法如何处理数据的参数。处理模型也称为“定型”。定型表示向结构中的数据应用特定数学算法以便提取模式

您对本文有任何疑问!!点此进行留言回复

推荐阅读

猜你喜欢

讲述SQL Server 2008 数据挖掘的概念

06-01

《数据挖掘:概念与技术(英文版·第2版)》((加)韩家炜,等

06-01

数据挖掘在电子商务CRM中的三大金矿

06-01

WEB数据挖掘相关术语整理

06-01

转:数据挖掘可以做什么

06-01

大数据技术发展对企业数据挖掘的影响

06-01

大家都在看

讲述SQL Server 2008 数据挖掘的概念

06-01

云中市场 大数据意味着什么?

05-08

避免投资浪费 认清大数据的10大误区

07-05

大数据告诉你美国最赚钱的十大行业

03-26

数据挖掘文章-数据挖掘技术简介[转载]

06-02

中国互联网信息安全市场成长的背后,存在哪些统计数字

08-13

LinkedIn张溪梦的分析哲学:大数据要做小做快

06-10

当证券行业遇到大数据:一站式方案或受欢迎

05-30

拓展阅读

热门评论