2012年4月20日星期五

主流数据仓库产品对比分析

主流数据仓库产品对比分析

  1 介绍
  数据仓库是面向主题、集成的、与时间相关的、不可修改的数据集合。数据仓库技术是基于信息系统业务发展的需要,基于数据库系统技术发展而来,并逐步独立的一系列新的应用技术。数据仓库系统可以看作是基于数学及统计学严谨逻辑思维的并达成“科学的判断、有效的行为”的一个工具,也是一种达成“数据整合、知识管理”的有效手段。随着数据仓库技术应用的不断深入,越来越多的企业开始使用数据仓库技术建设自己的数据仓库系统,希望能对历史数据进行具体而又有针对性的分析与挖掘,以期从中发现新客户和客户新的需求。
  目前主要的数据仓库产品供应商包括Oracle、IBM、Microsoft、SAS、Teradata、Sybase、Business Objects(已被SAP收购)等。Oracle公司的数据仓库解决方案包含了业界领先的数据库平台、开发工具和应用系统,能够提供一系列的数据仓库工具集和服务,具有多用户数据仓库管理能力,多种分区方式,较强的与OLAP工具的交互能力,及快速和便捷的数据移动机制等特性;IBM公司的数据仓库产品称为DB2 Data Warehouse Edition,它结合了DB2数据服务器的长处和IBM的商业智能基础设施,集成了用于仓库管理、数据转换、数据挖掘以及OLAP分析和报告的核心组件,提供了一套基于可视数据仓库的商业智能解决方案;微软的SQL Server提供了三大服务和一个工具来实现数据仓库系统的整合,为用户提供了可用于构建典型和创新的分析应用程序所需的各种特性、工具和功能,可以实现建模、ETL、建立查询分析或图表、定制KPI、建立报表和构造数据挖掘应用及发布等功能;SAS公司的数据仓库解决方案是一个由30多个专用模块构成的架构体系,适应于对企业级的数据进行重新整合,支持多维、快速查询,提供服务于OLAP操作和决策支持的数据采集、管理、处理和展现功能;Teradata公司提出了可扩展数据仓库基本架构,包括数据装载、数据管理和信息访问几个部分,是高端数据仓库市场最有力竞争者,主要运行在基于Unix操作系统平台的NCR硬件设备上;Sybase提供了称为Warehouse Studio的一整套覆盖整个数据仓库建立周期的产品包,包括数据仓库的建模、数据集成和转换、数据存储和管理、元数据管理和数据可视化分析等产品;Business Objects是集查询、报表和OLAP技术为一身的智能决策支持系统,具有较好的查询和报表功能,提供多维分析技术,支持多种数据库,同时它还支持基于Web浏览器的查询、报表和分析决策。
  根据IDC发布的2006年数据仓库市场分析报告,上述公司占据了全球近90%的市场份额,提供的数据仓库产品的功能特性已经成为市场的主流。这些公司在推出各自的数据仓库产品的同时也提供了相应的数据仓库解决方案。本文后续内容将针对这些数据仓库产品和解决方案的主要支撑技术进行比较,并结合IDC和ChinaBI相关报告给出相应的市场情况分析。
  2 支撑技术
  在数据仓库系列技术中,主要的支撑技术包括数据库技术、ETL技术、OLAP技术、报表技术、数据挖掘技术
  2.1 数据库技术
  数据库技术是支撑数据仓库技术的基础技术。尽管在数据仓库技术存储模型方面,基于数据库技术而发展的关系模式的理念已经被颠覆,取而代之是各种各样的数据仓库数据模型,如星型模型,雪花模型等。然而,在已有的数据仓库实践中,关系数据库仍然是实质的数据库存储工具,只是将数据库表改称为了事实表和维表,将属性域之间的关系重新定义为维度,量度,层次,粒度等。
  成熟的数据仓库后台数据库包括Oracle、DB2、SQL Server、Teradata和Sybase IQ。在查询效率方面,Sybase IQ由于采用了列存储技术,查询效率比较高;在兼容性方面,Teradata从软件到硬件都必须是专用的,因而兼容性最差;在管理平台和海量数据管理方面,Oracle、DB2和SQL Server都提供了一系列完整的工具,相对于其它产品有着明显的优势;在磁盘空间利用方面,Sybase IQ的压缩比是所有数据库中最好的,而Teradata最为浪费。
  另外,SAS公司和BO公司也拥有自己的数据管理能力,但对于大型数据仓库的数据管理,仍然需要使用上述数据库产品,SAS和BO都提供了与这些数据库进行连接的专门接口。
  2.2 ETL技术
  数据仓库系统是集成的、与时间相关的数据集合,ETL作为数据仓库的核心,负责将分布的、异构数据源中的数据进行抽取、清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。ETL能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。要实现数据仓库中数据的自动更新运转,ETL技术是必不可少的关键技术之一。
  主流数据仓库产品供应商都拥有各自的ETL能力。IBM的ETL工具称为IBM WebSphere DataStage,它为整个ETL过程提供了一个图形化的开发环境,支持对多种操作数据源的数据抽取、转换和维护,并将其输入数据集或数据仓库;Teradata的ETL工具称为ETL Automation,它利用Teradata数据库本身的并行处理能力,通过SQL语句实现数据的转换,提供对ETL流程的支持,包括前后依赖、执行和监控等;SAS的ETL工具称为ETL Studio,提供管理ETL流程和建立数据仓库、数据集市和OLAP结构的单控制点。其他几家公司则将其工具融合在大的数据仓库组件中,如Oracle的Oracle Warehouse Builder (OWB)、SQL Server的Integration Services、Sybase的Data Integration Suite、BO的可扩展数据整合平台Data Integrator。
  上述各公司提供的ETL相关工具功能相近,在易用性、效率、价格等方面各有千秋,但就工具的二次开发、集成和开放性而言,与专业的数据集成平台,如Informatica公司的PowerCenter,相比还是存在一定的差距。
  2.3 OLAP技术
  联机分析处理(OLAP)是针对特定问题的联机数据访问和分析,通过对信息进行快速、稳定、一致和交互式的存取,对数据进行多层次、多阶段的分析处理,以获得高度归纳的分析结果。联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求,由此出现了多维数据库和多维分析的概念。
  目前主流的OLAP产品有Oracle Express/Discoverer、SQL Server Analysis ServicesDB2 OLAP Server、SAS OLAP Server等,这些产品都可以生成多维数据立方体,提供多维数据的快速分析,支持所有主流关系型数据库如DB2,Oracle,SQL Server,Sybase等,同时可读取关系数据库中细节数据,实现混合在线分析(HOLAP)或关系型在线分析(ROLAP)。并且,各厂商的OLAP Sever对自己的数据库产品的支持均好于其它数据库,各自的分析工具也都基于开放的OLE DB标准,可以访问支持OLE DB标准的数据立方体。
  BO公司和Sybase公司则分别提供了各自的OLAP分析工具OLAP Intelligence和Power Dimension,支持标准OLAP API,如OLEDB for OLAP,能够对Microsoft、IBM等OLAP数据进行划分、钻取等处理,兼容第三方报表和展现工具。Teradata尽管不提供独立的OLAP工具,但提供了相关技术,用于提升运行于Teradata数据库上的OLAP应用系统的性能。
  2.4 报表技术
  报表技术主要是将集成在数据模型里的数据,按照复杂的格式、指定行列统计项,计算形成的特殊表格。一般的简单报表可以使用通用的前台展现技术实现,而复杂的报表则需要使用特定的报表技术。主流的报表技术都可以灵活的制定各种报表模版库和指标库,并根据每个区块或单元格的需要引用指标,实现一系列复杂的符合要求的报表的自动生成。
  主流数据仓库厂商的报表工具中较为有影响包括IBM的Cognos ReportNet、BO的Crystal Reports、Oracle的Oracle Reports。IBM通过收购Cognos公司获得了完整的报表产品Cognos ReportNet,覆盖了各种报表需求,包括管理报表、商业报表、账单和发票等;BO公司提供了一个完整的企业报表解决方案Crystal Reports Server,支持通过Web快速便捷的创建、管理和交付报表;Oracle Reports工具提供了自由的数据格式方式,可以自动生成个性化字母或矩阵风格的布局,包括动态、数据驱动的图表;SQL Server的报表功能包含在Reporting Services (SSRS)中,包括处理组件、一整套可用于创建和管理报表的工具、在自定义应用程序中集成和扩展数据和报表处理的API。与上述产品相比,Sybase的InfoMaker、Teradata的BTEQ和SAS的Report Studio等报表产品在功能、性能、二次开发等方面都还存在着一定的差距。
  总的来说,这些产品在大部分通用软件领域相对国产软件都要优秀,但在有中国特色的报表领域内却是例外,在处理能力存在一定的不适应性。另外这些产品的数学模型都是基于SQL/OLAP理论设计的,在技术上也不能满足国内复杂报表的制作需求。
  2.5 数据挖掘技术
  当数据积累到一定数量时,某些潜在联系、分类、推导结果和待发现价值隐藏在其中,可以使用数据发掘工具帮助发现这些有价值的数据。数据挖掘就是从海量数据中,提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程。通过数据挖掘能找出数据库中隐藏的信息,实现用模型来拟合数据、探索型数据分析,数据驱动型的发现,演绎型学习等功能。
  目前,IBM公司的IBM Intelligent Miner支持典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化呈现,可以自动实现数据选择、数据转换、数据发掘和结果呈现这一整套数据发掘操作;Oracle公司提供的数据挖掘平台称为Oracle Data Miner,它提供了的一个图形用户界面,通过简单易用的向导来指导完成数据准备、数据挖掘、模型评估和模型评价过程,根据需要自动生成将数据挖掘步骤转换成一个集成的数据挖掘/BI应用程序所需的代码;SAS公司的SAS Enterprise Miner将数据挖掘过程简单流程化,支持关联、聚类、决策树、神经元网络和经典的统计回归技术;Teradata公司的挖掘工具称为Teradata Warehouse Miner,它通过将数据挖掘技术整合到数据仓库来简化数据挖掘流程,该工具还可实现将多家厂商的数据挖掘技术嵌入Teradata企业级数据仓库环境中运行;Microsoft数据挖掘平台不同于传统数据挖掘应用程序,它支持组织中数据的整个开发生命周期,允许第三方添加自定义算法以支持特定的挖掘需求,支持实时根据挖掘的数据集进行数据验证对比于上述公司,Sybase和BO公司并没有推出专门的数据挖掘平台或工具。
  和前几项支撑技术相比,数据挖掘技术的专业性更强,与应用领域的特殊背景结合得更加紧密。上述产品除了在性能、通用性、数据展示、二次开发上有一定差异外,没有一个能够占据绝对技术和市场优势,反而是一些专门领域内的专业挖掘工具更具竞争性,如Fair Isaac公司占据了全球信用卡积分市场近7成的份额。
  3 市场分析
  国际权威市场分析机构IDC将数据仓库平台工具市场细分为数据仓库生成(Data Warehouse Generation)工具市场和数据仓库管理(Data Warehouse Management)工具市场两个部分,前者涵盖数据仓库的设计和ETL过程的各种工具,后者指数据仓库后台数据库的管理工具,如DBMS。根据IDC发布的《全球数据仓库平台工具2006年度供应商市场份额》分析报告,2006年该市场增长率为12.5%,规模达到57亿美元,其中数据仓库生成工具和数据仓库管理工具两个市场的比重分别为23.3%和76.7%,相对于数据仓库管理工具市场,数据仓库生成工具市场的增长进一步放缓。可以预见,整个数据仓库市场将进一步向拥有强大后台数据库系统的传统厂商倾斜。从供应商看,Oracle公司继续占据数据仓库管理领域的领先供应商地位,并且与其主要竞争者IBM之间的这种领先优势正逐渐扩大。Microsoft紧追IBM之后,与其之间的差距则在逐渐缩小。
  在国内,商业智能已经成为企业信息化中最重要的组成部分,而数据仓库相关技术在其中扮演着无可替代的重要角色。据ChinaBI统计,2007年中国大陆地区的BI市场份额约为20亿元人民币,同比2006年增长35%,其中BI产品许可证约为9亿元人民币,BI系统集成约为11亿元人民币。现有BI厂商包括产品提供商、集成商、分销商、服务商等有近500家,在未来几年内商业智能市场需求旺盛,市场规模增长迅速。从国内数据仓库实践看,根据ChinaBI评选的2007年中国十大数据仓库的初步结果,传统数据库厂商占据7个,分别是IBM 3个、Oracle 3个、SQL Server 1个,其余3个属于NCR/Teradata公司;从数据仓库规模来看,传统数据库厂商更占有巨大优势,总数据量为536.3T,Teradata则为54T。涉及的行业包括通信、邮政、税务、证券和保险等。
  在数据仓库市场快速发展的同时,市场竞争也日趋激烈,其中尤其以Oracle收购Hyperion、SAP收购BO、IBM收购Cognos具有代表意义。截至2007年底,混乱的市场已经基本明朗化,三个层次逐渐浮现出来。Oracle,IBM,Microsoft和SAP位居第一层次,能够提供全面的解决方案;第二层次是NCR Teradata和SAS等产品相对独立的供应商,可以提供解决方案中的部分应用;第三层次是只专注于单一领域的专业厂商,但其在并购的硝烟中日趋难以存活。

0
1)Sybase的数据仓库解决方案

Sybase的数据仓库解决方案uick Start DataMart,包括Sybase IQ、Caleton PASSPOR、Brio Query、Cognos Powerplay等一系列软件,支持DB2、MS、VSAM、Sybase、Oracle、Informix等关系型数据库,还有文本格式的数据。它能够同时处理几十个即席查询,其BitWise技术和垂直数据存储技术使系统只访问特定的少量数据,使得查询速度比传统的关系型数据库管理系统快100倍。

2)Platinum technology公司解决方案

Platinum technology公司的数据仓库解决方案为企业提供完整、一致的数据,以保持商业决策的及时、正确性。Platinum technology的数据仓库解决方案包括数据抽取和提炼、数据分布、元数据管理、数据存取和分析(OLAP、EIS、报表)、保险、销售和营销决策支持等几个方面。它提供的数据仓库工具包括异构数据库之间数据双向复制的应用系统开发工具Info Pump和功能强大灵活的关系型OLAP工具Info Beacon等;提供的数据仓库前端业务智能解决方案工具包括使用户能够快速建立和使用的图形化企业信息系统应用的基于Windows的查询和报表工具Forest&Trees,可以利用多个大型数据库在桌面机或服务器上生成报表的企业级报表的工具Info Reports,使用户在服务器上生成在用户端制作的企业报表的工具Info Reports Server。这些工具使用户不需编程即可查询关系数据库、数据仓库或数据文件的数据。

3)HP公司解决方案

HP公司是在HP9000高端解决方案之上提出的各应用数据仓库解决方案。惠普公司的开放式数据仓库是基于简洁(Simplicity)标准(Standards)技巧(Skills)三点原则而设计的。它向用户提供从关系型数据库到基于Internet的报告/查询工具以及数据采集等多种多样的数据仓库工具。HP所提供的咨询与项目服务涵盖了从数据处理设计,到网络架构、硬件设计、备份、灾难恢复、客户访问、培训、帮助、管理等各个方面。此外,它的数据仓库计划包含了HP智能数据仓库(Intelligent Warehouse),简化了数据仓库的管理,提高了异构数据仓库的性能,并能运行于多种平台。

4)IBM解决方案

IBM的商业智能解决方案融汇了众多合作伙伴和第三方开发商的产品,例如,在查询工具中有Cognos的Impromptu、Business Objects的Business Objects、Lotus的Approach和IBM的Query Management Facility,多维分析OLAP工具有Arbor software的Essbase、IBM的DB2OLAP服务器(与Arbor联合开发),统计分析工具有SAS公司的SAS系统,数据挖掘工具有IBM的智能挖掘机(Intelligent Miner)。许多这种应用软件和工具都具有内置的Web浏览器支持和Lotus Notes,使用户能够在熟悉的桌面环境内获得所需的信息。

5)Informix公司解决方案

Informix公司日前发布了一个集成的、可伸缩的Fast Start数据仓库解决方案,以使用户能快速而便捷地设计开发具有可伸缩性的数据仓库或数据集市。Fast Start数据仓库解决方案内含实现数据仓库所需的所有基本部件,其中包括基于Informix的动态可伸缩架构(DSA)、Informix在线动态服务器(IODS)、Informix在线工作组服务器(IOWS),同时集成了具有关系型联机分析处理(ROLAP)技术的Informix-MetaCube3.0软件。此外,通过可靠地集成Netscape 的FastTrack服务器和Netscape企业服务器,该方案还可实现强大的Web驱动技术。同时,该方案还提供来自Informix专业服务部门的优先咨询服务、培训和技术支持。

6)Oracle数据仓库解决方案

Oracle数据仓库解决方案在定义、建立和使用数据仓库的过程中存在以下三部曲:a)对最终用户的商业需求建立模型。数据仓库的设计者必须从各种最终用户中了解信息需求,然后将这些信息需求转变为数据模型。设计得必须以严密、精确的方法确保模型的完整性.b)为元数据建立模型。在为最终用户需求建立模型的同时,数据仓库设计者还必须为元数据(关于数据的数据)建立模型。该信息确定了进入数据仓库的数据范围,以及与数据有关的规定。由于数据仓库是面向主题的,元数据的建模可能跨越数个功能性商业区域.c)最后应该选择满足用户需要的工具,用户将使用这些工具访问数据仓库中存储信息。关于数据仓库,详细参见“Oracle数据仓库白皮书”。
五.一些工具软件:

IBM数据仓库提供的相关软件Visual Warehouse、BD2OLAPServer、Intelligent Miner等

可视数据仓库Vicual Warohouse。针对特定行业用户使用环境的解决方案包括专门为金融行业设计的Decision Edge for Finance、端到端的保险业解决方案DecisionEdge for Insurance、为满足银行业保留客户需求而设计的应用程序套件IBM Discovery Series for Banking、为电讯行业提供完美的客户服务的应用程序套件IBM Discovery Series for telecommunications、在JDEdwards事务处理系统环境下建立数据仓库的解决方案Business Analvsis Suite for JDEdwards、在SAP事务交易处理系统基础上建立数据仓库的套件Business Analys Suite for SAP、用于分析Web站点利用率的数据采集应用程序Surf-Aid,以及帮助企业向客户提供有独特个性行销资料的套件Infor Print Business Intelligence Solution。

BusinessObjects是集查询、报表和OLAP技术为一身的智能决策支持系统,它使用独特的“语义层”技术和“动态微立方”技术来表示数据库中的多维数据,具有较好的查询和报表功能,提供钻取(Drill)等多维分析技术,支持多种平台和多种数据库,同时它还支持Internet/Intranet,可以通过WWW进行查询、报表和分析决策。

Oracle DiscovererTM工具

Oracle最新推出的oracle8i是一个面向Internet计算环境的数据库,它改变了信息管理和访问的方式,将强大的新型功能引入到了联机事务处理(OLTP)和数据仓库应用之中。Oracle8i还对Oracle数据服务器的几乎所有方面都给予了增强,全面改进了质量、可用性、性能、可管理性、多媒体数据类型支持和复制功能。Oracle的决策支持产品包括数据仓库和OLAP商业智能工具。商业智能要求今天的机构能够生成企业报表,能够查询分析和进行在线访问处理。通过OracleReports,OracleDiscoverer和OracleExpress,Oracle是唯一的厂商提供低成本解决方案,为各种复杂问题提供快速解答,满足接连不断的商业智能系统需求。

ORACLE公司的新产品和技术:

-OracleRDBMSV7
-Oracle Express Server
-Oracle Express Object
-Oracle Express Analyzer等。

Sybase与Ardent软件公司合作开发的Power Stage,是为使用客户/服务器数据源进行项目建立而提供的,这些数据源包括运行于Windows NT和UNIX平台上的业务系统。有了Power Stage,数据仓库开发者可以使用产品的虚拟设计应用,直接对数据的移动和处理进行建模。开发者不再需要进行编码,也不必使已有的转换程序成为一个重用组件。Sybase的适应性服务器,一旦数据被抽取和转换后,它必须在数据仓库或者数据集市中进行分布和存储。当数据仓库环境中出现不同的负载时,Sybase提供的适应性服务器产品系列使用优化的数据存储技术。

微软公司新的数据中心/数据仓库选中Platinum技术公司的软件Info Beacon和Info Pump作为其数据分析和数据转移解决方案的工具。Platinum的Info Beacon是关系型在线分析处理(OLAP)工具,用于直接访问并优化微软的SQL Server,另外,它在数据转移和复制领域也有一定的优势。

Sybase公司推出用于保险、医疗、电信和零售金融业的Warehouse Studios的工业专用产品:Property&CasualtyInsuranceWarehouseStudio2.0、HealthcareWarehouseStudio2.0、TelcoWarehouseStudio2.0和RetailBankingWarehouseStudio2.0。

Warehouse Studios由套装应用组成,包括一个使公司能对这些应用进行定制化处理的框架、一个使公司能建立一个数据模型的数据仓库设计以及一个使公司能管理名为Warehouse Control Center的元数据的环境。Industry Warehouse Studios可与任何数据库结合,而不仅限于Sybase产品。

Business Analysis Suite for JDEdwards对于已经安装了JDEdwards交易系统的用户,这一方案能够帮助他们便捷地创建数据仓库,高效率利用所有在日常事务中收集起来的交易数据资料进行战略决策。

Business Analysis Suite for SAP专门针对已经安装了SAP交易系统的用户,为他们能够快速建立创建数据仓库、充分利用在日常事务中收集到的所有交易数据资料进行战略决策提供有效的帮助。

SAS/WA(Warehouse Administrator)是建立数据仓库的集成工具,它在其它SAS软件的基础上提供了一个建立数据仓库的管理层,包括:定义数据仓库和主题,数据转换和汇总,汇总数据的更新,Metadata的建立、管理和查询,Data marts和Info marts的实现。

SAS/MDDB Server是SAS的多维数据库产品,主要用于在线分析处理(OLAP),可将从数据仓库或其它数据源来的数据以立体阵列的方式存储,以便于用多维数据浏览器等工具快速和方便地访问。

SAS/ITSV(IT Service Vision )是企业的全面IT服务的性能评估和管理的软件,这些IT服务包括计算机系统、网络系统、Web服务器和电话系统等。ITSV将不同来源的数据进行整理和组织,存放于性能数据仓库中,用GUI或批处理的方式产生组织任意层面的报告。系统程序员及网络工程师能借此识别、研究并解决有关问题,业务分析人员能借此制定资源管理的总体策略,CIO和数据中心经理能借此定期地得到所需的IT运作的汇总和分析报告。

TOP


六. 一些模型应用于
SPSS 10.0 for Windows:将单纯的数据转变成可进行决策的量。

SPSS中回归模型的应用:

1)Multinomial Logistic Regression----多元logistic回归

适用于:
当结果(因变量)是明确的(如:否/是/也许)
当已知量是连续的或可分段的数据。

在以下领域使用多元logistic回归可以做到:

教育----预测大学生主修的课程
市场调查----分析哪类顾客会买哪类产品
保健---- 分析哪种病人易感染哪种病
金融----分析哪类顾客会贷哪种款

2)Binary Logistic Regression-----二元logistic回归

适用于:
当结果(因变量)是二分的(如:否/是)。
当已知量是连续的或可分段的数据。

在以下领域若用二元logistic回归可做到:

教育----预测哪些大学生通过了某门课程
市场调查----分析哪类顾客会买某种产品
保健---- 分析哪种病人易感染某种病
金融----分析哪类顾客会拖欠某种款

3)Logistic Regression-----logistic回归

适用于:
当结果(因变量)是二分的(如:否/是)。
当已知量是连续的或可分段的数据。

在以下领域若用logistic回归可做到:

教育----预测哪个大学生通过了某门课程
市场调查----分析哪类顾客会买某种产品
保健---- 分析哪种病人易感染某种病
金融----分析哪类顾客会拖欠某种款

4) Probit Analysis----- Probit分析

适用于结果是二分的。
已知量是某种刺激物的含量水平(如某种药物的剂量)。
可用来测量刺激物的强度与该刺激物所带来某种反应的百分比的关系,并可估计产生该种反应所需要的剂量

在以下领域若用Probit分析可做到:
医疗研究----需要多少剂量可令一定百分比的病人治愈。
化学研究----需要多少杀虫剂可消灭一定百分比的害虫。
营销----多高的价格会使顾客的购买量降低

5) Nonlinear and Constrained Nonlinear Regression-----非线性和限定非线性回归:

适用于:
结果与一系列已知量的关系是非线性的。
可以指出模型等式的通常形式。

在以下领域若用非线性回归可做到:

经济学研究-----意外收获对公司的影响。
市场调查----息票偿还作为时间与分布的数量函数。
保健----导致注意力不集中的年龄因素影响。
社会科学研究----随着时间变化,人口数量的增长情况。
生物物理科学----动物骨骼增长作为时间和/与营养的函数模型。

6) Weighted Least Squares Regression-----加权最小二次回归

适用于:
因变量的变异系数不是常量,例如,依靠某些属性的程度越高变异性越大。

在以下领域若用加权最小二次回归可做到:
金融研究----检验股价上涨时的影响,因为股份币值越高变异性就越大。
保健----检验不同治疗类型、住院时间的影响,因为住的时间越长变异性就越大。
生产研究----检验不同产品质量的影响,因为产品质量越低变异性越大。
社会与犯罪司法----检验都市化程度对犯罪的影响,因为高犯罪区比低犯罪区的变异性要大。

7) Two-Stage Least Squares----两阶段最小二次法

适用于:
因变量的错误与自变量的错误是相关的,换句话说,已知量和结果相互影响。

在以下领域若用两阶段最小二次法可做到:
金融研究----产品销售价的影响,模型的困难在于价格和销售量相互影响。
人力资源----工资水平在工作表现上的影响。
教育----学习动力在学术表现上的影响。
政治科学----公众政策观点在政策决定上的影响。

以下是适合不同类型问题的回归模型:
OLS (REGRESSION in SPSS Base)----通过价格和顾客的影响来测定产品销量。
Logistic---- 通过价格和顾客的影响来测定是否应该进行某交易(是/否)。
Probit----价格降到多少会导致销售停止。
NLR/CLR ----递增变量在销售中的影响(非线性的) 。
WLS ----检测顾客因交易大小的改变而对预算的改变,因为交易越大趋变异越大。
2SLS ---- 价格对销售的影响,销售对价格影响。

TOP
七.有关测试及其它:

1)Informix数据仓库解决方案测试结果

Informix公司在近日100GB数据量的TPC-D的测试中,使用的测试平台为INFORMIX-OnLine Extended Parallel Server(XPS)数据库和Sun Enterprise 450服务器。价格/性能比测试结果为755美元QphD@00GB,NCR/Teradata为9043美元QphD@100GB。也就是说,达到同样性能,Informix节约92%成本。这意味着节约数百万美元投资。性能测试结果为1069QppD@100GB,NCR/Teradata使用了40倍数量的CPU使性能超出35%。

2)NCR Teradata测试

NCR Teradata数据仓库在100、300GB和1、3TB(百万兆字节)级的TPC-D指标测试中创纪录。在企业激烈的竞争中,实时分析详细数据的能力是至关重要的,NCR Teradata可以解决这一需求。

3)NASDRegulation/Sequent侦测系统

NASDRegulation是一套基于SequentNUMA-Q2000服务器的Nasdaq股市侦测系统,主要用于市场监视、数据挖掘和欺诈/违规行为侦测。

国外厂商名录(1)  [蝈蝈 发表于 2006-11-12 0:15:00]
国外数据挖掘和商业智能ISV和方案提供商及服务商很多。本名录可能需要分几辑收整。同时欢迎提供新的未收录的!
特别声明:
(1)与国内厂商不同,这里收集的厂商服务产品将对其给出一些简单的评价。当然这只是蝈蝈之愚见而已,望观者明鉴。
(2)这份名录,可能需要比较长的时间整理,将尽量做到对其介绍相对详细!

1.SPSS的Clementine和AnswerTree
SPSS公司是世界知名统计软件提供商,SPSS公司于1999年收购ISL公司开发的数据挖掘工具平台Clementine,从此开始了数据挖掘方案和产品的提供。SPSS对Clementine产品进行了重新整合和开发,现在Clementine已经成为SPSS公司的第二个主要产品。在KDNuggets网站的“你最常用哪种数据挖掘工具”投票调查中,Clementine连续数年位居第一。Clementine至少有以下一些特性:(1)丰富的数据源接口;(2)非常友好的可视化和GUI界面;(3)比较全面的建模算法;(4)数据的预处理功能比较丰富且易于操作;(5)结果展示方式多样,输出也支持多种格式的文件和数据库,并有报表功能等;(6)支持CRISP-DM标准和PMML标准等;(7)实现了应用模板。
Clementine的当前版本是10.1,它的新特性有:支持MS的Analysis Services的数据挖掘算法,可以在Clementine界面中对Analysis Services数据挖掘算法打分(Score)。Clementine服务器支持64位Windows、Red Hat、企业Linux、ES操作系统等。同时提供了Clementine服务器端的图形用户界面,简化了服务器的配置和管理。据SPSS网站[37]介绍,Clementine10.1也支持简体中文。
AnswerTree是SPSS另一个比较著名的挖掘产品,它用于创建以决策树形式显示的分类学习系统。其核心提供了四种类型的算法——CHAID、Exhaustive CHAID、CART、Quest来支持分类学习,界面采用了图形化的决策树显示,同时实现了比较直观好用的模型评估界面。AnswerTree的当前版本是3.1,没有中文版本。
Web链接:http://www.spss.com/ (总部),http://www.spss.com.cn (SPSS中国代表处)
2.SAS的Enterprise Miner
SAS是另外一家业界知名的统计软件提供商,其统计软件功能比SPSS还要丰富,现在SAS已经全面投入商业智能和分析软件领域的研发了。SAS/EM是一种通用的、屡获业界大奖的数据挖掘工具。它提供了友好的图形化界面实现从一般性到高层次的挖掘,采用SEMMA逻辑的流程组织起来很方便,具有完美的报表和图形化结果分析功能。同时它也支持全面的数据挖掘算法,而且可与SAS的统计等其它产品融合。SAS/EM的当前版本是5.2。
Web链接:http://www.sas.com/

3.IBM的DB2 Intelligent Miner及其替代产品DB2 DWE V9.1 IBM的DB2 IM曾被选为业界最佳数据挖掘工具,并赢得DM读者奖。IM是一个软件系列,最终版本是8.2,包括以下三个产品:
★IM Scoring:用于部署数据挖掘(以PMML描述)模型。这些模型由某个 IM产品
创建或通过使用 PMML 模型支持互操作性的其它应用程序和工具创建。
★IM Modeling:用于构建数据挖掘模型。
★ IM Visualization:以图形和可视化的方式浏览数据挖掘(以PMML描述)模型。
以上三个产品组件一般只能与IBM DB2集成使用(Visualization可以独立显示PMML模型),另外一个可独立使用的产品是IM for Data。需要说明的是,IBM在2006年3月份发布的《软件退市公告》[38]中已经不再把DB2 IM系列作为单独产品进行销售和服务支持了,取而代之的产品是DB2 Data Warehouse Enterprise 版本9.1.0。DWE9.1是一集成的数据仓库分析平台,与DWE8.x不同,DWE9.1是一个统一的平台,以一致的方式集成了所有的组件,包括IM Scoring、Modeling和Visualization等;同时提供了一个适用于所有DWE组件的集成设计环境Design Studio。[39]DWEV9.1成为IBM推出的一款新BI数据仓库软件平台。
Web链接:http://www.ibm.com/

文献
[38]IBM. Withdrawal Announcement. http://www.ibm.com/common/ssi/rep_ca/7/897/ENUS906-047/ENUS906-047.PDF
[39]李磊. 集成的数据仓库分析专门平台-IBM最新商业智能解决方案DWE V9.ibm.com.cn.2006
4.NCR的Teradata Warehouse Miner
NCR在1991年收购Teradata公司,获得其先进、独特的商用并行处理技术,NCR Teradata 数据库成为世界上最富盛名、功能最强大的数据仓库。NCR Teradata的数据挖掘工具同样也是与其数据仓库整合在一起。具体来说,其数据挖掘工具可以按照挖掘的步骤主要分成Profiler、ADS Generator、Warehouse Miner和模型管理器四块。Warehouse Miner是Teradata数据挖掘实验室的产品,它基于Teradata的数据仓库,能进行数据集的全量分析。其最大的技术特色就是:把数据挖掘和数据质量分析过程中,难度最大、耗时最多的任务——数据准备和预处理自动化了。据称这是业内首家实现该阶段任务自动化的厂商。具体而言,Teradata数据挖掘工具有两大引人注目的技术创新:①能够自动生产供分析使用的数据;②提供了内建智能模块,具有轮廓分析能力,可自动识别数据模式和异常数据,并且关键数据评估步骤可自动化。目前Teradata最新版的数据挖掘方案是Teradata Warehouse Miner 5.0。
Web链接:http://www.teradata.com

5.StatSoft的STATISTICA Data Miner
StatSoft公司也是美国一个以统计工具起家的软件提供商,其创立时间晚于SPSS和SAS。现在该公司既提供通用数据分析统计的应用系统,也提供工业统计、6西格玛工具及其它一些商业智能工具。它的数据挖掘工具是STATISTICA Data Miner(简记SDM)。SDM也是市场上常被选用的一款数据挖掘解决工具,采用基于图标的、易上手的用户界面和部署引擎。它有两个特点:(1)提供自动化和适用大量商业应用的备选部署数据挖掘方案,用户可在其中选择;(2)高度可定制,其提供的开放体系允许用户调整和裁剪组件以适应具体的、高级的分析要求。
Web链接:http://www.statsoft.com (总部) http://www.statsoft.com.cn/ (中文站点)

6.Purple Insight的MineSet PI公司成立于2003年,专注于为商业决策领域提供可视化数据挖掘方案,其主要产品是MineSet系列。MineSet起初由SGI公司于1999年提出,后由PI公司获得授权提供服务和开发支持[40],但仍和SGI公司有着合作。客观地说,MineSet的可视化效果在数据挖掘市场是处于领先的,其用户体验度领先于其它产品。MineSet提供了很多可视化工具组件:条状(Splat)可视化器、散状(Scatter)可视化器、地图(Map)可视化器、树状(Tree)可视化器、统计(Statistics)可视化器和记录(Recod)查看器。MineSet除了业界领先的可视化功能之外,还有以下特点:(1)可处理大量数据;(2)支持多平台和多种数据库系统;(3)开放体系:提供API实现扩展性和Web可发布。MineSet的最新版本是3.2。
Web链接:http://www.purpleinsight.com/

7.DBMiner的DBMiner Insight DBMiner是加拿大Simon Fraser 大学开发的一个多任务数据挖掘系统,文献[8]的附录B中对DBMiner2.0有一个介绍,读者可参考。加拿大DBMiner技术公司对DBMiner做了进一步开发并形成产品,现在该公司公开[41]的最新产品系列是DBMiner Insight。该公司网站(好像久未更新)对其介绍是:DBMiner Insight是第一款针对MS SQL Server分析平台提供强有力和高度可扩展的关联规则、序列分析及不同挖掘功能的服务器应用程序。DBMiner Insight包括三个部分的功能:DBMiner AX2002软件包用于关联挖掘;DBMiner SX2002工具包用于对时序数据和序列数据进行挖掘;DBMiner DX2002软件包采用微分双方挖掘关系数据库和多维数据库中的数据的显著变化,其主要应用领域是挖掘企业利润或其它重要数据指标随其它指标的变化规律。
Web链接:http://www.dbminer.com/

8.Microsoft的SSAS Microsoft SQL Server 2005 Analysis Services (SSAS) 为商业智能应用程序提供联机分析处理 (OLAP) 和数据挖掘功能。Analysis Services允许用户设计、创建和管理包含从其他数据源(如关系数据库)聚合的数据的多维结构,以实现对 OLAP 的支持。而对于数据挖掘应用程序,Analysis Services允许用户设计、创建和可视化处理那些通过使用各种行业标准的数据挖掘算法和根据其他数据源构造出来的数据挖掘模型。SSAS是通过服务器和客户端技术的组合来提供OLAP和数据挖掘功能的。
SSAS提供了用于数据挖掘的工具,用户可以借助这些工具识别出数据中的规则和模式,SSAS创建数据挖掘解决方案时,首先要创建描述业务问题的模型,然后通过生成数据的数学模型的算法运行数据,此过程称作“定型模型”。接着依据该算法直观地浏览挖掘模型或创建预测查询。Analysis Services 可以使用来自关系数据库和 OLAP 数据库的数据集。
以上内容摘自Microsoft MSDN,更详细的使用请参考下面的链接。SSAS是基于SQL Server的一种数据挖掘工具。其实SQL Server2005已经为用户提供了从数据库、数据仓库、OLTP、OLAP、数据挖掘和商业智能等一整套的数据服务功能。
Web链接:http://msdn2.microsoft.com/zh-cn/default.aspx (MSDN链接)

9.Oracle数据挖掘-ODM Oracle Data Mining (ODM)是Oracle数据库10g的一个收费选件。Oracle 数据挖掘所提供的数据挖掘功能嵌入在Oracle数据库10g中,它使应用程序开发人员和数据分析人员能够挖掘数据、查找隐藏的模式,拥有洞察力,并构建高级商业智能应用程序。使用ODM,数据挖掘和计分函数驻留在 Oracle数据库本地——数据和数据挖掘活动永远不离开数据库。ODM在Oracle数据库中嵌入了分类、回归、关联和群集模型,以及属性重要性、特征提取以及序列匹配和比对算法。所有的建模、评分和元数据管理操作都是通过 Oracle Data Mining 客户端以及 PL/SQL 或基于 Java 的 API 来访问的,并且完全在关系数据库内部进行。
Web链接:http://www.oracle.com

10.Dimension5的Miner3D

成立于1995年的欧洲斯洛伐克Dimension5公司是数据可视化技术领先者。其数据挖掘产品Miner3D强有力地整合了数据驱动的3D可视化和数据分析技术,用户通过完全可定制和易于理解的图表来探索和分析数据。Miner3D的最新版本是R6.2。
Web链接:http://miner3d.com/


还有其它一些数据挖掘工具提供商,我们把其主要产品、Web链接及简单描述列在表1中

没有评论:

发表评论