主流数据仓库产品对比分析
1 介绍
数据仓库是面向主题的、集成的、与时间相关的、不可修改的数据集合。数据仓库技术是基于信息系统业务发展的需要,基于数据库系统技术发展而来,并逐步独立的一系列新的应用技术。数据仓库系统可以看作是基于数学及统计学严谨逻辑思维的并达成“科学的判断、有效的行为”的一个工具,也是一种达成“数据整合、知识管理”的有效手段。随着数据仓库技术应用的不断深入,越来越多的企业开始使用数据仓库技术建设自己的数据仓库系统,希望能对历史数据进行具体而又有针对性的分析与挖掘,以期从中发现新客户和客户新的需求。
目前主要的数据仓库产品供应商包括Oracle、IBM、Microsoft、SAS、Teradata、Sybase、Business
Objects(已被SAP收购)等。Oracle公司的数据仓库解决方案包含了业界领先的数据库平台、开发工具和应用系统,能够提供一系列的数据仓库工具集和服务,具有多用户数据仓库管理能力,多种分区方式,较强的与OLAP工具的交互能力,及快速和便捷的数据移动机制等特性;IBM公司的数据仓库产品称为DB2 Data Warehouse
Edition,它结合了DB2数据服务器的长处和IBM的商业智能基础设施,集成了用于仓库管理、数据转换、数据挖掘以及OLAP分析和报告的核心组件,提供了一套基于可视数据仓库的商业智能解决方案;微软的SQL
Server提供了三大服务和一个工具来实现数据仓库系统的整合,为用户提供了可用于构建典型和创新的分析应用程序所需的各种特性、工具和功能,可以实现建模、ETL、建立查询分析或图表、定制KPI、建立报表和构造数据挖掘应用及发布等功能;SAS公司的数据仓库解决方案是一个由30多个专用模块构成的架构体系,适应于对企业级的数据进行重新整合,支持多维、快速查询,提供服务于OLAP操作和决策支持的数据采集、管理、处理和展现功能;Teradata公司提出了可扩展数据仓库基本架构,包括数据装载、数据管理和信息访问几个部分,是高端数据仓库市场最有力竞争者,主要运行在基于Unix操作系统平台的NCR硬件设备上;Sybase提供了称为Warehouse
Studio的一整套覆盖整个数据仓库建立周期的产品包,包括数据仓库的建模、数据集成和转换、数据存储和管理、元数据管理和数据可视化分析等产品;Business
Objects是集查询、报表和OLAP技术为一身的智能决策支持系统,具有较好的查询和报表功能,提供多维分析技术,支持多种数据库,同时它还支持基于Web浏览器的查询、报表和分析决策。
根据IDC发布的2006年数据仓库市场分析报告,上述公司占据了全球近90%的市场份额,提供的数据仓库产品的功能特性已经成为市场的主流。这些公司在推出各自的数据仓库产品的同时也提供了相应的数据仓库解决方案。本文后续内容将针对这些数据仓库产品和解决方案的主要支撑技术进行比较,并结合IDC和ChinaBI相关报告给出相应的市场情况分析。
2 支撑技术
在数据仓库系列技术中,主要的支撑技术包括数据库技术、ETL技术、OLAP技术、报表技术、数据挖掘技术。
2.1 数据库技术
数据库技术是支撑数据仓库技术的基础技术。尽管在数据仓库技术存储模型方面,基于数据库技术而发展的关系模式的理念已经被颠覆,取而代之是各种各样的数据仓库数据模型,如星型模型,雪花模型等。然而,在已有的数据仓库实践中,关系数据库仍然是实质的数据库存储工具,只是将数据库表改称为了事实表和维表,将属性域之间的关系重新定义为维度,量度,层次,粒度等。
成熟的数据仓库后台数据库包括Oracle、DB2、SQL Server、Teradata和Sybase IQ。在查询效率方面,Sybase
IQ由于采用了列存储技术,查询效率比较高;在兼容性方面,Teradata从软件到硬件都必须是专用的,因而兼容性最差;在管理平台和海量数据管理方面,Oracle、DB2和SQL
Server都提供了一系列完整的工具,相对于其它产品有着明显的优势;在磁盘空间利用方面,Sybase
IQ的压缩比是所有数据库中最好的,而Teradata最为浪费。
另外,SAS公司和BO公司也拥有自己的数据管理能力,但对于大型数据仓库的数据管理,仍然需要使用上述数据库产品,SAS和BO都提供了与这些数据库进行连接的专门接口。
2.2 ETL技术
数据仓库系统是集成的、与时间相关的数据集合,ETL作为数据仓库的核心,负责将分布的、异构数据源中的数据进行抽取、清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。ETL能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。要实现数据仓库中数据的自动更新运转,ETL技术是必不可少的关键技术之一。
主流数据仓库产品供应商都拥有各自的ETL能力。IBM的ETL工具称为IBM WebSphere
DataStage,它为整个ETL过程提供了一个图形化的开发环境,支持对多种操作数据源的数据抽取、转换和维护,并将其输入数据集或数据仓库;Teradata的ETL工具称为ETL
Automation,它利用Teradata数据库本身的并行处理能力,通过SQL语句实现数据的转换,提供对ETL流程的支持,包括前后依赖、执行和监控等;SAS的ETL工具称为ETL
Studio,提供管理ETL流程和建立数据仓库、数据集市和OLAP结构的单控制点。其他几家公司则将其工具融合在大的数据仓库组件中,如Oracle的Oracle
Warehouse Builder (OWB)、SQL Server的Integration Services、Sybase的Data Integration
Suite、BO的可扩展数据整合平台Data Integrator。
上述各公司提供的ETL相关工具功能相近,在易用性、效率、价格等方面各有千秋,但就工具的二次开发、集成和开放性而言,与专业的数据集成平台,如Informatica公司的PowerCenter,相比还是存在一定的差距。
2.3 OLAP技术
联机分析处理(OLAP)是针对特定问题的联机数据访问和分析,通过对信息进行快速、稳定、一致和交互式的存取,对数据进行多层次、多阶段的分析处理,以获得高度归纳的分析结果。联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求,由此出现了多维数据库和多维分析的概念。
目前主流的OLAP产品有Oracle Express/Discoverer、SQL Server Analysis Services、DB2 OLAP Server、SAS OLAP
Server等,这些产品都可以生成多维数据立方体,提供多维数据的快速分析,支持所有主流关系型数据库如DB2,Oracle,SQL
Server,Sybase等,同时可读取关系数据库中细节数据,实现混合在线分析(HOLAP)或关系型在线分析(ROLAP)。并且,各厂商的OLAP
Sever对自己的数据库产品的支持均好于其它数据库,各自的分析工具也都基于开放的OLE DB标准,可以访问支持OLE DB标准的数据立方体。
BO公司和Sybase公司则分别提供了各自的OLAP分析工具OLAP Intelligence和Power
Dimension,支持标准OLAP API,如OLEDB for
OLAP,能够对Microsoft、IBM等OLAP数据进行划分、钻取等处理,兼容第三方报表和展现工具。Teradata尽管不提供独立的OLAP工具,但提供了相关技术,用于提升运行于Teradata数据库上的OLAP应用系统的性能。
2.4 报表技术
报表技术主要是将集成在数据模型里的数据,按照复杂的格式、指定行列统计项,计算形成的特殊表格。一般的简单报表可以使用通用的前台展现技术实现,而复杂的报表则需要使用特定的报表技术。主流的报表技术都可以灵活的制定各种报表模版库和指标库,并根据每个区块或单元格的需要引用指标,实现一系列复杂的符合要求的报表的自动生成。
主流数据仓库厂商的报表工具中较为有影响包括IBM的Cognos ReportNet、BO的Crystal
Reports、Oracle的Oracle Reports。IBM通过收购Cognos公司获得了完整的报表产品Cognos
ReportNet,覆盖了各种报表需求,包括管理报表、商业报表、账单和发票等;BO公司提供了一个完整的企业报表解决方案Crystal Reports
Server,支持通过Web快速便捷的创建、管理和交付报表;Oracle
Reports工具提供了自由的数据格式方式,可以自动生成个性化字母或矩阵风格的布局,包括动态、数据驱动的图表;SQL
Server的报表功能包含在Reporting Services
(SSRS)中,包括处理组件、一整套可用于创建和管理报表的工具、在自定义应用程序中集成和扩展数据和报表处理的API。与上述产品相比,Sybase的InfoMaker、Teradata的BTEQ和SAS的Report
Studio等报表产品在功能、性能、二次开发等方面都还存在着一定的差距。
总的来说,这些产品在大部分通用软件领域相对国产软件都要优秀,但在有中国特色的报表领域内却是例外,在处理能力存在一定的不适应性。另外这些产品的数学模型都是基于SQL/OLAP理论设计的,在技术上也不能满足国内复杂报表的制作需求。
2.5
数据挖掘技术
当数据积累到一定数量时,某些潜在联系、分类、推导结果和待发现价值隐藏在其中,可以使用数据发掘工具帮助发现这些有价值的数据。数据挖掘就是从海量数据中,提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程。通过数据挖掘能找出数据库中隐藏的信息,实现用模型来拟合数据、探索型数据分析,数据驱动型的发现,演绎型学习等功能。
目前,IBM公司的IBM Intelligent
Miner支持典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化呈现,可以自动实现数据选择、数据转换、数据发掘和结果呈现这一整套数据发掘操作;Oracle公司提供的数据挖掘平台称为Oracle Data
Miner,它提供了的一个图形用户界面,通过简单易用的向导来指导完成数据准备、数据挖掘、模型评估和模型评价过程,根据需要自动生成将数据挖掘步骤转换成一个集成的数据挖掘/BI应用程序所需的代码;SAS公司的SAS Enterprise
Miner将数据挖掘过程简单流程化,支持关联、聚类、决策树、神经元网络和经典的统计回归技术;Teradata公司的挖掘工具称为Teradata
Warehouse
Miner,它通过将数据挖掘技术整合到数据仓库来简化数据挖掘流程,该工具还可实现将多家厂商的数据挖掘技术嵌入Teradata企业级数据仓库环境中运行;Microsoft数据挖掘平台不同于传统数据挖掘应用程序,它支持组织中数据的整个开发生命周期,允许第三方添加自定义算法以支持特定的挖掘需求,支持实时根据挖掘的数据集进行数据验证。对比于上述公司,Sybase和BO公司并没有推出专门的数据挖掘平台或工具。
和前几项支撑技术相比,数据挖掘技术的专业性更强,与应用领域的特殊背景结合得更加紧密。上述产品除了在性能、通用性、数据展示、二次开发上有一定差异外,没有一个能够占据绝对技术和市场优势,反而是一些专门领域内的专业挖掘工具更具竞争性,如Fair
Isaac公司占据了全球信用卡积分市场近7成的份额。
3 市场分析
国际权威市场分析机构IDC将数据仓库平台工具市场细分为数据仓库生成(Data Warehouse
Generation)工具市场和数据仓库管理(Data Warehouse
Management)工具市场两个部分,前者涵盖数据仓库的设计和ETL过程的各种工具,后者指数据仓库后台数据库的管理工具,如DBMS。根据IDC发布的《全球数据仓库平台工具2006年度供应商市场份额》分析报告,2006年该市场增长率为12.5%,规模达到57亿美元,其中数据仓库生成工具和数据仓库管理工具两个市场的比重分别为23.3%和76.7%,相对于数据仓库管理工具市场,数据仓库生成工具市场的增长进一步放缓。可以预见,整个数据仓库市场将进一步向拥有强大后台数据库系统的传统厂商倾斜。从供应商看,Oracle公司继续占据数据仓库管理领域的领先供应商地位,并且与其主要竞争者IBM之间的这种领先优势正逐渐扩大。Microsoft紧追IBM之后,与其之间的差距则在逐渐缩小。
在国内,商业智能已经成为企业信息化中最重要的组成部分,而数据仓库相关技术在其中扮演着无可替代的重要角色。据ChinaBI统计,2007年中国大陆地区的BI市场份额约为20亿元人民币,同比2006年增长35%,其中BI产品许可证约为9亿元人民币,BI系统集成约为11亿元人民币。现有BI厂商包括产品提供商、集成商、分销商、服务商等有近500家,在未来几年内商业智能市场需求旺盛,市场规模增长迅速。从国内数据仓库实践看,根据ChinaBI评选的2007年中国十大数据仓库的初步结果,传统数据库厂商占据7个,分别是IBM
3个、Oracle 3个、SQL Server
1个,其余3个属于NCR/Teradata公司;从数据仓库规模来看,传统数据库厂商更占有巨大优势,总数据量为536.3T,Teradata则为54T。涉及的行业包括通信、邮政、税务、证券和保险等。
在数据仓库市场快速发展的同时,市场竞争也日趋激烈,其中尤其以Oracle收购Hyperion、SAP收购BO、IBM收购Cognos具有代表意义。截至2007年底,混乱的市场已经基本明朗化,三个层次逐渐浮现出来。Oracle,IBM,Microsoft和SAP位居第一层次,能够提供全面的解决方案;第二层次是NCR
Teradata和SAS等产品相对独立的供应商,可以提供解决方案中的部分应用;第三层次是只专注于单一领域的专业厂商,但其在并购的硝烟中日趋难以存活。
0
1)Sybase的数据仓库解决方案
Sybase的数据仓库解决方案uick Start DataMart,包括Sybase IQ、Caleton PASSPOR、Brio Query、Cognos Powerplay等一系列软件,支持DB2、MS、VSAM、Sybase、Oracle、Informix等关系型数据库,还有文本格式的数据。它能够同时处理几十个即席查询,其BitWise技术和垂直数据存储技术使系统只访问特定的少量数据,使得查询速度比传统的关系型数据库管理系统快100倍。
2)Platinum technology公司解决方案
Platinum technology公司的数据仓库解决方案为企业提供完整、一致的数据,以保持商业决策的及时、正确性。Platinum technology的数据仓库解决方案包括数据抽取和提炼、数据分布、元数据管理、数据存取和分析(OLAP、EIS、报表)、保险、销售和营销决策支持等几个方面。它提供的数据仓库工具包括异构数据库之间数据双向复制的应用系统开发工具Info Pump和功能强大灵活的关系型OLAP工具Info Beacon等;提供的数据仓库前端业务智能解决方案工具包括使用户能够快速建立和使用的图形化企业信息系统应用的基于Windows的查询和报表工具Forest&Trees,可以利用多个大型数据库在桌面机或服务器上生成报表的企业级报表的工具Info Reports,使用户在服务器上生成在用户端制作的企业报表的工具Info Reports Server。这些工具使用户不需编程即可查询关系数据库、数据仓库或数据文件的数据。
3)HP公司解决方案
HP公司是在HP9000高端解决方案之上提出的各应用数据仓库解决方案。惠普公司的开放式数据仓库是基于简洁(Simplicity)标准(Standards)技巧(Skills)三点原则而设计的。它向用户提供从关系型数据库到基于Internet的报告/查询工具以及数据采集等多种多样的数据仓库工具。HP所提供的咨询与项目服务涵盖了从数据处理设计,到网络架构、硬件设计、备份、灾难恢复、客户访问、培训、帮助、管理等各个方面。此外,它的数据仓库计划包含了HP智能数据仓库(Intelligent Warehouse),简化了数据仓库的管理,提高了异构数据仓库的性能,并能运行于多种平台。
4)IBM解决方案
IBM的商业智能解决方案融汇了众多合作伙伴和第三方开发商的产品,例如,在查询工具中有Cognos的Impromptu、Business Objects的Business Objects、Lotus的Approach和IBM的Query Management Facility,多维分析OLAP工具有Arbor software的Essbase、IBM的DB2OLAP服务器(与Arbor联合开发),统计分析工具有SAS公司的SAS系统,数据挖掘工具有IBM的智能挖掘机(Intelligent Miner)。许多这种应用软件和工具都具有内置的Web浏览器支持和Lotus Notes,使用户能够在熟悉的桌面环境内获得所需的信息。
5)Informix公司解决方案
Informix公司日前发布了一个集成的、可伸缩的Fast Start数据仓库解决方案,以使用户能快速而便捷地设计开发具有可伸缩性的数据仓库或数据集市。Fast Start数据仓库解决方案内含实现数据仓库所需的所有基本部件,其中包括基于Informix的动态可伸缩架构(DSA)、Informix在线动态服务器(IODS)、Informix在线工作组服务器(IOWS),同时集成了具有关系型联机分析处理(ROLAP)技术的Informix-MetaCube3.0软件。此外,通过可靠地集成Netscape 的FastTrack服务器和Netscape企业服务器,该方案还可实现强大的Web驱动技术。同时,该方案还提供来自Informix专业服务部门的优先咨询服务、培训和技术支持。
6)Oracle数据仓库解决方案
Oracle数据仓库解决方案在定义、建立和使用数据仓库的过程中存在以下三部曲:a)对最终用户的商业需求建立模型。数据仓库的设计者必须从各种最终用户中了解信息需求,然后将这些信息需求转变为数据模型。设计得必须以严密、精确的方法确保模型的完整性.b)为元数据建立模型。在为最终用户需求建立模型的同时,数据仓库设计者还必须为元数据(关于数据的数据)建立模型。该信息确定了进入数据仓库的数据范围,以及与数据有关的规定。由于数据仓库是面向主题的,元数据的建模可能跨越数个功能性商业区域.c)最后应该选择满足用户需要的工具,用户将使用这些工具访问数据仓库中存储信息。关于数据仓库,详细参见“Oracle数据仓库白皮书”。
五.一些工具软件:
IBM数据仓库提供的相关软件Visual Warehouse、BD2OLAPServer、Intelligent Miner等
可视数据仓库Vicual Warohouse。针对特定行业用户使用环境的解决方案包括专门为金融行业设计的Decision Edge for Finance、端到端的保险业解决方案DecisionEdge for Insurance、为满足银行业保留客户需求而设计的应用程序套件IBM Discovery Series for Banking、为电讯行业提供完美的客户服务的应用程序套件IBM Discovery Series for telecommunications、在JDEdwards事务处理系统环境下建立数据仓库的解决方案Business Analvsis Suite for JDEdwards、在SAP事务交易处理系统基础上建立数据仓库的套件Business Analys Suite for SAP、用于分析Web站点利用率的数据采集应用程序Surf-Aid,以及帮助企业向客户提供有独特个性行销资料的套件Infor Print Business Intelligence Solution。
BusinessObjects是集查询、报表和OLAP技术为一身的智能决策支持系统,它使用独特的“语义层”技术和“动态微立方”技术来表示数据库中的多维数据,具有较好的查询和报表功能,提供钻取(Drill)等多维分析技术,支持多种平台和多种数据库,同时它还支持Internet/Intranet,可以通过WWW进行查询、报表和分析决策。
Oracle DiscovererTM工具
Oracle最新推出的oracle8i是一个面向Internet计算环境的数据库,它改变了信息管理和访问的方式,将强大的新型功能引入到了联机事务处理(OLTP)和数据仓库应用之中。Oracle8i还对Oracle数据服务器的几乎所有方面都给予了增强,全面改进了质量、可用性、性能、可管理性、多媒体数据类型支持和复制功能。Oracle的决策支持产品包括数据仓库和OLAP商业智能工具。商业智能要求今天的机构能够生成企业报表,能够查询分析和进行在线访问处理。通过OracleReports,OracleDiscoverer和OracleExpress,Oracle是唯一的厂商提供低成本解决方案,为各种复杂问题提供快速解答,满足接连不断的商业智能系统需求。
ORACLE公司的新产品和技术:
-OracleRDBMSV7
-Oracle Express Server
-Oracle Express Object
-Oracle Express Analyzer等。
Sybase与Ardent软件公司合作开发的Power Stage,是为使用客户/服务器数据源进行项目建立而提供的,这些数据源包括运行于Windows NT和UNIX平台上的业务系统。有了Power Stage,数据仓库开发者可以使用产品的虚拟设计应用,直接对数据的移动和处理进行建模。开发者不再需要进行编码,也不必使已有的转换程序成为一个重用组件。Sybase的适应性服务器,一旦数据被抽取和转换后,它必须在数据仓库或者数据集市中进行分布和存储。当数据仓库环境中出现不同的负载时,Sybase提供的适应性服务器产品系列使用优化的数据存储技术。
微软公司新的数据中心/数据仓库选中Platinum技术公司的软件Info Beacon和Info Pump作为其数据分析和数据转移解决方案的工具。Platinum的Info Beacon是关系型在线分析处理(OLAP)工具,用于直接访问并优化微软的SQL Server,另外,它在数据转移和复制领域也有一定的优势。
Sybase公司推出用于保险、医疗、电信和零售金融业的Warehouse Studios的工业专用产品:Property&CasualtyInsuranceWarehouseStudio2.0、HealthcareWarehouseStudio2.0、TelcoWarehouseStudio2.0和RetailBankingWarehouseStudio2.0。
Warehouse Studios由套装应用组成,包括一个使公司能对这些应用进行定制化处理的框架、一个使公司能建立一个数据模型的数据仓库设计以及一个使公司能管理名为Warehouse Control Center的元数据的环境。Industry Warehouse Studios可与任何数据库结合,而不仅限于Sybase产品。
Business Analysis Suite for JDEdwards对于已经安装了JDEdwards交易系统的用户,这一方案能够帮助他们便捷地创建数据仓库,高效率利用所有在日常事务中收集起来的交易数据资料进行战略决策。
Business Analysis Suite for SAP专门针对已经安装了SAP交易系统的用户,为他们能够快速建立创建数据仓库、充分利用在日常事务中收集到的所有交易数据资料进行战略决策提供有效的帮助。
SAS/WA(Warehouse Administrator)是建立数据仓库的集成工具,它在其它SAS软件的基础上提供了一个建立数据仓库的管理层,包括:定义数据仓库和主题,数据转换和汇总,汇总数据的更新,Metadata的建立、管理和查询,Data marts和Info marts的实现。
SAS/MDDB Server是SAS的多维数据库产品,主要用于在线分析处理(OLAP),可将从数据仓库或其它数据源来的数据以立体阵列的方式存储,以便于用多维数据浏览器等工具快速和方便地访问。
SAS/ITSV(IT Service Vision )是企业的全面IT服务的性能评估和管理的软件,这些IT服务包括计算机系统、网络系统、Web服务器和电话系统等。ITSV将不同来源的数据进行整理和组织,存放于性能数据仓库中,用GUI或批处理的方式产生组织任意层面的报告。系统程序员及网络工程师能借此识别、研究并解决有关问题,业务分析人员能借此制定资源管理的总体策略,CIO和数据中心经理能借此定期地得到所需的IT运作的汇总和分析报告。
TOP
六. 一些模型应用于
SPSS 10.0 for Windows:将单纯的数据转变成可进行决策的量。
SPSS中回归模型的应用:
1)Multinomial Logistic Regression----多元logistic回归
适用于:
当结果(因变量)是明确的(如:否/是/也许)
当已知量是连续的或可分段的数据。
在以下领域使用多元logistic回归可以做到:
教育----预测大学生主修的课程
市场调查----分析哪类顾客会买哪类产品
保健---- 分析哪种病人易感染哪种病
金融----分析哪类顾客会贷哪种款
2)Binary Logistic Regression-----二元logistic回归
适用于:
当结果(因变量)是二分的(如:否/是)。
当已知量是连续的或可分段的数据。
在以下领域若用二元logistic回归可做到:
教育----预测哪些大学生通过了某门课程
市场调查----分析哪类顾客会买某种产品
保健---- 分析哪种病人易感染某种病
金融----分析哪类顾客会拖欠某种款
3)Logistic Regression-----logistic回归
适用于:
当结果(因变量)是二分的(如:否/是)。
当已知量是连续的或可分段的数据。
在以下领域若用logistic回归可做到:
教育----预测哪个大学生通过了某门课程
市场调查----分析哪类顾客会买某种产品
保健---- 分析哪种病人易感染某种病
金融----分析哪类顾客会拖欠某种款
4) Probit Analysis----- Probit分析
适用于结果是二分的。
已知量是某种刺激物的含量水平(如某种药物的剂量)。
可用来测量刺激物的强度与该刺激物所带来某种反应的百分比的关系,并可估计产生该种反应所需要的剂量
在以下领域若用Probit分析可做到:
医疗研究----需要多少剂量可令一定百分比的病人治愈。
化学研究----需要多少杀虫剂可消灭一定百分比的害虫。
营销----多高的价格会使顾客的购买量降低
5) Nonlinear and Constrained Nonlinear Regression-----非线性和限定非线性回归:
适用于:
结果与一系列已知量的关系是非线性的。
可以指出模型等式的通常形式。
在以下领域若用非线性回归可做到:
经济学研究-----意外收获对公司的影响。
市场调查----息票偿还作为时间与分布的数量函数。
保健----导致注意力不集中的年龄因素影响。
社会科学研究----随着时间变化,人口数量的增长情况。
生物物理科学----动物骨骼增长作为时间和/与营养的函数模型。
6) Weighted Least Squares Regression-----加权最小二次回归
适用于:
因变量的变异系数不是常量,例如,依靠某些属性的程度越高变异性越大。
在以下领域若用加权最小二次回归可做到:
金融研究----检验股价上涨时的影响,因为股份币值越高变异性就越大。
保健----检验不同治疗类型、住院时间的影响,因为住的时间越长变异性就越大。
生产研究----检验不同产品质量的影响,因为产品质量越低变异性越大。
社会与犯罪司法----检验都市化程度对犯罪的影响,因为高犯罪区比低犯罪区的变异性要大。
7) Two-Stage Least Squares----两阶段最小二次法
适用于:
因变量的错误与自变量的错误是相关的,换句话说,已知量和结果相互影响。
在以下领域若用两阶段最小二次法可做到:
金融研究----产品销售价的影响,模型的困难在于价格和销售量相互影响。
人力资源----工资水平在工作表现上的影响。
教育----学习动力在学术表现上的影响。
政治科学----公众政策观点在政策决定上的影响。
以下是适合不同类型问题的回归模型:
OLS (REGRESSION in SPSS Base)----通过价格和顾客的影响来测定产品销量。
Logistic---- 通过价格和顾客的影响来测定是否应该进行某交易(是/否)。
Probit----价格降到多少会导致销售停止。
NLR/CLR ----递增变量在销售中的影响(非线性的) 。
WLS ----检测顾客因交易大小的改变而对预算的改变,因为交易越大趋变异越大。
2SLS ---- 价格对销售的影响,销售对价格影响。
TOP
七.有关测试及其它:
1)Informix数据仓库解决方案测试结果
Informix公司在近日100GB数据量的TPC-D的测试中,使用的测试平台为INFORMIX-OnLine Extended Parallel Server(XPS)数据库和Sun Enterprise 450服务器。价格/性能比测试结果为755美元QphD@00GB,NCR/Teradata为9043美元QphD@100GB。也就是说,达到同样性能,Informix节约92%成本。这意味着节约数百万美元投资。性能测试结果为1069QppD@100GB,NCR/Teradata使用了40倍数量的CPU使性能超出35%。
2)NCR Teradata测试
NCR Teradata数据仓库在100、300GB和1、3TB(百万兆字节)级的TPC-D指标测试中创纪录。在企业激烈的竞争中,实时分析详细数据的能力是至关重要的,NCR Teradata可以解决这一需求。
3)NASDRegulation/Sequent侦测系统
NASDRegulation是一套基于SequentNUMA-Q2000服务器的Nasdaq股市侦测系统,主要用于市场监视、数据挖掘和欺诈/违规行为侦测。
Sybase的数据仓库解决方案uick Start DataMart,包括Sybase IQ、Caleton PASSPOR、Brio Query、Cognos Powerplay等一系列软件,支持DB2、MS、VSAM、Sybase、Oracle、Informix等关系型数据库,还有文本格式的数据。它能够同时处理几十个即席查询,其BitWise技术和垂直数据存储技术使系统只访问特定的少量数据,使得查询速度比传统的关系型数据库管理系统快100倍。
2)Platinum technology公司解决方案
Platinum technology公司的数据仓库解决方案为企业提供完整、一致的数据,以保持商业决策的及时、正确性。Platinum technology的数据仓库解决方案包括数据抽取和提炼、数据分布、元数据管理、数据存取和分析(OLAP、EIS、报表)、保险、销售和营销决策支持等几个方面。它提供的数据仓库工具包括异构数据库之间数据双向复制的应用系统开发工具Info Pump和功能强大灵活的关系型OLAP工具Info Beacon等;提供的数据仓库前端业务智能解决方案工具包括使用户能够快速建立和使用的图形化企业信息系统应用的基于Windows的查询和报表工具Forest&Trees,可以利用多个大型数据库在桌面机或服务器上生成报表的企业级报表的工具Info Reports,使用户在服务器上生成在用户端制作的企业报表的工具Info Reports Server。这些工具使用户不需编程即可查询关系数据库、数据仓库或数据文件的数据。
3)HP公司解决方案
HP公司是在HP9000高端解决方案之上提出的各应用数据仓库解决方案。惠普公司的开放式数据仓库是基于简洁(Simplicity)标准(Standards)技巧(Skills)三点原则而设计的。它向用户提供从关系型数据库到基于Internet的报告/查询工具以及数据采集等多种多样的数据仓库工具。HP所提供的咨询与项目服务涵盖了从数据处理设计,到网络架构、硬件设计、备份、灾难恢复、客户访问、培训、帮助、管理等各个方面。此外,它的数据仓库计划包含了HP智能数据仓库(Intelligent Warehouse),简化了数据仓库的管理,提高了异构数据仓库的性能,并能运行于多种平台。
4)IBM解决方案
IBM的商业智能解决方案融汇了众多合作伙伴和第三方开发商的产品,例如,在查询工具中有Cognos的Impromptu、Business Objects的Business Objects、Lotus的Approach和IBM的Query Management Facility,多维分析OLAP工具有Arbor software的Essbase、IBM的DB2OLAP服务器(与Arbor联合开发),统计分析工具有SAS公司的SAS系统,数据挖掘工具有IBM的智能挖掘机(Intelligent Miner)。许多这种应用软件和工具都具有内置的Web浏览器支持和Lotus Notes,使用户能够在熟悉的桌面环境内获得所需的信息。
5)Informix公司解决方案
Informix公司日前发布了一个集成的、可伸缩的Fast Start数据仓库解决方案,以使用户能快速而便捷地设计开发具有可伸缩性的数据仓库或数据集市。Fast Start数据仓库解决方案内含实现数据仓库所需的所有基本部件,其中包括基于Informix的动态可伸缩架构(DSA)、Informix在线动态服务器(IODS)、Informix在线工作组服务器(IOWS),同时集成了具有关系型联机分析处理(ROLAP)技术的Informix-MetaCube3.0软件。此外,通过可靠地集成Netscape 的FastTrack服务器和Netscape企业服务器,该方案还可实现强大的Web驱动技术。同时,该方案还提供来自Informix专业服务部门的优先咨询服务、培训和技术支持。
6)Oracle数据仓库解决方案
Oracle数据仓库解决方案在定义、建立和使用数据仓库的过程中存在以下三部曲:a)对最终用户的商业需求建立模型。数据仓库的设计者必须从各种最终用户中了解信息需求,然后将这些信息需求转变为数据模型。设计得必须以严密、精确的方法确保模型的完整性.b)为元数据建立模型。在为最终用户需求建立模型的同时,数据仓库设计者还必须为元数据(关于数据的数据)建立模型。该信息确定了进入数据仓库的数据范围,以及与数据有关的规定。由于数据仓库是面向主题的,元数据的建模可能跨越数个功能性商业区域.c)最后应该选择满足用户需要的工具,用户将使用这些工具访问数据仓库中存储信息。关于数据仓库,详细参见“Oracle数据仓库白皮书”。
五.一些工具软件:
IBM数据仓库提供的相关软件Visual Warehouse、BD2OLAPServer、Intelligent Miner等
可视数据仓库Vicual Warohouse。针对特定行业用户使用环境的解决方案包括专门为金融行业设计的Decision Edge for Finance、端到端的保险业解决方案DecisionEdge for Insurance、为满足银行业保留客户需求而设计的应用程序套件IBM Discovery Series for Banking、为电讯行业提供完美的客户服务的应用程序套件IBM Discovery Series for telecommunications、在JDEdwards事务处理系统环境下建立数据仓库的解决方案Business Analvsis Suite for JDEdwards、在SAP事务交易处理系统基础上建立数据仓库的套件Business Analys Suite for SAP、用于分析Web站点利用率的数据采集应用程序Surf-Aid,以及帮助企业向客户提供有独特个性行销资料的套件Infor Print Business Intelligence Solution。
BusinessObjects是集查询、报表和OLAP技术为一身的智能决策支持系统,它使用独特的“语义层”技术和“动态微立方”技术来表示数据库中的多维数据,具有较好的查询和报表功能,提供钻取(Drill)等多维分析技术,支持多种平台和多种数据库,同时它还支持Internet/Intranet,可以通过WWW进行查询、报表和分析决策。
Oracle DiscovererTM工具
Oracle最新推出的oracle8i是一个面向Internet计算环境的数据库,它改变了信息管理和访问的方式,将强大的新型功能引入到了联机事务处理(OLTP)和数据仓库应用之中。Oracle8i还对Oracle数据服务器的几乎所有方面都给予了增强,全面改进了质量、可用性、性能、可管理性、多媒体数据类型支持和复制功能。Oracle的决策支持产品包括数据仓库和OLAP商业智能工具。商业智能要求今天的机构能够生成企业报表,能够查询分析和进行在线访问处理。通过OracleReports,OracleDiscoverer和OracleExpress,Oracle是唯一的厂商提供低成本解决方案,为各种复杂问题提供快速解答,满足接连不断的商业智能系统需求。
ORACLE公司的新产品和技术:
-OracleRDBMSV7
-Oracle Express Server
-Oracle Express Object
-Oracle Express Analyzer等。
Sybase与Ardent软件公司合作开发的Power Stage,是为使用客户/服务器数据源进行项目建立而提供的,这些数据源包括运行于Windows NT和UNIX平台上的业务系统。有了Power Stage,数据仓库开发者可以使用产品的虚拟设计应用,直接对数据的移动和处理进行建模。开发者不再需要进行编码,也不必使已有的转换程序成为一个重用组件。Sybase的适应性服务器,一旦数据被抽取和转换后,它必须在数据仓库或者数据集市中进行分布和存储。当数据仓库环境中出现不同的负载时,Sybase提供的适应性服务器产品系列使用优化的数据存储技术。
微软公司新的数据中心/数据仓库选中Platinum技术公司的软件Info Beacon和Info Pump作为其数据分析和数据转移解决方案的工具。Platinum的Info Beacon是关系型在线分析处理(OLAP)工具,用于直接访问并优化微软的SQL Server,另外,它在数据转移和复制领域也有一定的优势。
Sybase公司推出用于保险、医疗、电信和零售金融业的Warehouse Studios的工业专用产品:Property&CasualtyInsuranceWarehouseStudio2.0、HealthcareWarehouseStudio2.0、TelcoWarehouseStudio2.0和RetailBankingWarehouseStudio2.0。
Warehouse Studios由套装应用组成,包括一个使公司能对这些应用进行定制化处理的框架、一个使公司能建立一个数据模型的数据仓库设计以及一个使公司能管理名为Warehouse Control Center的元数据的环境。Industry Warehouse Studios可与任何数据库结合,而不仅限于Sybase产品。
Business Analysis Suite for JDEdwards对于已经安装了JDEdwards交易系统的用户,这一方案能够帮助他们便捷地创建数据仓库,高效率利用所有在日常事务中收集起来的交易数据资料进行战略决策。
Business Analysis Suite for SAP专门针对已经安装了SAP交易系统的用户,为他们能够快速建立创建数据仓库、充分利用在日常事务中收集到的所有交易数据资料进行战略决策提供有效的帮助。
SAS/WA(Warehouse Administrator)是建立数据仓库的集成工具,它在其它SAS软件的基础上提供了一个建立数据仓库的管理层,包括:定义数据仓库和主题,数据转换和汇总,汇总数据的更新,Metadata的建立、管理和查询,Data marts和Info marts的实现。
SAS/MDDB Server是SAS的多维数据库产品,主要用于在线分析处理(OLAP),可将从数据仓库或其它数据源来的数据以立体阵列的方式存储,以便于用多维数据浏览器等工具快速和方便地访问。
SAS/ITSV(IT Service Vision )是企业的全面IT服务的性能评估和管理的软件,这些IT服务包括计算机系统、网络系统、Web服务器和电话系统等。ITSV将不同来源的数据进行整理和组织,存放于性能数据仓库中,用GUI或批处理的方式产生组织任意层面的报告。系统程序员及网络工程师能借此识别、研究并解决有关问题,业务分析人员能借此制定资源管理的总体策略,CIO和数据中心经理能借此定期地得到所需的IT运作的汇总和分析报告。
TOP
六. 一些模型应用于
SPSS 10.0 for Windows:将单纯的数据转变成可进行决策的量。
SPSS中回归模型的应用:
1)Multinomial Logistic Regression----多元logistic回归
适用于:
当结果(因变量)是明确的(如:否/是/也许)
当已知量是连续的或可分段的数据。
在以下领域使用多元logistic回归可以做到:
教育----预测大学生主修的课程
市场调查----分析哪类顾客会买哪类产品
保健---- 分析哪种病人易感染哪种病
金融----分析哪类顾客会贷哪种款
2)Binary Logistic Regression-----二元logistic回归
适用于:
当结果(因变量)是二分的(如:否/是)。
当已知量是连续的或可分段的数据。
在以下领域若用二元logistic回归可做到:
教育----预测哪些大学生通过了某门课程
市场调查----分析哪类顾客会买某种产品
保健---- 分析哪种病人易感染某种病
金融----分析哪类顾客会拖欠某种款
3)Logistic Regression-----logistic回归
适用于:
当结果(因变量)是二分的(如:否/是)。
当已知量是连续的或可分段的数据。
在以下领域若用logistic回归可做到:
教育----预测哪个大学生通过了某门课程
市场调查----分析哪类顾客会买某种产品
保健---- 分析哪种病人易感染某种病
金融----分析哪类顾客会拖欠某种款
4) Probit Analysis----- Probit分析
适用于结果是二分的。
已知量是某种刺激物的含量水平(如某种药物的剂量)。
可用来测量刺激物的强度与该刺激物所带来某种反应的百分比的关系,并可估计产生该种反应所需要的剂量
在以下领域若用Probit分析可做到:
医疗研究----需要多少剂量可令一定百分比的病人治愈。
化学研究----需要多少杀虫剂可消灭一定百分比的害虫。
营销----多高的价格会使顾客的购买量降低
5) Nonlinear and Constrained Nonlinear Regression-----非线性和限定非线性回归:
适用于:
结果与一系列已知量的关系是非线性的。
可以指出模型等式的通常形式。
在以下领域若用非线性回归可做到:
经济学研究-----意外收获对公司的影响。
市场调查----息票偿还作为时间与分布的数量函数。
保健----导致注意力不集中的年龄因素影响。
社会科学研究----随着时间变化,人口数量的增长情况。
生物物理科学----动物骨骼增长作为时间和/与营养的函数模型。
6) Weighted Least Squares Regression-----加权最小二次回归
适用于:
因变量的变异系数不是常量,例如,依靠某些属性的程度越高变异性越大。
在以下领域若用加权最小二次回归可做到:
金融研究----检验股价上涨时的影响,因为股份币值越高变异性就越大。
保健----检验不同治疗类型、住院时间的影响,因为住的时间越长变异性就越大。
生产研究----检验不同产品质量的影响,因为产品质量越低变异性越大。
社会与犯罪司法----检验都市化程度对犯罪的影响,因为高犯罪区比低犯罪区的变异性要大。
7) Two-Stage Least Squares----两阶段最小二次法
适用于:
因变量的错误与自变量的错误是相关的,换句话说,已知量和结果相互影响。
在以下领域若用两阶段最小二次法可做到:
金融研究----产品销售价的影响,模型的困难在于价格和销售量相互影响。
人力资源----工资水平在工作表现上的影响。
教育----学习动力在学术表现上的影响。
政治科学----公众政策观点在政策决定上的影响。
以下是适合不同类型问题的回归模型:
OLS (REGRESSION in SPSS Base)----通过价格和顾客的影响来测定产品销量。
Logistic---- 通过价格和顾客的影响来测定是否应该进行某交易(是/否)。
Probit----价格降到多少会导致销售停止。
NLR/CLR ----递增变量在销售中的影响(非线性的) 。
WLS ----检测顾客因交易大小的改变而对预算的改变,因为交易越大趋变异越大。
2SLS ---- 价格对销售的影响,销售对价格影响。
TOP
七.有关测试及其它:
1)Informix数据仓库解决方案测试结果
Informix公司在近日100GB数据量的TPC-D的测试中,使用的测试平台为INFORMIX-OnLine Extended Parallel Server(XPS)数据库和Sun Enterprise 450服务器。价格/性能比测试结果为755美元QphD@00GB,NCR/Teradata为9043美元QphD@100GB。也就是说,达到同样性能,Informix节约92%成本。这意味着节约数百万美元投资。性能测试结果为1069QppD@100GB,NCR/Teradata使用了40倍数量的CPU使性能超出35%。
2)NCR Teradata测试
NCR Teradata数据仓库在100、300GB和1、3TB(百万兆字节)级的TPC-D指标测试中创纪录。在企业激烈的竞争中,实时分析详细数据的能力是至关重要的,NCR Teradata可以解决这一需求。
3)NASDRegulation/Sequent侦测系统
NASDRegulation是一套基于SequentNUMA-Q2000服务器的Nasdaq股市侦测系统,主要用于市场监视、数据挖掘和欺诈/违规行为侦测。
| ||
|
没有评论:
发表评论