新闻正文

数 据 挖 掘 工 具及 其 选 择

来源:JAVA天堂  JAVA学习者  2007-7-30 01:49:35 网友评论 0 条 字体:[ ] ~我要投稿!
站 (Sun Oct 22 17:38:48 2000), 转信
清 华 大 学 计 算 机 系
郑 纬 民--黄 刚
一、 数 据 挖 掘 工 具
----在 数 据 挖 掘 技 术 日 益 发 展 的 同 时, 许 多 数 据 挖 掘 的 商 业 软
件 工 具 也 逐 渐 问 世。 数 据 挖 掘 工 具 主 要 有 两 类: 特 定 领 域 的
数 据 挖 掘 工 具 和 通 用 的 数 据 挖 掘 工 具。
----特 定 领 域 的 数 据 挖 掘 工 具 针 对 某 个 特 定 领 域 的 问 题 提 供
解 决 方 案。 在 设 计 算 法 的 时 候, 充 分 考 虑 到 数 据、 需 求 的 特 殊
性, 并 作 了 优 化。 对 任 何 领 域, 都 可 以 开 发 特 定 的 数 据 挖 掘
工 具。 例 如,IBM 公 司 的Advanced Scout 系 统 针 对NBA 的 数 据, 帮 助 教
练 优 化 战 术 组 合; 加 州 理 工 学 院 喷 气 推 进 实 验 室 与 天 文 科 学
家 合 作 开 发 的SKICAT 系 统, 帮 助 天 文 学 家 发 现 遥 远 的 类 星 体;
芬 兰 赫 尔 辛 基 大 学 计 算 机 科 学 系 开 发 的TASA, 帮 助 预 测 网 络
通 信 中 的 警 报。
----特 定 领 域 的 数 据 挖 掘 工 具 针 对 性 比 较 强, 只 能 用 于 一 种 应
用; 也 正 因 为 针 对 性 强, 往 往 采 用 特 殊 的 算 法, 可 以 处 理 特

殊 的 数 据, 实 现 特 殊 的 目 的, 发 现 的 知 识 可 靠 度 也 比 较 高。
----通 用 的 数 据 挖 掘 工 具 不 区 分 具 体 数 据 的 含 义, 采 用 通 用 的
挖 掘 算 法, 处 理 常 见 的 数 据 类 型, 一 般 提 供 六 种 模 式。 例 如,
IBM 公 司Almaden 研 究 中 心 开 发 的QUEST 系 统,SGI 公 司 开 发 的MineSet
系 统, 加 拿 大Simon Fraser 大 学 开 发 的DBMiner 系 统。 通 用 的 数 据 挖
掘 工 具 可 以 做 多 种 模 式 的 挖 掘, 挖 掘 什 么、 用 什 么 来 挖 掘 都
由 用 户 根 据 自 己 的 应 用 来 选 择。
----下 面 简 单 介 绍 几 种 数 据 挖 掘 工 具:
----1. QUEST
----QUEST 是IBM 公 司Almaden 研 究 中 心 开 发 的 一 个 多 任 务 数 据 挖 掘
系 统, 目 的 是 为 新 一 代 决 策 支 持 系 统 的 应 用 开 发 提 供 高 效 的
数 据 开 采 基 本 构 件。 系 统 具 有 如 下 特 点:
提 供 了 专 门 在 大 型 数 据 库 上 进 行 各 种 开 采 的 功 能: 关 联 规 则
发 现、 序 列 模 式 发 现、 时 间 序 列 聚 类、 决 策 树 分 类、 递 增 式 主
动 开 采 等。
各 种 开 采 算 法 具 有 近 似 线 性(O(n)) 计 算 复 杂 度, 可 适 用 于 任
意 大 小 的 数 据 库。
算 法 具 有 找 全 性, 即 能 将 所 有 满 足 指 定 类 型 的 模 式 全 部 寻 找
出 来。
为 各 种 发 现 功 能 设 计 了 相 应 的 并 行 算 法。
----2. MineSet
----MineSet 是 由SGI 公 司 和 美 国Standford 大 学 联 合 开 发 的 多 任 务 数
据 挖 掘 系 统。MineSet 集 成 多 种 数 据 挖 掘 算 法 和 可 视 化 工 具, 帮
助 用 户 直 观 地、 实 时 地 发 掘、 理 解 大 量 数 据 背 后 的 知 识。Mine
Set 2.6 有 如 下 特 点:
MineSet 以 先 进 的 可 视 化 显 示 方 法 闻 名 于 世。MineSet 2.6 中 使 用 了
6 种 可 视 化 工 具 来 表 现 数 据 和 知 识。 对 同 一 个 挖 掘 结 果 可 以
用 不 同 的 可 视 化 工 具 以 各 种 形 式 表 示, 用 户 也 可 以 按 照 个 人
的 喜 好 调 整 最 终 效 果, 以 便 更 好 地 理 解。MineSet 2.6 中 的 可 视 化
工 具 有Splat Visualize、Scatter Visualize、Map Visualize、Tree Visualize、
Record Viewer、 Statistics Visualize、Cluster Visualizer, 其 中Record Viewe
r 是 二 维 表,Statistics Visualize 是 二 维 统 计 图, 其 余 都 是 三 维 图
形, 用 户 可 以 任 意 放 大、 旋 转、 移 动 图 形, 从 不 同 的 角 度 观 看


提 供 多 种 数 据 挖 掘 模 式。 包 括 分 类 器、 回 归 模 式、 关 联 规 则、
聚 类 归、 判 断 列 重 要 度。
支 持 多 种 关 系 数 据 库。 可 以 直 接 从Oracle、Informix、Sybase 的 表 读
取 数 据, 也 可 以 通 过SQL 命 令 执 行 查 询。
多 种 数 据 转 换 功 能。 在 进 行 挖 掘 前,MineSet 可 以 去 除 不 必 要 的
数 据 项, 统 计、 集 合、 分 组 数 据, 转 换 数 据 类 型, 构 造 表 达 式
由 已 有 数 据 项 生 成 新 的 数 据 项, 对 数 据 采 样 等。
操 作 简 单。
支 持 国 际 字 符。
可 以 直 接 发 布 到Web。
----3. DBMiner
----DBMiner 是 加 拿 大Simon Fraser 大 学 开 发 的 一 个 多 任 务 数 据 挖 掘
系 统, 它 的 前 身 是DBLearn。 该 系 统 设 计 的 目 的 是 把 关 系 数 据 库
和 数 据 开 采 集 成 在 一 起, 以 面 向 属 性 的 多 级 概 念 为 基 础 发 现
各 种 知 识。DBMiner 系 统 具 有 如 下 特 色:
能 完 成 多 种 知 识 的 发 现: 泛 化 规 则、 特 性 规 则、 关 联 规 则、 分
类 规 则、 演 化 知 识、 偏 离 知 识 等。
综 合 了 多 种 数 据 开 采 技 术: 面 向 属 性 的 归 纳、 统 计 分 析、 逐 级
深 化 发 现 多 级 规 则、 元 规 则 引 导 发 现 等 方 法。
提 出 了 一 种 交 互 式 的 类SQL 语 言 — — 数 据 开 采 查 询 语 言 DMQL。
能 与 关 系 数 据 库 平 滑 集 成。
实 现 了 基 于 客 户/ 服 务 器 体 系 结 构 的Unix 和PC(Windows/NT) 版 本 的
系 统。
二、 数 据 挖 掘 工 具 的 选 择
----如 何 选 择 满 足 自 己 需 要 的 数 据 挖 掘 工 具 呢 ? 评 价 一 个 数
据 挖 掘 工 具, 需 要 从 以 下 几 个 方 面 来 考 虑:
----1 . 可 产 生 的 模 式 种 类 的 多 少
----指 本 专 题 第 一 篇 文 章 提 到 的 六 种 模 式。
----2 . 解 决 复 杂 问 题 的 能 力
----数 据 量 的 增 大, 对 模 式 精 细 度、 准 确 度 要 求 的 增 高 都 会 导
致 问 题 复 杂 性 的 增 大。 数 据 挖 掘 系 统 可 以 提 供 下 列 方 法 解 决
复 杂 问 题:
多 种 模 式 多 种 类 别 模 式 的 结 合 使 用 有 助 于 发 现 有 用 的 模 式,
降 低 问 题 复 杂 性。 例 如, 首 先 用 聚 类 的 方 法 把 数 据 分 组, 然
后 再 在 各 个 组 上 挖 掘 预 测 性 的 模 式, 将 会 比 单 纯 在 整 个 数 据
集 上 进 行 操 作 更 有 效、 准 确 度 更 高。

多 种 算 法 很 多 模 式, 特 别 是 与 分 类 有 关 的 模 式, 可 以 有 不 同
的 算 法 来 实 现, 各 有 各 的 优 缺 点, 适 用 于 不 同 的 需 求 和 环 境。
数 据 挖 掘 系 统 提 供 多 种 途 径 产 生 同 种 模 式, 将 更 有 能 力 解 决
复 杂 问 题。
验 证 方 法 在 评 估 模 式 时, 有 多 种 可 能 的 验 证 方 法。 比 较 成 熟
的 方 法 像N 层 交 叉 验 证 或Bootstrapping 等 可 以 控 制, 以 达 到 最 大
的 准 确 度。
数 据 选 择 和 转 换 模 式 通 常 被 大 量 的 数 据 项 隐 藏。 有 些 数 据 是
冗 余 的, 有 些 数 据 是 完 全 无 关 的。 而 这 些 数 据 项 的 存 在 会 影
响 到 有 价 值 的 模 式 的 发 现。 数 据 挖 掘 系 统 的 一 个 很 重 要 功 能
就 是 能 够 处 理 数 据 复 杂 性, 提 供 工 具, 选 择 正 确 的 数 据 项 和
转 换 数 据 值。
可 视 化 可 视 化 工 具 提 供 直 观、 简 洁 的 机 制 表 示 大 量 的 信 息。
这 有 助 于 定 位 重 要 的 数 据, 评 价 模 式 的 质 量, 从 而 减 少 建 模
的 复 杂 性。
扩 展 性 为 了 更 有 效 地 提 高 处 理 大 量 数 据 的 效 率, 数 据 挖 掘 系


统 的 扩 展 性 十 分 重 要。 需 要 了 解 的 是: 数 据 挖 掘 系 统 能 否 充
分 利 用 硬 件 资 源 ? 是 否 支 持 并 行 计 算 ? 算 法 本 身 设 计 为 并
行 的 或 利 用 了DBMS 的 并 行 性 能 ? 支 持 哪 种 并 行 计 算 机,SMP 服 务
器 还 是MPP 服 务 器 ? 当 处 理 器 的 数 量 增 加 时, 计 算 规 模 是 否 相
应 增 长 ? 是 否 支 持 数 据 并 行 存 储 ?
----为 单 处 理 器 的 计 算 机 编 写 的 数 据 挖 掘 算 法 不 会 在 并 行 计
算 机 上 自 动 以 更 快 的 速 度 运 行。 为 充 分 发 挥 并 行 计 算 的 优 点
, 需 要 编 写 支 持 并 行 计 算 的 算 法。
----3 . 易 操 作 性
----易 操 作 性 是 一 个 重 要 的 因 素。 有 的 工 具 有 图 形 化 界 面, 引
导 用 户 半 自 动 化 地 执 行 任 务, 有 的 使 用 脚 本 语 言。 有 些 工 具
还 提 供 数 据 挖 掘 的API, 可 以 嵌 入 到 像C、Visual Basic 、Power Build
er 这 样 的 编 程 语 言 中。
----模 式 可 以 运 用 到 已 存 在 或 新 增 加 的 数 据 上。 有 的 工 具 有 图
形 化 的 界 面, 有 的 允 许 通 过 使 用C 这 样 的 程 序 语 言 或SQL 中 的

规 则 集, 把 模 式 导 出 到 程 序 或 数 据 库 中。
----4 . 数 据 存 取 能 力
----好 的 数 据 挖 掘 工 具 可 以 使 用SQL 语 句 直 接 从DBMS 中 读 取 数 据
。 这 样 可 以 简 化 数 据 准 备 工 作, 并 且 可 以 充 分 利 用 数 据 库 的
优 点( 比 如 平 行 读 取)。 没 有 一 种 工 具 可 以 支 持 大 量 的DBMS,
但 可 以 通 过 通 用 的 接 口 连 接 大 多 数 流 行 的 DBMS。Microsoft 的ODBC
就 是 一 个 这 样 的 接 口。
----5 . 与 其 他 产 品 的 接 口
----有 很 多 别 的 工 具 可 以 帮 助 用 户 理 解 数 据, 理 解 结 果。 这 些
工 具 可 以 是 传 统 的 查 询 工 具、 可 视 化 工 具、 OLAP 工 具。 数 据 挖
掘 工 具 是 否 能 提 供 与 这 些 工 具 集 成 的 简 易 途 径 ?
----因 为 数 据 挖 掘 工 具 需 要 考 虑 的 因 素 很 多, 很 难 按 照 原 则 给
工 具 排 一 个 优 劣 次 序。 最 重 要 的 还 是 用 户 的 需 要, 根 据 特 定
的 需 求 加 以 选 择。 数 据 挖 掘 工 具 可 以 给 很 多 产 业 带 来 收 益。
国 外 的 许 多 行 业 如 通 信、 信 用 卡 公 司、 银 行 和 股 票 交 易 所、
保 险 公 司、 广 告 公 司、 商 店 等 已 经 大 量 利 用 数 据 挖 掘 工 具 来
协 助 其 业 务 活 动, 国 内 在 这 方 面 的 应 用 还 处 于 起 步 阶 段, 对
数 据 挖 掘 技 术 和 工 具 的 研 究 人 员 以 及 开 发 商 来 说, 我 国 是 一
个 有 巨 大 潜 力 的 市 场。
我是风,我是雨,我是我呀我是我...



收藏到ViVi   收藏此页到365Key
上一篇: 数据挖掘技术
下一篇: 数据挖掘系统在工程实践中的应用
用户名:新注册) 密码: 匿名评论 [所有评论]
评论内容:不能超过250字,需审核后才会公布,请自觉遵守互联网相关政策法规。
本栏搜索
  • Google
   网站首页 -  网站地图 -  技术学习 -  网站投稿 -  帮助中心
Copyright 2003-2008 www.javah.net All Rights Reserved
2008 如果你喜欢本站 请收藏本站 并推荐给你的朋友一起分享