浅谈Web日志挖掘技术
网络 作 为我们 生 活 的一 部分 ,在 2 l世纪 之后 更 是 以迅猛 的 技 术 ,这样 我们 就 能发 现一 些潜 在 的用户 访 问模式 ,从 而 为用户 速 度 发展 ,其 影 响力 已经 渗透 到 了我 们 日常 生活 的方 方面 面 。特 行 为 的研 究提 供实 际参考 价值 和 便利 。 别 是 从 W b . 以来 。网 站 已经 越 来越 成 为一 种 流 行 的互 动 媒 e 20 三、W b日志挖 掘 的优 点 e 介 ,据 不 完全 统 计 , 目前 万 维 网上 的 Wb 页 面数 目现 已超 过 l e O 在 W b 据挖 掘下 ,W b日志 挖掘 具有独 特 的现实 意义 。Wb e数 e e 亿 。怎样 从 这样 一个 庞大 而有 用 的数 据源 中 找 出用户 感 兴趣 的知 日志挖 掘 的应 用及 好 处主 要有 :提 高系统 效 率 ,优化 网站结 构 , 识越 来越 成 为人们 的一个研 究 热 点 。 个 性 化服 务 。
W e g M i i g Te h o o y S u y b Lo n n c n l g t d
P n ig e gJn
( u e U i ri f e h oo yWu a 4 0 6 ,hn ) H b i n esyo c n lg , h n 3 0 8C i v t T a
计算机光盘软件与应用
工 程 技 术
C m u e D S fw r n p lc t 0 s o p t r C o t a ea dA p i a i n
ห้องสมุดไป่ตู้2 1 年第 4期 02
浅谈 We b日志挖掘技术
彭 晶
( 湖北工业大 学,武 汉
406 30 8)
摘 要 : e 挖 掘 作 为近年 来数 据挖 掘 的一 个新 的研 究领 域 ,因其 实用 性强 而获得 了广泛 的研 究 , e W b w b日志挖掘 作 为 We b挖掘 中最 重要 的一 个研 究领域 ,通过 对服 务 器 日志进行 分析 挖掘 ,得 出用 户的访 问模 式 ,它在 网站 个性化 推荐 ,智 能 化 服务 上发 挥 着 重要 的作 用。 关键 词 :W e b日志 ;数 据挖 掘 ;模 式分析 ;网站 结构 中图分类号:T 12 文献标识码 :A P 8 文章编号 :10— 59( 02 0 — 0 0 0 0 7 9 9 2 1 ) 4 0 4— 2
领 域 目前 比较有 代 表性 的模 型 。在 传统 的定 义 上 ,知识 发现 过程 由以下 三个 阶段 组 成 :数据 准备 ,数据 挖掘 ,结果 表达 和解 释 。 但 是 目前 的研 究者 将数 据挖 掘 分成 了更 加详 细 的九 个 阶段 ,包括 数 据准 备 ,数据 选 择 ,数据 预 处理 ,数 据缩 减 ,确 定数 据挖 掘 的 目标 ,确 定数 据挖 掘 ,运用 选 定 的数据 挖 掘算 法进 行挖 掘 分析 , 模 式 评估 ,可 视化 显 示九个 阶 段 。
二 、W b日志 挖掘 概述 e
( )W b 日志挖 掘 的最 大一个 用 处也是 目前研 究最广 的 一 一 e 个 方 面就 是个 性化 服 务,通 过对 每个 用 户访 问模 式的分 析 ,寻 找 出用 户最 常访 问的界 面 ,从而 得到 一个 用户 兴趣 序列 ,根据 这个 序列 ,我 们使 用模 板 技术 生成 一个 网页 主模 板 ,然后 按照 不 同用 户 的习惯 生成 符合 用 户 习惯 的个性 化 界面 。也就 是说 每个 用户 看 到 的页面 是 不完 全相 同 的 ,这 个不 完 全相 同表现 在 界面上 的超 链 接排 布 不 同,页 面显 示 的 内容 不完 全相 同,用户 经 常访 问的超 链 接 界面 会排 在前 面 ,最不 常用 的在 最后 ,从 而方 便用户 的使 用 。
A b tac : e ii g an w r ao e e c n rc n e r , a am i n e tnsvers a c e a s sp a tc lW e o s r t W b m n n e a e fr s a h i e e ty a s d t nig, x e i e e hb c u eofi r cia, b lg r r t m i n sW e i i st o ti p ra e e r h a e str u nay i fs r e o ii g d a te u e a c s atm s nig a b m n ng i hem s m o tntr s ac r a h o gh a lsso e v rl g m n n r w h s rS c e sp te , st r o aia in, e o i pes n lz to r c mm e d to , a l i p ra tr l t eitli e es r ie e n ai n plyal m o tn o ei h n elg nc e vc . n Ke w o d : e og D aami i ; te ay i;Si tu t r y r s W b l ; t nng Patm a lss t sr cu e n e
数据 挖掘 简 述 传 统 数据 挖 掘 的对象 主 要是 指 是数据 库 中 的数据 ,但 随着 数 据 库 系 统 的 发展 , 目前 数 据 挖 掘 的 数据 源 主 要 包 括 文 件 系 统 、
一
、
W b 资源 等 一系 列数 据 的集 合 。数 据挖 掘是 一个 螺 旋上 升 、循环 e 往 复 的多步 骤渐 进 处理 过程 。其 中,多 处理 阶段 模 型是 数据 挖掘