当前位置:文档之家› 电子商务中的数据挖掘及其应用

电子商务中的数据挖掘及其应用


在一次访问行为中, 访问了页面/ / c o m p a n y / p r o d u c t l , 一 般也会访问页面/ / c o m p a n y / p r o d u c t l 。再如客户在线购
买某一品牌的牛奶, 一般也会购买某一品种 ( 另一品 牌) 的面包。进行We b 上的数据挖掘, 构建关联模型, 我们可以更好地组织站点,减少用户过滤信息的负
信息。如果能够从这个文件中存储的一些项进行语 法上的分析, 如D N S , 就可以知道客户来源的区域, 如
域名 w w w . r a s t a . a e j p被分析后可以知道客户来自于日 本。 如果通过数据挖掘和这样的语法分析, 就知道了 某一产品它的购买者有 8 0 %是来 自于 日本, 那么接下
中图分类号: T P 3 1 1 . 1 3
文献标识码: A
电子商务中的数据挖掘及其应用
( 中国 地质大学计算机科学与技术系,湖北 武i X 4 3 0 0 7 4 )
摘 要:作为解决目前企业信息系统中普遮面临的 “ 数据爆炸”而 “ 信忽 缺乏”状况的最有效的手段之一,数 据挖掘受到了学术界和企业界的极大关注.详细阐述了电子商务中数据挖掘的数据资源、基本方法、体系结构 和典型应用. 关键词:数据挖掘;电子商务;关联规则
担。
电子商务带来了一些问题。 这个问题通过使用 c o o k i e 得到了克服。c o o k i e 是一种软件构件,它能够在客户 端存储客户访问服务器的信息。服务器软件上存储
关于c o o k i e 的这部分就叫做c o o k i e l o g s . c o o k i e l o g s 的 一般格式是: " n a m e , e x p i y r s e d a t e , p a t h , d o m a i n , s e c u r i y t -
和查询数据。 ①日 志文件 它分为s e r v e r l o g s , e r r o r l o g s , c o o k i e l o g s . s e r v e r l o g s 有两种格式存储, 一种是普通日
备了 极高的交互性能。 但无论是B 2 B ( B u s i n e s s t o B u s i - 志文件格式, 另一种是扩展 日志文件格式。普通 日志 文件格式以“ D a t e , C l i e n t T P , U s e r n a m e , B y t e s , S e r v e r , R e - n e s s 商家对商家) 还是B 2 C ( B u s i n e s s t o C u s t o m e r 商家对
作者简介:蒋良 孝( 1 9 7 7 - ) ,男,湖南人, 硕士 研究生, 研究方向为数据挖掘;蔡之华, 硕士生导师。
一 7 4一
万方数据
存取请求失败 的数据 , 如丢失连接 、授权失败 、 超时
等。 c o o k i e I o g s , H M 协议本身是一种非事务型的, 这
一种特征对于事务型的电子商务来说是不合适 的, 给
A b s t r a c t : A s a m o s t v a l i d m e a n s o f s o l v i n g t h e s t a t u s o f " d a t a e x p l o s i o n " b u t " i n f o r m a t i o n l a c k " t h a t c u r e r n t e n t e r p r i s e i n - f o r m a t i o n s y s t e m s a r e f a c e d w i t h , d a t a m i n i n g i s p a y i n g m a x i m u m a t t e n t i o n t o t h e a c a d e m i a a n d e n t e r p r i s e . T h i s p a p e r s e t f o r t h d a t a r e s o u r c e s , b a s i c m e t h o d s , s y s t e m c o n s t u r c t a n d t y p i c a l a p p l i c a t i o n s o f d a t a m i n i n g i n e l e c r t o n i c c o m m e r c e i n d e t a i l . K e y w o r d s : d a t a m i n i n g ; e l e c r t o n i c c o m m e r c e ; a s s o c i a t i o n ul r e s
1 引 言
J I A N G L i a n g - x i a o , C A I Z h i - h u a
务信息, 以指导 日后 的电子商务活动。
电子商务就是指交易者之 间依托计算机 网络 , 按
2 电子商务中数据挖掘的数据资源
便于 电子 商务的组织者预测客户的访 问模式, 对客户
3 电子商务中数据挖掘的基本方法
( 1 ) 路径分析: 它可以被用于判定在一个We b 站点 中最频繁访问的路径。还有一些其它的有关路径的 信息通过路径分析也可以得出。 如7 0 %的用户端在访
问/ / c o m p a n y / p r o d u c t l 时, 是从/ / c o m p a n y 开始, 经过/ / c o m - p a n y / n e w s , / c o m p a n y 巾 r o d u c t s , / c o m p a n y / p r o d u c t l ; 8 0 %的 访问这个站点的客户是从/ / c o m p a n y / p r o d u c t s开始的: 6 5 %的客户在浏览4 个或更少的页面后就离开了。第 1 条规则在/ c o m p a n y 巾 r o d u c t 2 页面上有有用的信息, 但 如发现在/ / c o m p a n y 巾 r o d u c t l 进行过在线订购的客户中 因为客户对站点进行 的是迁回绕 行的访 问, 所 以这个 有6 0 %是2 0 -3 0 岁生活在大中城市的年轻人。 得到分 有用信息并不 明显 。 第2 条规则说 明了客户对站点的 类后,就可以针对这一类客户的特点展开商务活动, 访问一般不是从主页开始的。 而是从/ / c o m p a n y / p r o d u c t s 提供有针对性的个性化的信息服务。 开始的, 如果在这个页面上包含一些产品的 目录类型 ( 5 ) 聚类分析的发现: 聚类分析法不同于分类规则 法, 其输入集是一组未标定 的记录 , 也就是说此时输 的信息, 将是一个不错的主意。第3 条规则说明了客
( 1 ) 服务器数据: 客户访问服务器就会在服务器上 产生相应的服务器数据 , 这些数据可 以分为 日志 文件
照一定的规则或标准进行包括商务信息、 商务管理和 商品交易在内的全部商务活动。随着 I n t e n r e t 技术的 不断发展, 电子商务已是企业发展的大势所趋。 借助 I n t e n r e t 时间上迅速和空间上跨越的优势. 电子商务具
蒋良孝, 蔡之华
D a t a mi n i n g a n d i t s a p p l i c a t i o n s i n e l e c t r o n i c c o m me r c e
( D e p a r t m e n t o f C o m p u t e r S c i e n c e a n d T e c h n o l o g y , C h i n a U n i v e r s i t y o f G e o s c i e n c e s , H u b e i W u h a n 4 3 0 0 7 4 , C h i n a )
客户) , 在其蓬勃发展的同时都面临着下面的问题: 商 家只能 以静态模式等待 网络访 问者浏 览网页 。客户 通过浏览文本介绍或图片说明对商品进行选择取舍, 而商家只能被动地通过后台数据服务器中的订单记 录等传统方式 了解商品的市场需求情况。 对于“ 时间 就是金钱, 商机稍纵即逝” 的市场规则而言, 如何才能 主动获知客户喜好并开发其购买潜力, 最快地找到相 应优势商品从而最迅速调整商业方案成 了一个十分 重要的问题。数据挖掘的出现为这一 问题提供 了很 好的解决方案。电子商务中的数据挖掘就是从海量 的商务信 息中提取 出隐含的、 有价值的和可理解的商
来就 可 以根据此信息调整 电子商务中的在线 市场策
略, 调整对 日本客户的商务活动。 扩展 日志文件格式 主要是支持关 于 日志文件元信息的指令,如版本号、 会话监控开始和结束的日期、 被记录的域等. e r r o r l o g s
荟金 项目: 湖北省自 然 科学 基金资 助项目 ( 2 0 0 1 A B B 0 0 6 收稿日 期 2 0 0 2 - 1 0 - 3 1
( 3 ) 序列模型的发现: 序列模式分析的侧重点在于 分析数据 间的前后或因果关系。就是在时间有序 的 事务集 中, 找到那些“ 一些项跟随另一些项” 的 内部事
务模式。 如, 在/ c o m p a n y / p r o d u c t l 上进行过在线定购的 顾客, 有6 0 %的人在过去1 0 天内也在/ / c o m p a n y 币 o r d u c t 2 处下过定单。 再如, 在线定购过电脑的客户, 6 0 %的人 会在2 个月内定购打印机和纸张。 发现序列模式能够
l e v e l " o ②查询数据: 它是电子商务站点在服务器上产 生的 一种典型数据 。如对于在线 存储 的客户也许 会 搜索一些产品或某些广告信息, 这些查询信息就通过 c o o k i e 或是登记信息连接到服务器的访问日志上。 遗 憾 的是, 目前还没有一个标准的查询数据格式。 ( 2 ) 客户登记信息: 它是指客户通过We b 页在屏幕 上输入的要提交给服务器的相关信息。它在电子商 务活动起着非常重要的作用, 特别是在安全方面, 或 者在对客户可访问信息的限制方面。在 W e b的数据 挖掘 中, 客户登记信息必须和访 问日志集成,以提高 数据挖掘的准确度 , 能更进一 步了解客户 。
相关主题