第3l卷第2期 2011年4月 农业与技术
A 洲hⅡ d0舒 Vl0】.31 ND.2 Apr.2011 ’l18‘
数据挖掘在农业电子商务中的应用
李小丹
(吉林农业工程职业技术学院.吉林四平136001)
【摘 要】本文将数据挖掘技术中的关联规则分析方法应用于农业电子商务网站的构建中,通过关联规则分析能够更好的组织
网站内容,有效的为用户服务。
【关键词】数据挖掘;关联规则;农 ;电子商务
中图分类号:TP391 文献标识码:A
随着计算机技术的飞速发展,各类信息的数
据量迅速增长,这就使得越来越多的数据被人们
所积累,许多重要的信息就隐藏在这些大量增长
的数据背后,人们希望能够通过分析,更好地利
则、人工神经网络等)和其他类(如文本挖掘、
Web挖掘等)三大种类。
关联规则是一种简单实用的分析规则,是数
据挖掘中最成熟的主要技术之一,它描述了某些
用这些数据,数据挖掘技术由此应运而生,它是 属性在一个事物中同时出现的规律。在数据挖掘
通过一种新的数据分析技术处理数据,并将有价 领域广泛的应用关联规则,原因是它不受只选择
值的潜在知识从中抽取出来。 一个因变量的限制,隐藏在所挖掘数据中的所有
关联关系能够无遗漏通过关联规则挖掘算法发现。
1数据挖掘的概述
3数据挖掘的流程
数据挖掘是为了从存放在数据厍或其他信息
3.1确定业务对象
库中的大量的数据中获取有效的、潜在的、有用
3.2数据理解
的、最终可理解的信息的过程。它是多个领域的
3.3数据准备
理论和技术的结合,已经成为数据库研究中的一 3
.
4建模
个很有应用价值的新领域。
2数据挖掘技术的方法
数据挖掘技术方法主要统计分析类(如聚类
3.5结果分析
3.6知识同化
4关联规则挖掘技术的应用
分析、最近邻算法等)、知识发现类(如关联规 本研究主要是通过关联规则分析方法挖掘相
・119・ 2011年4月 农业与技术 Vo1.31 No.2
应站点的日志文件和相关数据来发现该站点上的
浏览者和客户的访问情况,充分了解客户的喜好、 购买模式,甚至是客户一时的冲动,进而调整 Web站点结构,以提高Web站点的服务质量。通 过在农业电子商务网站中应用关联规则进行数据 挖掘,构建关联模型,可以更好地组织网站内容, 使用户不用花费大量时间进行信息过滤,并将用 户感兴趣的信息发送给用户。 4.1关联规则挖掘问题的步骤 4.1.1频繁项目集的发现 用户给定一个最小的支持度(这里用Min—Sup 表示)作为阈值,寻找所有支持度大于这个阈值 的项目的集合,这个集合被称作频繁项目集。频 繁项目集可能具有包含关系,我们多数情况下只 关心那些不被其它频繁项目集所包含的大的频繁 项目集(又称频繁大项集),这些频繁大项集是形 成关联规则基础。 4.1.2关联规则的生成 根据用户给定的最小置信度(这里用Min— Conf表示),在每个频繁大项集中,寻找置信度不 小于Min—Conf的关联规则。规则发现过程实际上 就是找出所有的频繁数据项集中, 于客户指定的最小支持度的集合。 4.2关联规则应用 通常在进行数据挖掘之前,需要将日志中的原始 数据进行预处理、过滤和转换后,通过数据库引
擎将其转换成一个数据矩阵结构。表1是从网站
的日志文件中选取的一个二维数据表,其中列出
了客户对三类品种的大豆:吉育79、吉育87和吉
育47的关注情况。
表1二维数据表
nan】e Filel File2 File3 SUn1
edu 92 7 15 114
C0m 12 85 25 l22
gov 6 16 18 40
SuHl l10 108 58 276
其中,行表示3个不同的客户域名,分别为
edu、coin、gov;列字段表示各域名中客户曾访问
的3个不同的页面,分别为Filel(吉育79j、
File2(吉育87)、File3(吉育47)。
针对表1所给出的二维数据矩阵所表示的关
联情况,利用频繁项目集和关联规则进行转换。
实验中,我们取最小支持度Min—Sup=0.3,最小
支持度大于等 置信度Min-c。nf=O・75。
计算表1的数据,我们不难得到edu、com、
我们通过对已建的有关大豆方面的农业电子
商务网站中用户访问行为的分析,利用关联规则
技术,寻找基于客户浏览行为分析的农业电子商
务网站域名和访问页之问的规则。
日志文件是由一条条页面访问记录组成的。
gov、Filel、File2、File3的支持度分别为:
ll4/276=41.3% 122/276=44.2%
40/276=14.5% l10/276:39.9%
108/276=39.1% 58/276=21.0%
从而得到一维频繁项目集,如表2所示。
农业与技术 2011年4月 ・120・
表2一维频繁项目集
项目集 支持度(%)
edu 41.3
C0m 44.2
gov 14.5
File1 39.9
File2 39.1
File3 21.0
其中超过最小支持度0.3的一维频繁项目集
有3个,分别为:edu、eom、Filel、F丑e2。对它
们进行集成产生二维频繁项目集的集合为:
{{edu,Filel}、 {edu,File2}、 {eom,Filel}、
{com,File2}},各项支持度如表3所示。
表3二维频繁项目集
项目集 支持度计数 总数 支持度(%)
{edu,Filel} 92 276 33.3
{edu,File2} 7 276 2.5
{com,Filel} 12 276 4.3
{corn,File2} 85 276 30.8
其中超过最小支持度0.3的二维频繁项目集
是{odu,Filel}和{tom,File2},经过计算得出
其的置信度如表4所示。
表4二维频繁项集的置信度
项目集 支持度计数 总数 置信度(%)
{edu,Film} 92 ll4 80.7
{corn,File2} 85 122 69.7
根据最小置信度0.75,最后得到满足最小置
信度的二维频繁项集是{edu,Filell,其置信度
为80.7%。即来自edu域名的用户主要访问该网
站的Filel内容,也就是来自edu域名的用户比较
欢迎吉育79这个品种的大豆。有了以上结论,可
以针对edu域名的用户推出与吉育79大豆信息相
关的促销活动,这样就可以吸引更多的用户,增
加销售量。从用户的行为中学习关于用户的知识,
使农业电子商务网站的智能化程度更高,实验说
明了通过这种改进,能够更好的为用户服务。
5结论
本文在农业电子商务网站中应用数据挖掘技
术,主要是运用关联规则分析方法评价来自不同
域名的用户对某种商品的兴趣程度,目的是向用
户推荐更多相关或相似的产品信息,实现了数据
挖掘技术在农业电子商务中的应用。
参考文献
[1]杨宝华,李绍稳,等.数据挖掘技术在现代化农业中的应用[J].
安徽农业大学信息与计算机学院,20o9
[2JJing I.am,Data MirIiIlg。 出JIIfⅢ学 斌in Hi扣Education,
AIR Fomn. ̄002-"64—91
[3]王伊蕾,宋丽华,等.模糊数据挖掘在电子政务中的应用[J].计
算机工程与应用,2OO6,(23):195—197
[4]周亮.面向电子商务的数据挖掘系统的研究与设计[D]:[硕士
学位论文].武汉:武汉理工大学,2O05
[5]王丹.Web数据挖掘在电子商务中的应用研究[D]:[硕士学位
论文].山东:山东科技大学,2OO6
作者简介:李小丹(1980一),女,讲师,硕士学位,主要从事计算机教育与研究工作。