当前位置:文档之家› 山东大学计算机学院

山东大学计算机学院

• I. Introduction • II. Formalism • III. The BARAC Algorithm • IV. Evaluation of effectiveness
山东大学计算机学院
Байду номын сангаас
I. Introduction
• In dating sites, a user may specify the age, height, income, education, political affiliation, and religion of a potential match.
II. Formalism—B:Rank-Aware Clustering
2)Tightness
对于有序属性,合并两个连续的区间可能并没有任何意义。 例如按年龄排序,I1 : age ∈ [20, 24] and I2 : age ∈ [25, 29], the top-10 items in I1 + I2 originate from I1。 对于排序函数R3,I1 + I2与I1和I2的top-N 数据项不同, I1+I2是tight的。 因此增加 I1, I2, and I1 + I2 到搜索空间中是有意义的,用户可以发现使用 I1或者I2都无法发现的聚类。
II. Formalism—B:Rank-Aware Clustering
3) Maximality
图2所示,S2是最大化子空间,而S2’:{I3,I4}不是。
II. Formalism—C: Problem Statement
本文需要解决的问题为对于数据集D,得分函数 R, 聚类质量 测量方法Q, 整数N , dominance的阈值 θdom, 聚类质量阈值 θQ, 找到所有聚类。
需要发现与区间集合下尽可能多的items。 例如:intervals I1 : age ∈ [20, 29],I2 : edu = MBA, and I3 : income ∈ [75K,100K]. If two dimensional clusters I1、I2, I1、I3, and I2、I3 are discovered, as well as a three-dimensional cluster I1、I2、I3, then only I1、I2、I3 is presented to the user
对于一个有序区间,两个或多个连续的区间连接在一起,会产生一个更大的 区间,但是并不一定增加新的items,因此可能会产生一个错误的聚类描述。 例如:按收入从高到底排序,我们发现20到24岁的得分要低于25到29岁的用户。 也就是20到29岁包含的items与25到29岁的一致,认为这个聚类不紧密。 ➢ 3) Maximality
• University of Pennsylvania Philadelphia • 研究方向:Databases、Web data management
、Web services and Web applications、 Business Processes
山东大学计算机学院
Contents
1)Rank-Aware Clustering Quality
II. Formalism—B:Rank-Aware Clustering
1)Rank-Aware Clustering Quality
Theorem 2.1. The downward closure property holds for QtopN , QSCORE, and QSCORE&RANK. Proof: QtopN :|A ∩ B| ≤ min(|A|, |B|). Thus the value of QtopN is nonincreasing with increasing dimensionality. QSCORE and QSCORE&RANK:the values of QSCORE and QSCORE&RANK are strictly non-increasing with increasing dimensionality
据,用户需要浏览大量的数据后,才能找到下一类数据。.
山东大学计算机学院
I. Introduction
例如: a dating website 用户: looking for a partner between 20 and 40 years old,
sorting the matches by income from higher to lower 结果:seeing a large number of matches in their late 30s who hold an MBA degree and work in the financial industry, before seeing any matches in different age groups and walks of life. 更合理的结果展示:在结果集中,找到数据属性的聚类。
谢谢!
山东大学计算机学院
Making Interval-Based Clustering Rank-Aware
报告人:李婷
山东大学计算机学院
• 出处: International Conference on Extending
Database Technology
• 作者:Julia Stoyanovich,Sihem Amer-Yahia, Tova Milo
III. The BARAC Algorithm
BARAC, 至下而上的聚类算法
III. The BARAC Algorithm—A:BuildGrid
BARAC--BuildGrid
III. The BARAC Algorithm—B:Merge
BARAC--Merge
III. The BARAC Algorithm—C:Join
BARAC--Join
III. The BARAC Algorithm—D:Choose
BARAC--Choose
第一种方式:从Join产生的子空间中,选择最大化的子空间 大部分用户更倾向于有多种描述的聚类,包括属性名称和取值范围。 第二种方式:最大化聚类item的得分 本文使用K-means,识别出maxClusters聚类,maxClusters为选 择的聚类数量
山东大学计算机学院
I. Introduction
本文提出的聚类算法,得到的聚类具备三个性质:. ➢ 1) Clustering Quality • rank-aware clustering quality Measures
(1) QtopN : treat the topN items of each interval as sets (2) QSCORE : account for the scores of the items (3) QSCORE&RANK : account for both scores and ranks ➢ 2) Tightness
山东大学计算机学院
I. Introduction-Contributions
➢ 定义了基于区间的感知顺序的聚类,及相应的衡量聚类质量策略方法。 ➢ 提出了一个算法BARAC,自上而下的聚类算法,并验证了方法的有
效性。.
II. Formalism—A:Interval and Subspaces
1、Ranked Interval 与 Interval dominance (1)数据集D:由属性-值对描述 属性集合A:每个属性由name和一个值域表示。
• In real estate applications, a user may describe his dream home by its location, size, and number of bedrooms.
• The number of matches is often very high, making data exploration an interesting challenge.
• Typically users also specify ranking criteria for the retrieved items, e.g., a sort order on a single attribute, or a weighted combination of multiple attributes. 排序帮助用户,依据他们的标准提供高质量的数据,同时导致同类的匹配数
例如: given S‘: {I1, I2} and S : {I1, I2, I3}, S’< S
II. Formalism—B:Rank-Aware Clustering
1)Rank-Aware Clustering Quality 考虑了三种衡量聚类质量的方法:将子空间的质量与阈值θQ ∈ (0.5, 1]比较。 三种测量方法: QtopN:如果子空间包含的items,多数来至子空间的每个区间里。
These clusters may describe matches between 35 and 40 with an MBA, matches between 25 and 30 who work in the software industry, etc., allowing for data exploration of ranked results.
QSCORE:包含多数高分的items。
例如: QSCORE:N = 3 and θQ = 0.8. S2: QSCORE =(500+100+80)/(500+175+150)= 0.824, QSCORE&RANK :考虑了items的排序和得分。在靠前的顺序中,得分较高。
相关主题