当前位置:文档之家› 山东大学-计算广告学复习重点整理1

山东大学-计算广告学复习重点整理1

1.广告史简介(4个阶段)·以生存、生产信息交流为中心的广告群体活动时期;·以简单的商品生产和交换为主要内容的广告个体活动时期;·以专业化运作和行业竞争为主要特征的广告行业竞争时期·以资本运营和规模化运作为重要手段的广告产业运作时期2.广告定义广告(advertising)是由已确定出资人通过各种媒介进行的有关产品(商品、服务和观点)的,通常是有偿的、有组织的、综合的、劝服性的非人员的信息传播活动。

分类:公益广告、旅游广告、商业广告、硬广告、软广告3.互联网广告分类·文本广告(搜索广告、上下文广告)·展示广告(图片广告、视频广告)4.互联网广告生态系统(广告是三个主体的博弈)·出资人(广告主)、媒介、受众·广告主希望通过媒介去影响受众·广告的本质功能,是借助某种有广泛受众的媒介的力量,完成较低成本的用户接5.计算广告学简介:计算广告学是一门正在兴起的分支学科,它涉及到大规模搜索和文本分析、信息获取、统计模型、机器学习、分类、优化以及微观经济学6.品牌类广告效果的核心指标Reach(有多少人看过)、Frequency看了多少次7.效果类广告效果的核心指标:点击、注册/下载/搜索、销售/充值8.布尔模型描述·文档表示:一个文档被表示为关键词的集合·查询式表示:查询式被表示为关键词的布尔组合,用“与、或、非”连接起来,并用括弧指示优先次序·匹配:一个文档当且仅当它能够满足布尔查询式时,才将其检索出来;检索策略基于二值判定标准9.布尔模型的优点·查询简单,容易理解·通过使用复杂的布尔表达式,可以很方便地控制查询结果·相当有效的实现方法(相当于识别包含了一个某个特定term的文档)·经过某种训练的用户可以容易地写出布尔查询式·布尔模型可以通过扩展来包含排序的功能,即“扩展的布尔模型”10.布尔模型的缺点①要问题在于不支持部分匹配,而完全匹配会导致太多或者太少的结果文档被返回(非常刚性: “与”意味着全部; “或”意味着任何一个)②很难控制被检索的文档数量(原则上讲,所有被匹配的文档都将被返回)③很难对输出进行排序(不考虑索引词的权重,所有文档都以相同的方式和查询相匹配)④很难进行自动的相关反馈(如果一篇文档被用户确认为相关或者不相关,怎样相应地修改查询式呢)11.向量空间模型的描述·文档D:泛指文档或文档中的一个片段(如文档中的标题、摘要、正文等)·索引项t:指出现在文档中能够代表文档性质的基本语言单位(如字、词等),也就是通常所指的检索词,这样一个文档D就可以表示为D(t1,t2,…,t n),其中n就代表了检索字的数量·特征项权重W k :指特征项t n能够代表文档D能力的大小,体现了特征项在文档中的重要程度·相似度S:指两个文档内容相关程度的大小12.向量空间的特点:·基于关键词(一个文本由一个关键词列表组成)·根据关键词的出现频率计算相似度·用户规定一个词项(term)集合,可以给每个词项附加权重·根据相似度对输出结果进行排序·支持自动的相关反馈*词项的权重:根据词项在文档(tf)和文档集(idf)中的频率(frequency)计算词项的权重13.向量空间的优点·术语权重的算法提高了检索的性能·部分匹配的策略使得检索的结果文档集更接近用户的检索需求·可以根据结果文档对于查询串的相关度通过Cosine Ranking等公式对结果文档进行排序14.向量空间模型的缺点·标引词之间被认为是相互独立·随着Web页面信息量的增大、Web格式的多样化,这种方法查询的结果往往会与用户真实的需求相差甚远,而且产生的无用信息量会非常大·隐含语义索引模型是向量空间模型的延伸15.简单语言模型·以概率及统计学为基础的一种模型·首先为每个文档估计一个语言模型,然后基于语言模型根据查询的似然排序·已经存在于自然语言处理及声音识别中16.概率模型(检索问题即求条件概率问题)If Prob(R|d i, q) > Prob(NR|d i, q) then d i是检索结果,否则不是检索结果17.概率模型的优缺点(向量模型使用比较广泛)优点:文档可以按照他们相关概率递减的顺序来排序缺点:①开始时需要猜想把文档分为相关和不相关的两个集合,一般来说很难②实际上这种模型没有考虑索引术语在文档中的频率(因为所有的权重都是二值的)③假设标引词独立18.统计模型和传统概率模型的比较①基本思想完全不同·传统的信息检索概率模型:a. 文档d与检索q的相关度排序函数定义为事件R(文档是否满足检索要求)的概率,即:f(q,d)=P(R|d) ;b. 相关度排序函数定义虽然比较直观,但相关性是一个抽象的概念,该定义本身没有也无法具体给出R的定义,所以该模型在理论上存在很大的模糊性·基于语言模型的检索模型:a. 相关度排序函数则定义为由文档的语言模型生成检索的概率,即f(q,d)=p(q|d)。

b. 建立在统计语言模型理论基础上,定义明确,便于操作。

②具体实施方法不同·传统的概率模型:a. 由于没有也无法对相关性做出明确定义,因此一般需要在检索中,首先给定带有相关性标记的文档作为建立模型的基础。

b. 在实际中,要针对每个检索给定学习数据,几乎不可能。

该问题是传统信息检索模型存在的一个主要问题。

·基于语言模型的信息检索模型:a. 可以基于每个文档直接计算出相关度排序函数,从而有效地避免这个问题b. 还可以用该模型为传统概率模型形成初始检索。

19.文本处理主要方法·词法分析:中文分词、英文断词·异文合并:繁简转换、形态还原、提取词干·其他:停用词过滤20.异文合并英文的异文合并主要体现在提取词干及形态还原中文的异文合并主要体现在繁简转化21.建立索引的目的·对文档或文档集合建立索引,以加快检索速度·倒排文档(或倒排索引)是一种最常用的索引机制·倒排文档的索引对象是文档或文档集合中的单词等。

例如,有些书往往在最后提供的索引(单词—页码列表对),就可以看成是一种倒排索引22.倒排文档组成(词汇表、记录表)·词汇表是文本或文本集合中所包含的所有不同单词的集合·对于词汇表中的每一个单词,其在文本中出现的位置或者其出现的文本编号构成一个列表,所有这些列表的集合就称为记录表23.倒排索引的优点·快速索引 (长query需要更多时间)·灵活性: 不同类型的信息都可以存储在postings list中·如果存储了足够多的信息,则可以支持复杂的检索操作24.倒排索引的缺点·很大的存储开销·更新、插入和删除都需要很高的维护开销,倒排索引相对静态的环境(很少插入和更新)中使用比较好·处理开销随着布尔操作的增加而增长·由于postings越来越多(例如引入同义词),导致索引检索的代价越来越大,需要对位置进行很多处理(例如短语匹配)25.准确率 (Precision)=检出的相关文档数/检出文档数召回率(Recall)=检出的相关文档数/相关文档数26.关键词广告拍卖关键词发布的三个环节:·广告拍卖: 广告主向搜索引擎提交关键词, 报价, 广告文案·分配规则: 搜索引擎如何分配广告位, 选取广告并排序·支付规则: 广告主按什么规则向搜索引擎支付费用·基本假设:·点击率a i,j = 广告文本产生的影响q i * 广告位产生的影响e j·不同广告是否被点击是相互独立·广告位的影响力从高到低依次递减·搜索引擎知道任意广告主在每个广告位的点击率, 而广告主仅知道自己的广告在不同广告位的点击率·独立分布的私人估价: 不同广告主的真实估价是他的私人信息, 但都满足同一概率分布 , 这样的话每个广告主都可以推算别人的真实估值27.单物品拍卖·如果对每一个关键词,都仅有一个广告位(退化成单物品拍卖的形式)·有N>1个竞买人竞争一个不可分割的物品,竞买人i对这个物品的估价是v i·三个估价模型:①私人估价模型(竞买人估价仅依赖于自己的私人信息)②共有价值模型(竞买人估价仅依赖于一个共同的外生变量,不同的竞买人对这个外生变量有不同的推断)③关联价值模型(竞买人的估价不仅依赖于自己的私人信息,也依赖于其他竞买人的私人信息)28.4种私人估价模型下的单物品拍卖形式·英式拍卖(OAB), 公开增价拍卖·荷兰式拍卖(ODB), 公开减价拍卖·第一价格密封拍卖(FPSB), 第一价格拍卖·第二价格密封拍卖(SPSB), 第二价格拍卖29.私人价值假设条件·对买方i来说,只有他自己知道νi 的大小,卖方及其他买方都不知道νi 。

但是他们会把νi 当作分布在[a,z]区间上的一个随机变量,并知道其概率分布函数Fi(νi) 和密度函数fi(νi) ,其中0≤a≤z。

·独立性假设条件:这些随机变量ν 1 ,ν 2 ,…,νn 是独立的(或不相关的)。

即ν 1 ,ν2 ,…,νn 的联合分布函数为:F(ν1 ,ν2 ,…,νn )=F1(ν1) F2(ν2) …Fn(νn)。

独立性就是每个买方对物品的估价为私人价值,不受其他买方估价的影响,即使第i个人知道νj ,(j≠i),他也不会改变自己对物品的估价。

·对称性假设条件:概率分布函数完全相同,即对所有买方i或者j(=l,2,…,n)及其所有ν∈[a,z],则Fi(ν) =Fj(ν) =F(ν) 。

·风险性假设条件:每个买方的目标是使其收益(或者期望收益)最大化。

·非合作行为假设条件:所有买方独立决定自己的竞价策略,不存在任何合作性协议30.GFP机制(Generalized First Price 广义的第一价格)·理论基础:一阶价格密封拍卖在多物品拍卖中的延伸和改造·分配规则:价高者得·支付规则:按报价支付·特性:报价具有连续性和公开性,但是极不稳定,拍卖效率低·历史:GoTo (1998) –> renamed to Overture -> Yahoo! (2003)31.GSP机制(广义的第二价格))32.GSP特性:·纳什均衡报价策略并不唯一·GSP不是一个鼓励讲真话的机制,即说实话不一定形成纳什均衡·GSP均衡不一定是最优均衡,即不一定可以得到社会最优均衡33.VCG34.VCG在实际中遇冷的原因·VCG机制的分配规则和支付规则都是以最优化社会效用的目标而设定的,因此VCG机制的分配和支付规则的计算都相对复杂并且难于理解·VCG的支付原则是广告主为网民一次点击的支付等于他对其他广告主造成的效率损失,广告主在直觉上很难理解他为何要为其他竞争对手的效率损失而付款·容易造成广告主在选择平台投放广告时对机制的理解成本,并可能产生对机制的不信任·话语权在卖方手中·说真话是弱占优策略,因此,可能存在除了说真话以外的其他的弱占优策略,这就导致VCG 机制的可预测性的减弱35.互联网广告拍卖理论在工业界的实践36.广告交易平台(Ad Exchange)概貌·优化目标:·关键特点:①竞价方式不向广告主做量的约定,而是根据变现能力,即eCPM,来决定每次展示分配给哪个广告主。

相关主题