当前位置:文档之家› 算法新闻 第3三章-用户画像的标签体系

算法新闻 第3三章-用户画像的标签体系


关键词
用户画像、(非)结构化用户标签体系、 计算框架、
第1节 用户画像标签体系
对于算法推荐系统的每一个用户, 系统会为其分配一个系统账户 (也称 “用户账号” “用户ID”, ID为英文单词 identification 即身份证明的缩写), 此账户用于在系统中唯一标识每个不同的用户。 相应地, 使用标签对用户进行 描述, 就是为用户的系统账户添加多个关联至对应用户ID的标签, 并且可以给标签设置不同的权重值来体现用户的 兴趣分布。
细化表兴趣类别 K(兴趣类别如 “体育” “财经”……)
二、结构化标签用户画像
本节给出的细化信息表仅是结构化用户画像数据模型中信息表的一个简单示例, 在真实的算法推荐系统 中, 需要系统设计人员和业务分析人员根据系统需求, 设计完善的数据模型和所有数据表, 并交由系统 实现人员完成相应数据表的存储、 分析和处理等工作。
二、结构化标签用户画像
【提要】
算法推荐系统可以使用数据表来存储和表示结构化的用户画像, 不同颗粒度的数据表对用户行为和兴趣 的刻画力度有所不同。
基本信息表
结构化数据有严格的数据模型, 数据的 记录、 存储、 处理和访问按照预先定 好的格式规范进行; 非结构化数据不具 有预定义的数据模型或预定义的格式; 半结构化数据则介于以上二者之间, 其 数据具有一定结构但结构并不严格。
结构化数据依赖于数据模型, 数据模型对业务数据的类别实现规范化, 用于业务数据的记录、 存储、 处理和访问。建立数据模型包括定义哪些类型的数据以及数据的哪些属性需要进行何种存储和处理。
结构化数据的优势在于能够方便地输入、 存取、 查询和分析。满足严格结构的数据无法进入计算机系 统被处理和分析。
此外, 对结构化数据的使用和处理存在一定的约束, 当数据模型对应的真实数据有改变时, 需要修改 数据模型和相应的数据处理逻辑, 才能在计算机系统中处理新版本的数据, 而此类修改往往是系统性 的, 代价比较大。
新编21世纪新闻传播学系列教材·新闻学系列
AlgorithmicJournalism
算法新闻
目 录 Contents
01 02 03 04 05 06
个性化分发与内容生产变革 算法推荐原理 用户画像的标签体系 文本型内容的建模与分析 智能推荐算法 大数据与推荐系统
目 录 Contents
07
基于算法推荐的自媒体定位
其次, 业界有多种标准化的数据库应用软件和程序支持结构化数据上的各种运算操作, 如增加数据、 删 除数据、 修改数据和查找数据等, 并且提供优化性能、 提高处理速度、 保护数据安全等系统化提升运 营效率的手段, 帮助算法推荐系统提高服务水平和服务质量。
一、结构化数据和非结构化数据
非结构化数据
非结构化数据则是指不具有预定义的数据模型或无预定义格式的数据,例如, 照片、 图像、 视频、 流式数据、 网页、 PDF文件、 博客等等。 由于此类数据格式的不规则和内容上的模糊性, 传统的 数据管理软件和程序并不能很好地对其进行分析和处理。
半结构化数据
半结构化数据介于结构化数据和非结构化数据之间, 其数据具有一定的结构, 即可以使用标签或 者其他类型的标记方式来识别出半结构化数据中的特定元素, 但是数据本身并不具备严格的结构, 因此缺乏结构严谨的数据模型。 以文字处理软件为例, 其创建的文档文件本身是非结构化的数据, 在文档内容之外可以指定结构化的元数据, 如文档的作者、 创建日期等; 图片、 图像等非结构化 数据也可以被标记上结构化的关键字段如作者、 创建日期、 位置、 关键字等。
一、结构化数据和非结构化数据
【提要】 结构化数据有严格的数据模型, 数据的记录、 存储、 处理和访问按照预先定好的格式规范进行; 非结 构化数据不具有预定义的数据模型或预定义的格式; 半结构化数据则介于以上二者之间, 其数据具有一 定结构但结构并不严格。
一、结构化数据和非结构化数据
结构化数据
结构化数据, 是指数据的存储、 呈现、 运算和管理等按照预先定好的格式规范进行。 结构化数据以 固定格式存放于数据记录或文件中。
用户基本信息表的结构
二、结构化标签用户画像
补充信息表
对基本信息表而言, 系统分配的账号、 用户姓名、 电子邮箱等每一个数据属性都是用户的标签, 但是 基本信息表并没有展现足够个性化的用户特征。 例如, 用户的姓名对用户个性的刻画能力就很有限。 由于基本信息表的刻画能力具有局限性,因此考虑对已有的用户标签进行扩展, 这就需要添加新的补充 信息表, 更加详细地刻画用户特征。
08
新媒体背景下的内容生产
09
新媒体时代的标题
10
新媒体内容的制作
11
新媒的内容生产运营
12
人工智能与推荐系统
3 第 章 用户画像的标签体系
本章要点
用户是算法分发系统服务的对象,对用户的理解越透彻,内 容分发的准确性就越有保障。计算机使用计算模型对用户进 行刻画,其中一种就是标签化的“用户画像”。在系统中, 可以使用预制结构的数据表来保存用户的标签,称为“结构 化”的用户标签;也可使用无固定结构的标签集合来表示用 户的个性化特征,这被称为“非结构化”的用户标签。系统 合理安排计算资源,对用户标签计算和更新,根据数据量的 大小可以选择批量化计算或者流式计算框架完成计算任务。
进一步完善的用户结构画像
二、结构化标签用户画像
【提要】
结构化用户画像的优势为: 信息有针对性, 专用性强, 含义明确且有成熟的软件开发和运行、 维护环 境支持。 其劣势为: 系统可存储的信息有限, 可扩展性差, 不灵活, 实时性差。
结构化用户画像的优势
首先,结构化数据的数据模型严谨规范, 数据的语义明确。在算法推荐系统的运行过程中, 系统会有针 对性地从用户的基本信息和行为数据中抓取符合数据模型定义的数据, 并存储更新至相关数据表格, 形 成用户标签。 此类信息含义明确, 有较强的针对性。
补充信息表的结构
二、结构化标签用户画像
细化信息表
在扩展信息表的基础上还可以进一步细化不同类别的用户标签, 例如对用户的兴趣类别进行细化。 假设 在补充信息表中已经记录某用户最感兴趣的三类主题为“体育” “经济” “历史”, 系统就可以根据这 个记录为用户推荐相应的内容。 但是系统并不知道用户的兴趣在这三类内容之间的分布, 即在用户自身 的兴趣中, 哪一类主题是用户最感兴趣的, 哪些则属于比较感兴趣的。
相关主题