动态焦点:策略产品必知系列之一文详解“特征工程”
本篇文章作者分享策略产品在特征工程上需要了解的原则和工作方法。特征工程在推荐系统中至关重要,需要遵循几个基本原则:包括正确理解问题背景和业务需求、理解数据和特征的含义、保证数据的稳定性和完整性等。希望通过本篇文章能对你有所帮助。
从策略产品的角度来审视特征工程,在算法工程师 & 策略产品届有一句话叫做“Garbage in garbage out (垃圾进,垃圾出)”。这句话深刻的解释了特征与数据对于深度学习模型的重要性。机器学习模型的能力边界就在于对数据的拟合和泛化,那么数据及其表达数据的特征就决定了起学习模型效果的上限。
数据与特征工程决定了模型的上限,改进算法只不过是逼近这个上限而已。
【资料图】
今天Arthur就给大家介绍一下关于推荐系统的特征工程,帮助大家从全貌了解策略产品在特征工程需要捻熟于心的关键原则和工作方法。
本文分为上下两篇,上篇主要提纲挈领的介绍特征工程的定义原则、重要特征类型以及常用的特征处理方法;下篇会着重的讲解策略产品实用的特征数据处理的工作内容。
具体分为以下几点讲述:什么是特征工程、特征工程的基本工作原则。有哪些常用的特征类别。常见的特征数据类型与处理办法。特征的选择。一、什么是特征工程、构建特征工程的基本原则是什么
特征工程(feature engineering)定义:特征的本质其实就是对某个行为过程相关信息的抽象表达。
推荐过程某个行为必须转化成某种数字形式才能被机器学习模型学习。所以为了完成这种转化,就必须把这种行为过程的信息以特征形式抽取出来,用多个维度上的特征表达这一行为。
存在的问题:从具体行为转化成抽象的特征,过程必然会造成信息损失。这个过程中具体有两个问题:因为具体的推荐行为和场景包含大量原始的场景、图片和状态信息,保存所有的信息存储空间过大,现实中无法满足。具体的推荐场景也包含大量荣誉无用的信息,都考虑进来会损害模型的泛化能力。
特征工程构建基本原则:基于以上存在的问题,在特征工程构建中的基本原则为:尽可能让特征工程抽取的一组特征能够保留推荐环境以及用户行为过程中的有用信息,尽量摒弃冗余信息。
举个垂直场景推荐系统中具象化的例子便于大家理解,在推荐系统中对于书本推荐有哪些重要的因素呢?
Arthur枚举了一下几种类型:
推荐系统当中对于书本推荐的重要艺术
可以从上图中看出,在抽取特征过程当中,必然存在信息的损失。例如“当时的心情”就从要素中被舍弃了;再比如,用户观看历史推断用户偏好也会存在一定的信息丢失情况。
因此,在已有的、可获取的数据基础上,“尽量”保留有用信息是是实现特征工程的原则。
二、推荐系统常用的特征类别
推荐系统会使用到各个维度的特征信息。而不同的特征信息对于不同的推荐系统所带来的增益效果大不相同,并且不同的业务抽取特征的时候权重也大相径庭。
例如电商系统更加关注用户的属性特征、用户点击、加购商品类型,其中加购相对来说对于最终成交比点击行为权重更大。而新闻推荐更加关注用户关注的新闻类别,所在LBS的地域信息等等。
因此我将推荐系统的常用特征进行枚举,提供大家在构建特征工程时候的选择,该部分与之前介绍的定向类型有点相似。
1. 用户行为数据类型
用户行为数据是推荐系统最常用、也是最为关键的数据,因为用户的潜在兴趣、用户对物品的真实评价都包含在用户的行为历史当中。
一般用户行为特征包含显性反馈行为(explicit feedback)和隐性反馈行为(implicit feedback)。在不同业务场景中,用不同方式体现。
各业务场景中的显性和隐性反馈行为
当前推荐系统的发展中,隐性反馈行为越来越重要,主要原因是显性反馈的收集难度更大,数据量也比较小。在深度学习模型对于数据要求越来越大的背景下,如果只是用线性反馈的数据不足以支持推荐系统训练过程中直到收敛。
所以,能够反映用户行为特点的隐性反馈行为是目前特征挖掘的重点。
2. 用户关系数据类型
互联网本质上是人和人、人和信息之间的链接。“物以类聚,人以群分”其实就是用户关系数据最好的体现,同时也是推荐系统利用的有价值信息。
用户关系类型分为“显性”和“隐性”,又可以称之为“强关系”与“弱关系”。强关系类型:用户可以通过用户之间的“关注”、“好友关系”,以及“通讯录授权”建立“强关系”联系。弱关系类型:通过“相互点赞”、“同处在一个社区”,甚至是“同看一部电影”来建立“弱关系”的联系。3. 属性、标签数据类型
属性、标签数据类型本质上都是直接描述用户或者物品客观特征。标签和属性的主体可以是用户,也可以是物品,他们的来源非常多样化。
大体上分为以下几类:
用户属性、物品属性以及标签数据是属于最重要的描述型数据。
成熟的公司会建立一套用户和物品的标签体系,有专门的团队维护。典型的例子就是电商公司的商品分类体系,同样这一套分类也会用于搜索召回策略中的实体识别当中。
阿里云中关于query词的分类
在推荐系统当中使用属性、标签类数据,一般都是通过multi-hot编码方式转化成特征向量。一些重要的属性标签类特征也可以先转化成Embedding,再输入推荐模型。
4. 内容类数据
内容类型的数据可以看做是标签类型的衍生,同样也是描述用户和物品的数据。但是相比较标签数据,内容类型的数据往往都是大段的描述型文字、图片,甚至是视频。
一般来说,内容类数据无法直接转化成推荐系统可以“消化”的特征,需要通过自然语言处理、计算机视觉等手段提取关键的内容特征,再输入到推荐系统。
实体识别
例如,在图片类、食品类或者带有图片的信息流场景中,往往会使用计算机视觉模型进行目标检测,抽取图片特征,再把特征转化为标签类数据提供给推荐系统。
5. 上下文Context信息数据
上下文信息表示的是描述推荐行为产生的场景信息。最常用的就是利用“时间”和通过GPS获取到的“地点”信息。
根据推荐场景的不同,上下文信息的范围非常的广,包括地点、季节、时间、是否节假日、天气湿度、社会大事件等等。
引入上下文信息的目的是尽可能保证推荐行为发生推荐场景的实时性。
典型的例子是:在美团外卖APP场景中、临近中午12-2点会推荐用户爱吃的外卖食物,到了下午3-5点,可能用户吃过饭了那么就会更加倾向于甜点、下午茶(奶茶、饮料等)。
如果不引用上下文特征,则推荐系统无法捕捉到这些有价值的实时信息。
6. 组合类特征
组合类特征指代将不同的特征类型进行组合后的得到的新特征。最常见的就是“年龄+性别”组成人口属性分段特征(segment)。
在早期的推荐系统当中,推荐模型(比如说逻辑回归LR)是不具备特征组合的能力。
随着神对学习推荐系统的提出,组合类特征不一定通过人工组合、人工筛选的方法选出,还可以交给模型自行处理。
例如GBDT+LR的形式就是讲特征工程模型化来处理。
三、常见的特征数据类型与特征处理方法
对于推荐系统来说,模型的输入往往是数字组成的特征向量。有“年龄”、“播放时长”、“历史点击率CTR”这些可以由数字表达的特征,可以自然成为特征向量中的维度。
更多的特征来说,像是用户的性别、观看历史也需要转化成为数字特征向量。
因此需要从连续型特征和类别型特征两个角度来介绍特征处理方法。
1. 连续型特征
连续型特征的典型例子就是用户年龄、播放时长以及物品发布时间等统计类型特征。
对于这一类特征的处理,最常见的就是归一化、离散化、加非线性函数等手段。
1)归一化
统一各个特征的量纲,将连续值特征归一到[0,1]之间。也可以做0均值的归一化,即将原始数据归一化为均值为0、方差为1的数据集。解决方案:将所有的数据映射到同一个尺度当中。最值归一化:把所有的数据映射到0-1之间。
2)离散化
通过分位数的形式将原来的连续值进行分桶,最终形成离散值的过程。
离散化的主要目的是放置连续纸带来的过拟合现象以及特征值分布不均匀情况。
经过离散化处理的连续型特征和经过One-hot处理的类别型特征一样,都是以特征向量的形式输入特征模型当中的。
3)加非线性函数
加非线性函数的处理方法,就是直接把原来的特征通过非线性函数做变换,然后把原来的特征和变换后的特征一起加入模型进行训练的过程。
加入非线性函数的目的为了更好的捕获特征与优化目标之间的非线性关系。
常用的非线性函数包括以下几类:
2. 类别型特征
类别型特征典型的例子:用户历史行为数据、属性标签类数据等。其原始表现为一个类别或者一个id。
这类特征最常用的方法就是使用one-hot编码将其转化成为一个数值向量,在one-hot编码基础上,面对同一个特征域或者非唯一类别选择,还可以采用multi-hot编码。
历史行为序列类、标签特征类数据来说,用户往往会与多个物品产生交互行为,或者被打上多个同类别标签,这是最常用的特征向量生成方式就是转化为multi-hot编码。
举个例子,带上网站共有1000个商品,用户购买了其中10种,那么用户的历史行为就编程1000维的数值向量。其中仅有10个商品数值是1,其余的都是0,这就是multi-hot编码。
对类别进行One-hot编码或者是multi-hot编码主要的问题就是特征向量的维度过大,特征过于稀疏的问题,这容易导致模型欠拟合,模型的权重参数的数量过多,导致模型收敛也会很慢。
所以在Embedding技术成熟之后,被广泛应用在类别特征的处理之上。现将类别特征编码成稠密Embedding向量,再和其他的特征组合,最终形成输入特征向量。
四、特征选择
特征选择是指为了构建模型而选择相关特征子集的过程。特征选择的目的有三个:简化模型。使模型更易于研究人员和用户的理解。 可解释性不仅让我们对模型效果的稳定性有更多的把握,而且也能为业务运营等工作提供指引和决策支持。改善性能。特征选择的另一个作用就是节省存储和计算QPS耗时开销。改善通用性。降低过拟合风险。 特征的增多会大大地增加模型的搜索空间,大多数模型所需要的训练样本数目随着特征数量的增加而显著增加,特征的增加虽然会更好的拟合训练数据,但也可能增加方差。
特征选择一般包括生产过程、评价函数、停止准则、验证过程。
为了进行特征选择,我们首先需要产生特征或特征子集候选集合;其次需要衡量特征或特征子集的重要性或者好坏程度。
因此需要量化特征变量和目标变量之间的联系以及特征之间的相互联系。
为了避免过拟合,我们一般采用交叉验证的方式来评估特征的好坏;为了减少计算复杂度,我们还需要设定一个阈值,当评价函数到达阈值后搜索停止;最后,我们需要在验证数据集上验证选出来的特征子集的有效性。
本文由 @策略产品Arthur 原创发布于人人都是产品经理,未经许可,禁止转载
题图来自 Unsplash,基于 CC0 协议返回搜狐,查看更多
责任编辑:
标签:
推荐
财富更多》
-
海关总署:前5个月民营企业进出口8.86万亿元,占外贸总值比重超五成 全球新动态
海关总署:前5个月民营企业进出口8 86...
-
中越国际联运冷链运输正式启动|世界时讯
中越国际联运冷链运输正式启动---人民网...
-
天天热门:演唱会经济外溢 编发美妆也疯狂
演唱会经济外溢编发美妆也疯狂---刚刚结...
-
赛过西式薯片 日拼十万袋的中式“农科院土豆片”走出云贵川|全球今亮点
赛过西式薯片日拼十万袋的中式“农科院...
-
前5个月我国一般贸易进出口11万亿元,同比增长7% 热资讯
前5个月我国一般贸易进出口11万亿元,同...
动态更多》
热点
- realme10系列正式宣布 采用双曲面屏正面顶部居中挖孔
- 五菱全新微型电动车内饰官图发布 座椅采用星际形打孔工艺
- 努比亚Z40星空典藏版正式开售 采用微米级油画笔触纹理技术
- iQOO11系列正式官宣 首批搭载骁龙8Gen2机型之一
- 海信34英寸带鱼屏显示器发布 支持165Hz刷新率
- OPPO明年将商用240W超级闪充 新一代电芯支持更高倍率充电
- 第一款Android手机渲染图曝光 横向滑盖设计和全尺寸键盘
- 吉利首款纯电皮卡11月9日上市 车辆续航里程超过610公里
- 努比亚Z40SPro星空典藏版正式公布 堪称窄边框天花板
- vivo无线运动耳机2今日正式上市 首销只要119元
- 6月7日上海实建磷酸报价动态_当前热讯
- Etched.ai获536万美元种子轮融资
- 红米手表2分辨率怎么样?红米手表2怎么自定义表盘?
- 经参数说丨16.77万亿元!细看中国外贸成绩单,这些亮点不容错过→
- 小米手环怎么调节亮度?小米手环的蓝牙怎么打开?
- 中国盐湖提锂技术变革:粗放污染到绿色循环 今热点
- 小米路由器硬盘容量怎么看?小米路由器怎么连接宽带?
- 即时焦点:1,3-丙烷磺内酯商品报价动态(2023-06-07)
- 手机充电器烫手怎么办?手机充电器充不进去电怎么办?
- 新疆伽师县:“甜蜜产业”采收季 农户喜迎好“丰”景
- airpods3降噪怎么开?airpods3怎么调整音量?
- 即时看!除味剂商品报价动态(2023-06-07)
- 环球播报:李云泽会见美国花旗集团首席执行官范洁恩
- 全球看点:1小时6.5元!共享单车悄然涨价,已贵过公交地铁
- ipad双击唤醒屏幕怎么设置?ipad屏幕熄灭时间怎么调?
- oppowatch2微信怎样发语音?oppowatch2怎么解除绑定手机?
- 小米手机内容中心怎么卸载?小米手机的通用功能在哪里?
- 无水焦亚硫酸钠商品报价动态(2023-06-07) 世界关注
- oppo手机游戏空间怎么设置?oppo手机录屏功能在哪里?
- 每日热门:6月7日国内市场醋酐行情暂稳
- oppo耳机耳机盒电量在哪里看?oppo耳机有定位功能吗?
- airpods如何关闭语音播报?airpods丢了怎么定位?
- 罗技鼠标在哪里调灵敏度?罗技鼠标的滚轮怎么设置?
- 焦点报道:[老鹰表达力]总有人会挑你的刺
- 仙佑集团:行业洗牌膏药市场竞争格局与风险预警
- 热门看点:ienc可以组成什么单词(aionc能组成什么单词)
- origin音标怎么读(Origin音标)
- 【全球报资讯】体现执行力强的例子(体现执行力的字)
- 全球滚动:上岸是什么意思谁知道(上岸是什么意思)
- 助产护理工资一个月一般多少(助产护理是干什么的)
- 历史|穿汉服,头饰不妨选择“基础款”|世界聚看点
- 最资讯丨收敛圆周是什么意思(收敛圆周上的敛散性怎么判断)
- 形容守护的词语(形容努力守护的词)-天天动态
- oppo手机如何关闭耳机模式?oppo手机的隐藏相册在哪里?
- 报道:林肯航海家居然还带按摩功能
- 明天最高气温36℃,警惕午后对流性天气
- 石菖蒲的功效与作用_石菖蒲的好处有哪些
- 每日资讯:网上侵权骂人诉讼理由怎么写(诉讼理由怎么写)
- 全球关注:唯一药物即将退出中国 罕见病患者遇到罕见时刻
- 苹果8怎么清理系统内存?苹果8是双卡双待吗?
- 6月7日国内氟化铝行情汇总
- 5月全国城市轨道交通客运量24.9亿人次
- 饿了么法定代表人变更 方永新任饿了么法定代表人
- 抖音电商扩张自营业务 回应:进行业务尝试 满足用户需求
- 阿里健康在上海成立数据技术合伙企业
- 环球聚焦:河北故城:中药材产业促进千余农户实现增收
- 环球今热点:午评:两市分化创指再创阶段新低 景点及旅游板块领涨
- Instagram 正在测试一项类似于 Snapchat 的 My AI 的人工智能聊天机器人:具有 30 种不同个性
- 趣炫游戏等在广州成立科技公司 经营范围含动漫游戏开发 世界观焦点
- opporeno7Pro怎么开启桌面锁定?opporeno7pro的呼吸灯在哪里设置?
- 荣耀手机如何投屏到电视上?荣耀手机的通用功能在哪里?
- OPPO手机如何防监听?oppo手机被监听有什么异常?
- vivo手机变形器如何使用?vivo手机变形器移除了怎么恢复?
- 荣耀手机如何开启侧边栏?荣耀手机语音助手怎么唤醒?
- 小米12怎么切换字体风格?小米12怎么设置返回键?
- 苹果13怎么清理内存?苹果13怎么强制重启?
- 如何使用佳能相机录像?佳能相机的序列号哪里看?
- airpodspro电池健康如何看?airpodspro怎么打开降噪模式?
- 苹果录屏功能在哪里设置?苹果录屏可以录多长时间?
- Windows安全警告怎么关闭?windows安全警告在哪里看?
- 香港六福铂金多少钱一克(2023年06月07日)
- 电脑回收站清空后如何恢复?电脑回收站多久会自动清空?
- 快消息!兔年金条价格今天多少一克(2023年06月07日)
- 电脑分辨率是怎么调的?电脑分辨率没有合适的怎么办?
- 怎么查看电脑显卡配置?电脑显卡配置怎么看好坏?
- 苹果手机手势功能在哪里?苹果手机手势锁屏怎么设置?
- 苹果13储存空间在哪看?苹果13存储权限怎么设置?
- 微信呼叫失败什么原因呢?微信呼叫失败对方能看到吗?
- 罗志恒:中国并没有出现资产负债表衰退
- 电脑c盘空间不足怎么清理?电脑c盘空间不足怎么增加空间?
- 【快播报】工商银行龙凤呈祥金条50克价格今天多少一克(2023年06月07日)
- 环球实时:全方位解决年轻用户需求 华为nova11系列618换机好选择
- 电脑文件打不开是什么原因?电脑文件夹打不开怎么办?
- 浦发银行投资金条价格今天多少一克(2023年06月07日)
- 微美全息布局Web 3.0关键技术分布式存储 ,以IPFS实现多点传输 消息
- 微信删除好友对方知道吗?微信删除好友怎么加回来?
- 每日简讯:科曜能源完成数千万元A+轮融资
- 【全球速看料】中国奶业协会2023年“两会一展”将于7月19-21日在重庆举办
- 苹果手机隐藏应用在哪?苹果手机怎么强制关机重启?
- 苹果13微信如何启用指纹支付?苹果13怎么换手机铃声?
- 2499元起 荣耀90系列首销:全系2亿像素写真相机|精彩看点
- iphone备忘录怎么删除标签?iphone备忘录可以加密吗?
- iphone未在播放怎么关闭?iphone手机照片怎么导入电脑?
- 苹果耳机定位功能怎么设置?苹果耳机怎么看电量?
- 【天天新要闻】武汉国内直达集装箱班轮航线增至16条
- iphone长按屏幕编辑怎么关闭?iphone屏幕小圆点怎么开启?
- 世界热资讯!从严处罚旅英涉赌球员!梁文博、李行被终身禁赛→
- 湖南江永创新“爱心菜园”新模式治理基层 天天信息
- 环球今头条!喷雾、菜刀、电池……特殊商品如何“七天无理由退货”?
- 视频 | 直击2023高考首日:祝福相伴,高考加油!
- 热议:中国科研人员提出新型三维锂负极框架构型
- 妻妾成群苏童人物分析_妻妾成群苏童_天天热门
- 苹果手机分辨率如何看?苹果手机分辨率是不是越高越好?
- 武汉城投集团2017年第一期公司债将于6月15日付息|全球快资讯
- 每日速看!从“老外”到“老乡”(海客话中国)
- 加税效果明显 新加坡5月外国买家购房量暴跌50%|天天快报
- 环球热文:女足世界杯越来越近女足将帅正在积极地集训备战
- 国安攻击手王子铭名单中是为数不多的新面孔-全球即时看
- 港股概念追踪|存款利率即将再降?国有大行存款利率或即将全面进入“2时代”(附概念股) 天天热点
- 原厂跟单是什么意思 什么是跟单跟单和原单的区别有那些
- 我看青山多妩媚_关于我看青山多妩媚的介绍 全球快播
- 环球消息!全省唯一的两慢病改革示范基地落户径山
- 2022拍拍球十大品牌排行榜_拍拍球哪个牌子好
- WAVE BL获得2600万美元战略投资-天天亮点
- 英特科技:6月6日融资买入3250.68万元,融资融券余额4602.49万元
- 天山电子:6月6日融资买入124.5万元,融资融券余额1499.56万元
- 热门看点:商家进口日本核辐射区食品被罚 百货公司售日本核辐射区食品被罚
- 全球快讯:君正集团董秘回复: 公司于2023年6月2日(现金红利发放日、除权(息)日)实施了2022年度利润分配方案
- 宁波色母:6月6日融资买入16.13万元,融资融券余额2367.84万元
- 大为股份:大为创芯存储产品可广泛应用于个人电脑、车载、IDC、工业控制、医疗、轨道交通等领域 世界球精选
- 张丹峰诉传媒公司侵权-天天观热点
- 超图软件:公司与Unity有紧密的技术合作
- 星源卓镁:6月6日融资买入291.47万元,融资融券余额3162.2万元-世界即时看
- 荣旗科技:6月6日融资买入1921.56万元,融资融券余额4046.62万元
- 世界速递!隆扬电子:6月6日融资买入252.47万元,融资融券余额4616.89万元
- 天振股份:6月6日融资买入178.83万元,融资融券余额4441.85万元
- 通达海:6月6日融资买入398.93万元,融资融券余额2847.84万元|要闻速递
- 德尔玛:6月6日融资买入1641.31万元,融资融券余额4832.01万元_世界速讯
- 热资讯!供应商集体申诉长安汽车扣押10%货款 讯飞将推出升级版星火认知大模型
- 每日时讯!明年3月底前彻底实现本土化,红杉资本全球三大区域将各自完全独立
- 播报:奥特维不超11.4亿元可转债过会 平安证券建功
- 毕业季民宿租赁市场快速升温|今日热讯
- 每日热讯!Argus Labs获得1000万美元种子轮融资
- 当前热点-上海至南京至合肥高铁安徽段支架现浇连续梁开始浇筑
- 中国当选国际航标协会新一届理事会成员国