体检胸片是检查什么的| 眼袋肿了是什么原因| 肝郁气滞血瘀吃什么药| nike是什么牌子| 炖牛腩放什么调料| 乾隆是什么生肖| 血红蛋白偏高是什么原因| 今年56岁属什么生肖| 烤冷面是什么做的| 死鱼是什么意思| 白花花是什么意思| 食道反流吃什么药| macd什么意思| 牙龈疼是什么问题| 57属什么生肖| 续集是什么意思| 小孩咳嗽吃什么药效果最好| 海蜇长什么样| 泵头是什么| 柯萨奇病毒是什么病| 什么辉煌四字词语| 36朵玫瑰花代表什么意思| 梦见眼镜蛇是什么预兆| 世界上最大的湖泊是什么湖| 血压高什么原因| 吕布的武器叫什么| 吃薄荷叶有什么好处和坏处| 军长相当于地方什么官| 突然手发抖是什么原因| 当志愿者有什么好处| 毛囊炎用什么药膏最好| 热射病什么症状| 手脱臼有什么症状| 堪堪是什么意思| 看甲状腺挂什么科| 酒石酸美托洛尔片治什么病| 惊弓之鸟是什么故事| 牛黄清心丸适合什么人群吃| 暴饮暴食会得什么病| 黑蓝色是什么颜色| nikon是什么牌子| 胚芽是什么意思| 7月属什么生肖| 继发性高血压是什么意思| 猫砂是什么材料做的| 坊字五行属什么| 读书破万卷下一句是什么| mm表示什么| 大象的耳朵像什么一样| 痘痘挤出来的白色东西是什么| 近视是什么| 空腔是什么意思| 乳糖不耐受是什么症状| 80年出生属什么生肖| kys什么意思| 小产什么意思| 脚后跟痛是什么问题| 殿试是什么意思| 嫦娥住的宫殿叫什么| 吃软不吃硬是什么生肖| 护肝片什么时候吃最好| 上焦不通吃什么中成药| 文替是什么意思| 算筹指的是什么| gg 是什么意思| 七点到九点是什么时辰| 小腿疼是什么原因| 开什么节什么的成语| 包皮挂什么科| 梦见盗墓是什么意思| 喉咙痰多吃什么药最好| 羊排和什么一起炖好吃| 生日送什么| prc什么意思| 吃什么发胖最快| 甲鱼什么人不能吃| 神经衰弱吃什么药好| 俊俏是什么意思| 下眼皮跳是什么原因| 喝什么对肾好| 什么球不能踢| 什么是潮汐车道| 什么病不能吃狗肉| 什么血糖仪准确度高| 血氨低是什么原因| 梦见情人是什么意思啊| 书的五行属性是什么| 12岁属什么| 长江学者是什么级别| edg是什么| 抽烟打嗝是什么情况| 上海为什么叫上海| 大s什么病| 空虚是什么意思| 喝酒拉肚子是什么原因| 月经来了有血块是什么原因| 皮肤黑的人穿什么颜色的衣服显白| 风指什么生肖| 6月28什么星座| 爱因斯坦是什么学家| 轻度强化是什么意思| 胸口容易出汗是什么原因| 肌酐高是什么意思| 前额白发是什么原因| 黄帝内经讲的是什么| 唾液臭是什么原因| 三伏贴有什么功效| 盆腔炎是什么病| 天秤座是什么性格| 尿臭是什么病| 在忙什么| fabric是什么面料| 玉米水喝了有什么好处| 噗呲是什么意思| 咖啡soe是什么意思| 拉肚子吃点什么食物好| 什么叫糖化血红蛋白| 梦见菊花是什么意思啊| 什么竹笋不能吃| 小孩子发烧吃什么药| 传染病八项包括什么| 经常想睡觉是什么原因| 发瘟是什么意思| 木薯淀粉可以用什么代替| 舌苔厚白湿气重吃什么药| 1951年属什么| 未时是什么时候| 拔牙之后能吃什么| 花儿为什么这样红简谱| 交运是什么意思| 什么是碳水化合物食物| 警察和公安有什么区别| 母亲节送什么颜色的康乃馨| 火龙果是什么季节的水果| 1月26号是什么星座| 长期打嗝是什么原因| 今年50岁属什么| 男性检查男科都查什么| 病毒性结膜炎用什么眼药水| 越描越黑是什么意思| 梦见桥断了有什么预兆| 重庆是什么地形| nt是什么货币| 六月二十九日是什么星座| 农历六月是什么星座| 牙掉了是什么预兆| 生灵涂炭是什么意思| 奶咖色是什么颜色| 心脏缺血吃什么药好| 血管堵塞有什么症状| 指甲是白色的是什么原因| 大便干燥吃什么| 乐高是什么| 试纸一深一浅说明什么| 血氯高是什么原因| 面包是什么意思| 下午6点是什么时辰| 520是什么意思啊搞笑| 沙棘原浆有什么功效| 脱毛膏是什么原理| 雪纺是什么面料| 海葡萄是什么| 总胆固醇偏高吃什么药| 熬夜有什么坏处| 不带壳的蜗牛叫什么| 牙膏什么牌子最好| 三七治什么病最好| 分开后我会笑着说是什么歌| 三点水一个兆读什么| 聚精会神的看是什么词语| 儿童坐飞机需要带什么证件| 什么人不能喝桑黄| 什么症状吃肝胃气痛片| 大咖什么意思| 镶嵌什么意思| 什么鱼最好养活| 梦见狗咬人是什么预兆| 林冲是什么生肖| tao是什么意思| 2003年属什么生肖| 做梦笑醒了有什么征兆| 银手镯对身体有什么好处| 子宫平滑肌瘤什么意思| 人嗜睡是什么原因| 857什么意思| 什么是冰种翡翠| 仓鼠不能吃什么| 狂犬疫苗为什么要打五针| 腰不好挂什么科| 吃什么对肝好| pm2.5是什么| 单飞什么意思| 疯狗病症状都有什么| 经常生病是什么原因| 香港什么时候回归| 子宫萎缩是什么原因| 携字去掉提手旁读什么| 色弱和色盲有什么区别| 镜子是用什么做的| 飞地是什么意思| 尿胆红素阳性什么意思| 翼字五行属什么| 蚊虫叮咬涂什么药| 出现血尿是什么原因| 穆斯林为什么不吃猪肉| 身正不怕影子斜是什么意思| 汗水里面有什么成分| 戌是什么意思| 现在的节气是什么| 鹅口疮是什么样的图片| 乏力没精神容易疲劳是什么原因| 消化道出血有什么症状| 黄芪是什么| 考试前不能吃什么| 孕酮是什么| pet什么意思| 日语八嘎是什么意思| 中药不能和什么一起吃| 甲状腺有什么作用| 脚出汗用什么药| 出汗太多是什么原因| prince是什么牌子| 脾稍大什么意思| 讲解是什么意思| 蛋白质用什么试剂鉴定| 弱肉强食什么意思| 古今内衣是什么档次| 晚上右眼跳是什么预兆| 氯雷他定不能和什么药一起吃| 内痔疮吃什么药最好| 下海的意思是什么| 巴基斯坦是什么人种| 阑尾炎是什么病| 肉桂茶适合什么人喝| 易举易泄是什么原因| 诸事不宜是什么意思| 地级市市长是什么级别| 脚肿了是什么原因引起的| 潜血阴性是什么意思| 水痘疤痕用什么药膏| 什么是职业病| nadh是什么| 为什么会尿血| 微蛋白高是什么原因| 陪衬是什么意思| 烧心什么感觉| 乙基麦芽酚是什么| mlb是什么档次| 海灵菇是什么| 感冒流清水鼻涕吃什么药| 养牛仔裤是什么意思| 小鸟站在高压线上为什么不会触电| 心率过快吃什么药| 什么是鬼压床| 聚少离多是什么意思| 脚板麻木是什么原因| hbsab阳性是什么意思| 连长是什么军衔| 梦见吃西瓜是什么征兆| 克感敏又叫什么| 黄芪什么季节喝最好| 月经来了腰疼是什么原因| 鬼画符是什么意思| 胡萝卜什么时候种| 百度
开发者社区 > 博文 > 天池-安泰杯跨境电商智能算法大赛分享(Rank1)
分享
  • 百度 在洗衣机业务增幅走高的同时,理财投资更成为拉动小天鹅业绩增长的第二引擎。

    打开微信扫码分享

  • 点击前往QQ分享

  • 点击前往微博分享

  • 点击复制链接

天池-安泰杯跨境电商智能算法大赛分享(Rank1)

  • 鱼遇雨欲语与余
  • 2025-08-05
  • IP归属:未知
  • 2365浏览

★ 赛题介绍 ★

AliExpress是阿里巴巴海外购物网站,其网站的海外用户可以在AliExpress挑选购买自己心意的商品。对于AliExpress来说,目前某些国家A的用户群体比较成熟,沉淀了大量的该国用户的行为数据。但是还有一些待成熟国家B的用户在AliExpress上的行为比较稀疏。

对于这些国家B用户的推荐算法如果单纯不加区分的使用全网用户的行为数据,可能会忽略这些国家用户的一些独特的用户特点。而如果只使用国家B的用户的行为数据,由于数据过于稀疏,不具备统计意义,会难以训练出正确的模型。

赛题难点是:怎样利用已成熟国家A的稠密用户数据和待成熟国家B的稀疏用户数据,训练出的正确模型对于国家B的用户有很大价值。

赛题数据给出若干日内来自成熟国家的部分用户的行为数据,以及来自待成熟国家的A部分用户的行为数据,以及待成熟国家的B部分用户的行为数据去除每个用户的最后一条购买数据,让参赛人预测B部分用户的最后一条行为数据。

赛题评价指标:赛题旨在通过海量数据挖掘用户下一个可能交互商品,选手们可以提交预测的TOP30商品列表,排序越靠前命中得分越高。

赛题具体使用MRR(Mean Reciprocal Rank)对选手提交的表格中的每个用户计算用户得分:

其中, 如果选手对该buyer的预测结果predict k命中该buyer的最后一条购买数据则s(buyer,k)=1 s(buyer,k)=1; 否则s(buyer,k)=0 s(buyer,k)=0. 而选手得分为所有这些score(buyer)的平均值。

★ 赛题数据 ★

初赛数据

● 商品属性表

数据中涉及2840536个商品,对于其中大部分商品,都会给出该商品的类目id、店铺id以及加密价格,其中价格的加密函数f(x)为一个单调增函数。

● 训练数据

给出xx国的用户的购买数据和yy国的部分用户的购买数据。

● 测试数据

给出yy国的B部分用户的购买数据除掉最后一条。数据的整体统计信息如下:

商品属性表、训练数据、测试数据对应的文件:item_attr, train和test。无论是训练数据还是测试数据,都具有如下的格式:

其中各字段含义如下:

1. buyer_country_id: 买家国家id, 有'xx'和'yy'两种取值;

2. buyer_admin_id: 买家id;

3. item_id: 商品id;

4. create_order_time: 订单创建时间;

5. irank: 每个买家对应的所有记录按照时间顺序的逆排序;

初赛数据集特点:

1)每个用户有至少7条购买数据;

2)测试数据中每个用户的最后一条购买数据所对应的商品一定在训练数据中出现过;

3)少量用户在两个国家有购买记录,评测中忽略这部分记录;

复赛数据

在给出若干日内来自某成熟国家xx的部分用户的点击购买数据,以及来自某待成熟国家yy和待成熟国家zz的A部分用户的点击购买数据,以及国家yy和zz的B部分用户的截止最后一条购买数据之前的所有点击购买数据,让参赛人预测B部分用户的最后一条购买数据。

● 商品属性表

点击购买数据中涉及9136277个商品,对于其中大多数商品,我们都会给出该商品的类目id、店铺id以及加密价格,其中价格的加密函数f(x)为一个单调增函数。

● 训练数据

给出xx国的用户的点击、购买数据和yy国、zz国的A部分用户的点击、购买数据。

● 测试数据

给出yy国、zz国的B部分用户的最后一条购买数据之前的点击购买数据。

无论是训练数据还是测试数据,都具有如下的格式:

其中各字段含义如下:

1. buyer_country_id: 买家国家id, 只有'xx','yy','zz'三种取值2. buyer_admin_id: 买家id

3. item_id: 商品id

4. log_time: 商品详情页访问时间

5. irank: 每个买家对应的所有记录按照时间顺序的逆排序

6. buy_flag: 当日是否购买

复赛数据集特点:

1)每个用户有若干条点击数据和至少1条购买数据 (但测试数据中该条购买记录可能未给出到选手;

2)每个用户的最后一条数据的buy_flag一定为1 (但测试数据中该条数据未给出到选手;

3)测试数据中每个用户的最后一条点击数据(也是购买数据)所对应的商品一定在训练数据中出现过;

4)可能存在少量跨国买家.

★ 赛题分析 ★

赛题分析是深入理解赛题的最有效的方法,也是构建有效特征和模型的先驱条件。

根据零售行业的人货场概念,赛题提供了关于用户行为日志的常见字段可分为如下部分:

  • 用户:用户标识、用户国籍
  • 商品:商品标识、店铺、品类、价格
  • 场景:点击时间、访问排序、购买标记

通过对赛题数据进行探索和分析,我们发现可以根据预测商品是否在历史交互过分成两种不同分布的用户:

  • 历史交互用户(68%):即预测商品用户曾经已交互过,在召回-排序阶段:
    召回:可通过buy_flag=1,将交互商品全量召回
    排序:基于用户商品交互信息,解决排序问题,预测精度高
  • 冷启动用户(32%):即预测商品用户从未交互过,在召回-排序阶段:
    召回:基于商品关联信息召回,召回难度大
    排序:基于用户最近交互商品与关联信息进行排序,预测精度较低

方案思路:面对两种不同分布的用户,我们因地制宜基于不同样本和特征分别建立两个排序模型,然后再通过用户判断模型对两个排序的结果进行优化。

★ 特征工程 ★

赛题所给的字段相对简单,主要可分为:用户-商品-场景,我们通过对不同类型因素进行交叉复合,并使用基础统计手段进行计算,构造出高阶特征,提取出购物决策的相关信息:

通过对以上维度的交叉统计,形成高阶特征群,提取出购物决策的关键信息,下图给出了所提取特征的贡献度:

★ 构建模型 ★

根据上述的分析我们构建了两个模型:

  • 历史交互商品模型
  • 关联商品模型

历史交互商品模型

  • 样本构造:提取buy_flag=1的user-item作为样本,用户最后交互的设为正样本,其他为负样本
  • 模型信息:这里使用的LightGBM模型;
  • 样本信息:
    • 训练集样本数:137W
    • 训练集用户数:55W
    • 测试集样本数:3.1W
    • 测试集用户数:8944
    • 特征数量:425
    • Model:LightGBM
    • loss function:AUC
  • 模型效果:
    AUC: 0.9493
    MRR: 0.8922
  • Recall Rate 样本召回率:
    • Top1 item:81%
    • Top3 item:92.5%
    • Top10 item:99%

这个时候线上达到0.6085的成绩,排名第五,当然目前仅是考虑到了历史有过交互的商品,接下来将建立关联商品模型。

关联商品模型

那么我们如何找到用户未来可能交互的商品?比较好的方法是挖掘关联商品,根据用户历史交互商品,找到这些商品的关联品。

  • Item-Item similarity Based on Sequnence
    商品相似性:基于用户行为序列计算,假设用户越近交互的两个商品相似性越高,并且考虑先后次序,通过线性搜索得到如下相似度计算公式:
  • 样本构造:对用户最近5个交互商品的关联商品(加上时间衰减权重),选取每个用户TOP50关联商品,之前得到的关联度中间结果直接作为特征训练排序模型
  • 模型信息:
    • 训练集样本数:940W
    • 训练集用户数:18W
    • 测试集样本数:47W
    • 测试集用户数:8944
    • 特征数量:222
    • Model:LightGBM
    • loss function:AUC
  • 模型效果:
    AUC: 0.9736
    MRR: 0.0554
  • Rcall Rate:
    • Top1 item:3.1%
    • Top3 item:6.3%
    • Top30 item:15%

经过关联商品模型来解决冷启动的问题,我们的成绩也由0.6085提高到0.6187,排名提升到第一。

★ 模型融合/优化 ★

排序优化

如图所示,历史商品模型排序第4的商品召回率仅有1.5,而关联模型排序第一位召回率为3.1。

为了优化排序结果,优化两部分模型的结果,通过用户判别模型(预测用户是否为冷启动用户),对概率大于0.95的高置信度用户直接截取掉历史TOP3后,与商品与关联模型的结果进行拼接,得到最终的Top30商品排序。

模型融合

  • Enseblem
    对于历史交互商品模型,训练了LightGBM、Xgboost、CatBoost三个模型,通过对预测结果简单加权进行融合。
  • Stacking
    此外,在每个模型训练过程中通过简单Stacking将其他4折的预测结果作为特征反喂模型,进一步拟合结果。

通过排序优化和stacking后,我们将分数从0.6198提升到0.6256,进一步拉开了与其他队伍的差距。

★ 比赛总结 ★

在本次比赛前期,我花费了大量精力进行数据探索和分析,基于对数据和业务的了解才确立了最终的方案和优化路线。当对数据之间的联系了然于心后,开始进行细致的特征工程以提取各种信息,在也是历史交互模型得分提升的关键。

此后,为了提高召回率,尝试了Embedding、协同过滤等方法,但是由于数据量和category字段少的限制,都没取得太好的效果,开始基于业务理解,尝试建立关联度计算公式,通过不断搜索参数,取得了不错的召回率,由此建立关联商品模型,此时成绩也上升到第一名。

最后阶段,我们开始提高模型的精度和稳定性,一是建立了用户判别模型对排序进行了优化,二是对模型进行了融合以及stacking,得到了0.6256分数,进一步扩大了领先优势。

取胜关键 = 充分理解业务 + 完备的特征工程 + 合理建模方法 + 细致结果优化 + 坚持就是胜利!

共0条评论
什么叫红颜知己 蛇肉吃了有什么好处 后腰出汗多是什么原因 安五行属性是什么 糖化血红蛋白高是什么原因
水猴子是什么动物 筒骨炖什么好吃 儿童嗓子哑了什么原因 薄谷开来为什么杀人 九月二十八是什么星座
普洱在云南什么位置 间羟胺又叫什么 小孩割包皮挂什么科室 1967属什么生肖 兔子跟什么生肖最配对
a4纸能折什么 夏天吃什么 斩金念什么 什么是苏打水 咳嗽挂什么科室
睡不着觉是什么原因引起的hcv8jop1ns5r.cn 微博会员有什么功能hcv9jop3ns6r.cn 鸡杂是什么hcv9jop4ns1r.cn 自卑什么意思hcv8jop6ns2r.cn 曹仁和曹操什么关系xjhesheng.com
螳螂吃什么食物hcv9jop8ns0r.cn 手突然发痒是什么原因hcv8jop3ns8r.cn 驿马星是什么意思hcv9jop0ns9r.cn 补充公积金是什么意思hcv8jop0ns7r.cn 打call是什么意思hcv9jop0ns3r.cn
便溏吃什么药hcv7jop9ns5r.cn 阴道吹气是什么原因hcv9jop4ns5r.cn 血脂粘稠有什么症状hcv8jop9ns3r.cn 咳嗽什么原因引起的hcv7jop4ns7r.cn 隐血弱阳性是什么意思jinxinzhichuang.com
为什么会得尿毒症hcv9jop0ns2r.cn 青黛是什么意思wmyky.com 史字五行属什么hcv7jop7ns3r.cn 为什么突然得了荨麻疹hcv8jop9ns4r.cn 颅脑平扫是检查什么hcv8jop2ns9r.cn
百度