百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

因果推断Matching方式实现代码 因果推断模型

wptr33 2024-11-11 16:08 176 浏览

如果你对数据分析感兴趣,希望学习更多的方法论,希望听听经验分享,

欢迎移步宝藏公众号「小火龙说数据」,无广告、无软文、纯干货,更多精彩原创文章与你分享!


00 序言

之前文章中,小火龙和大家分享过在无法做AB实验的场景下,如何通过因果推断的方式,构造相对纯净的虚拟AB组,还不了解方法的同学可以戳这里「不适合做AB实验的场景下,通过这4种方式来衡量策略效果」

本章,分享其中Matching方法中的EM(精确匹配)、CEM(粗化精确匹配)的SQL实现代码,有需要的同学可以自取。详细理论这里就不再冗余介绍了,可以戳上面链接学习。

01 代码实现

步骤一:前置表(生成匹配前置用户表)
create table if not exists test.cem_user_original as
select
    uid,
    age,
    gender,
    edu_level,
    is_label --是否应用某些功能(作为虚拟AB的判断标识)
from
    test.user_table
where
    date between '20240301' and '20240330' --获取此段时间的用户
group by
    uid,
    age,
    gender,
    edu_level,
    is_label
;


步骤二:匹配(通过label=1去匹配label=0)
create table if not exists test.cem_user_result as

with
title_merge as --标签merge
(
select
    *
    ,is_click as is_ab_treatment --是否是虚拟实验组
    ,1-is_click as is_ab_contorl --是否是虚拟控制组
    ,concat_ws('_', age, gender, edu_level) as title_merge
from
    test.cem_user_original
),

title_count as --计算每个标签merge对应的虚拟AB组人数
(
select
    *
    ,sum(is_ab_treatment) over(partition by title_merge) as num_ab_treatment
    ,sum(is_ab_contorl) over(partition by title_merge) as num_ab_contorl
    ,row_number()over(partition by title_merge,is_ab_contorl order by rand()) as rank_ab_contorl
from
    title_merge
),

treatment_few as --当标签merge中「实验组用户≤控制组用户」时,实验组全取+控制组取与实验组相同人数
(
select
    *
from
    title_count
where
    num_ab_treatment <= num_ab_contorl
    and
    (
    is_click=1 or
    (is_click=0 and rank_ab_contorl<=num_ab_treatment)
    )
),

treatment_more as --当标签merge中「实验组用户>控制组用户」时,实验组全取+控制组全取(实验组用户明显偏少的情况)
(
select
    *
from
    title_count
where
    num_ab_treatment > num_ab_contorl
)


select
    *
from
    treatment_few

union all

select
    *
from
    treatment_more
;

最后,推荐一本数据分析进阶书籍《数据分析实践:专业知识和职场技巧》

侧重案例讲解,对于初、中级数据分析师的帮助极大!!!

相关推荐

oracle中merge into语句详解(oracle的merge语句)

由于工作中使用,研究了mergeinto语句是insert与update语句的结合,可以同时实现update和insert的功能。一、mergeinto语句的语法。MERGEINTOsch...

N张图告诉你K-DB为什么能全面兼容Oracle?

不是每一款数据库都能全面兼容Oracle,就像不是所有数据库都可以被称之为K-DB。一般数据库能做到的SQL标准和函数上兼容Oracle,而K-DB则能实现更多,在数据库体系架构、集群方式、数据库对象...

ORACLE 错误代码及解决办法(oracle错误码942)

ORA-00001:违反唯一约束条件(.)错误说明:当在唯一索引所对应的列上键入重复值时,会触发此异常。ORA-00017:请求会话以设置跟踪事件ORA-00018:超出最大会话数ORA-00...

SQL知识大全三):SQL中的字符串处理和条件查询

点击上方蓝字关注我们今天是SQL系列的第三讲,我们会讲解条件查询,文本处理,百分比,行数限制,格式化以及子查询。...

LabVIEW实现Oracle数据库的访问(深入浅出labview数据库应用)

1.安装Oracle客户端下载:从Oracle官方网站下载适用于Windows操作系统的Oracle驱动程序。确保下载的版本与LabVIEW环境和操作系统兼容。...

Oracle查询语句,你知道几个?(oracle常用查询语句)

介绍以下非常有用的Oracle查询语句,主要涵盖了日期操作,获取服务器信息,获取执行状态,计算数据库大小等方面的查询。日期/时间查询1、获取当前月份的第一天运行这个命令能快速返回当前月份的第一天,可...

Oracle数据库中判断字段不为空?(oracle数据库中判断字段不为空的函数)

Oracle数据库中如何判断字段不为空在Oracle数据库中,判断字段(列)不为空通常涉及到几种不同的场景和需求。下面是一些常见的方法来检查字段是否不为空:1.使用NVL函数NVL函数可以用来将NU...

Oracle 字典表使用函数自动转码,自定义函数传参

创建函数模板CREATEORREPLACEFUNCTIONdic_val--定义函数(dict_idINVARCHAR2,codeINVARCHAR2)--定义参数RETURN...

从上百个字段到1个CLOB:Oracle JSON存储实战指南

陆沉盯着左右两个屏幕上显示的数据格式文档,右手小拇指无意思地一下又一下的敲击着机械键盘的Ctrl键,在清脆的“哒哒”声中思考着。...

程序员面试中问到的Oracle常用数据类型

Oracle中常用数据类型有:1、字符类型1.1、定长字符1.1.1、Char字符长度不够自动在右边加空格符号。最大存2000个字符,当字符长度超出2000个报错。不指定大小默认为1。1.1.2、...

了解 Oracle 中单引号与双引号的用法,一篇文章教会你!

无论测试或者开发,对数据库的增删改查都是家常便饭。但有些小知识是经常被忽略,却又不能不去了解的,例如单引号和双引号的用法和区别,看完这一篇,你肯定会有收获。...

Oracle字符串转日期错误,试试TO_TIMESTAMP函数

最近,在工作中,发现有些字符串格式无法转换成日期格式,如下图:这种to_date是无法转换的,会报错,因此,需要用到:TO_TIMESTAMP,具体格式如下:TO_TIMESTAMP(字段名,...

oracle——空字符串(&#39;&#39;)不能用和!=

oracle——空字符串('')不能用<>和!=最近在查询空字符串的数据时发现查询不出数据。后来发现以前的写法在oracle中不能用。记录一下:数据如下:...

oracle的listagg函数,可以把多行转为一个字符串

oracle的listagg函数可以把多行转为一个字符串,用起来很方便,示例如下:witht1as(select'001'asitemcode,'苹果'...

MySQL 教程的天花板--入门到高级(mysql实用教程)

给大家推荐一套MySQL的教程,堪称MySQL教程的天花板。此教程包含...