近年来,数字化转型已成为一种非常大的趋势。在这种总体趋势下,事实上,许多海外企业(无论是卖家还是服务提供商)经常谈论一句话:“我们有这么多的数据。我们应该在海外使用这些数据!”
的确,卖家和服务提供商都有大量的数据,但这些数据在出海的道路上并没有成为行业标准。
为什么呢?
是-事实上,我们根本没有很好地使用它,还是知道数据的用法?
是数据垃圾还是数据资产,这是个问题。
数据绝对不是所有的资产,更多的数据是垃圾。
没有处理过的只是信息,而不是数据。
大数据时代最大的公众误解之一是,人们认为有这样一个通用的数据解构器,它可以在容纳大量数据后产生人类无法企及的智慧和洞察力。
但遗憾的是,数据越大,垃圾可能就越多,大数据不可能变成魔法,它只能在大量高质量数据的基础上工作。
但在现实世界中,并没有那么多高质量的数据容易获得。
大部分数据的保质期都很短,大部分数据都不如Device。 ID的生命周期很长。例如,DMP中的人的兴趣标签,在自己的接触点上捕获的用户行为数据,以及消费者提交的leads。
保质期不长意味着手里有大量数据的广告商可能没有多少真正可用的数据。
换句话说,如果你的数据想成为资产,它不可能是一个死水池,而是必须不断更新,包括进入(更新的数据)和出入(过期的数据)。
最常见的误解之一是,我们认为数据资产是静态的,但事实上,它就像一列永不停歇的轨道列车——存一潭死水容易,玩轨道交通系统太难了!
随着大数据和云计算的发展,我们的企业可以获得越来越多的数据和维度。与此同时,帮助我们挖掘和分析数据的工具也越来越强大,比如著名的云平台和大数据平台。
在模型算法方面,行业和学术界也投入了大量资源进行开发和迭代,因此各种新模型和算法不断开发和改进,发展速度非常快。
在这种背景下, 当企业有足够的数据或能力收集相当数量的数据时,智能操作手段已成为企业增长的主要探索点。
图片来源:GrowingIO
建立数据资产的难度不在于获取数据本身,而在于数据系统的规划——没有好的规划,获取的数据可能不是资产,而是垃圾。
最典型的现象是数据源构建的随机性。
例如,许多企业有两类数据。第一类是企业的客户信息、客户关系管理中的客户数据和Leads数据。这些数据已经非常成熟,相当于收入数据。第二类是各种外部第三方工具“帮助”企业捕获的数据。这些数据最常见的命运是成为各种报告。
最典型的是数据源结构的随机性。
例如,许多企业有两类数据,第一类数据是企业的客户信息, CRM中的客户数据和与收入数据等效的成熟度 Leads数据。其次,它是各种外部第三方工具“帮助”企业捕获和各种营销运营接触的数据。这些数据最常见的命运是成为各种报告。
很少有报告在短时间内被使用后会随着更多的报告而出现。即使人们只看一眼就进入数据库,数据库也永远不会打开,直到死亡。
事实上,这些报告背后的原始数据更有价值,更接近数据资产的一部分,然后进入企业精心构建的各种“数据仓库”、“数据湖”、“大数据系统”,然后也睡着了。
更重要的是,这些数据自然是由不同部门拥有的不同的第三方工具获得的。他们没有联系,彼此独立,但他们都发誓:“我的工具可以输出数据,并与其他工具的数据无缝连接。“但问题是,没有工具可以容纳其他工具的数据,每个人都可以输出数据,这是正确的,但这些工具不愿意这样做,以便最终实现数据连接。
然而,企业主仍然放心,毕竟,所有的数据都保存在“大数据系统”中,就像银行里的纸币一样安全。当需要打开这些数据时,技术同事应该打开它们吗?
因此,有一天,当老板要求使用某些数据时, IT部门的同事不得不在这些系统中编写各种程序来搜索数据,但他们发现不是没有一些数据,而是数据无法打开或细分。这样,沮丧的报告只能给出一个可能的数据。
我们给你买了这么多工具,抓了这么多数据,建了这么大的数据库。我告诉我这是为了你还是为了你?!
技术人员心里想:“mmp能给一个大概可以用的数据,已经拼命了!”
然而,我们不知道最具讽刺意味的是,工具越多,数据越差,这是最糟糕的事情。虽然工具很强大,但它们并不相关,工具越多,越糟;数据越多,但无法通过,积累越多,处理越困难,存储空间越大。
在大多数企业中,要么没有数据,要么有很多数据孤岛。数据系统缺乏数据孤岛形成背后的规划。
一个非常重要的问题是,由于各种数据工具收集的数据可以导入企业数据中心,并被引导,为什么这些数据不能通过呢?
两个理由。
首先,缺乏打开数据所需的主键(这就是我们所说的One-ID)。
第二,即使有主键,清理、重新打开这么多工具的数据表,也是一个庞大而容易出错的项目。Vlookup公式使用 Excel没那么简单。也就是说,理论上没有问题,落地的可行性很差。在大多数情况下,只能找到这些数据,然后暂时与其他相关数据对接, case by case,暂时解决就好。
因此,没有数据能力,什么数据资产是不可能的。
具体来说,近年来,许多企业都通过了 BI (Business Intelligence,商业智能)工具获得了许多有意义的洞察力和成长。
但是因为 BI工具由分析师设计,然后由操作员操作,因此从人力投入和使用的角度来看, BI工具的分析通常不是特别复杂,可能只是一些低维分析,如一维和二维分析。
相对而言,我们今天分享的机器学习和人工智能模型可以处理的数据量和维度的复杂性远远超出了我们普通人所能理解的范围。
例如,普通的综合学习(ensemble model)、深度学习,几年前在下棋应用中非常成功的强化学习模式, GAN模型等,这些都是去年人们非常关注的换脸技术背后的技术。因此,我们将面临如何将这些理解不良但功能强大的工具应用到我们的业务系统中的问题。
本文将围绕这一主题,根据下图分析模型驱动项目的关键步骤,探讨在实际海外模型运营或海外项目管理过程中少走弯路。
图片出处:Google
到底什么是数据能力?
我们对此的理解与目前出海的理解有些不同。获取、处理和应用数据的能力通常被视为技术能力。
但在我看来,数据能力还有一个非常重要的方面,就是容易被忽视,导致企业即使处理好了技术,也没有数据能力。
首先,它是一个数据规划系统。这个问题以前已经讨论过了。为什么很少有企业能够规划自己的数据系统,而更多的企业不断积累数据?
由于业务需求总是迫在眉睫,系统地构建数据系统不仅需要时间,还需要大量的资源和说服老板,因此业务部门无法控制。因此,近年来有一个数据中心,数据中心基本上只有阿里巴巴和腾讯这样的大工厂被愚弄,因为这些大工厂卖给大老板。
因此,它也在市场和运营系统中受到追捧 CDP。本质上, CDP是一个多渠道、多接触的数据采集、组织和应用系统,以及它自己的数据开放和集成功能。因此,它本身也是一个具有自己数据系统的工具,自然是一个反数据岛。
虽然这两种方法都有助于数据规划,但我对数据中心和 对CDP有不同的看法。这篇文章没有提到具体的原因。如果我们有时间,我们会再谈谈我们的观点。下面简单解释一下,数据中心,很多企业基础不好,做不到,用不上。相对来说, CDP更容易使用,业务领域更集中,使用的可能性更大。虽然不简单,但至少比Database中的台面更现实。
二是数据操作系统。
对此,企业比以往更缺乏了解。什么是数据操作系统?简而言之,没有操作,没有数据,没有数据资产。
最典型的是,我们通常认为数据获取是技术性的。但事实上,这是一项业务。以我们建站的独立站为例,我花了一百万买了很多流量,然后进入了我的触点。你花同样的钱买同样的流量,然后进入独立站。我们的独立站有很多为用户提供互动的设计,而你的独立站基本上是让用户浏览图片和文本。两者在数据收集方面都有明显的区别:我的设计可以收集更多的用户交互行为数据,在此基础上,它依赖于操作能力。
另外,要打开数据,还需要操作。
与许多企业的理解不同,通过数据不主要是一项技术工作,而是需要让用户留下联系信息,通过联系信息通过不同的平台和接触点 ID。正如我们之前提到的,联系信息是连接数据所必需的关键。除此之外,其他打开数据的方法都是不切实际或不可靠的。
然而,为了获得消费者的联系信息,我们不能偷或抢劫,我们必须让消费者愿意提供,这仍然需要依靠操作。也就是说,在过去,我们计划的营销系统或特定的活动营销很少考虑如何获取数据和应用数据。但现在,如果营销系统或营销活动不能获得足够的消费者数据,其价值就会损失一半。
即使这些数据有序,也毫无意义。如果不仔细考虑数据的应用,数据最终会过期并扔进垃圾堆。
信息流应用的话题太多了,但在数字营销和运营领域,应用场景也多种多样。
比如企业自己获取的消费者数据有很多应用场景:利用第一方数据做广告,整合消费者多触点(反向营销)、私域生态私域运营、动态营销自动化、推荐目标明确、消费者/客户生命周期运营等。
这种情况和你的生意有关吗?
更有甚者,数据最终会以报告的形式出现在老板的屏幕上,甚至大数据也会被理解为“dashboard大屏幕”,就像没有显示、没有数据、没有数据一样。
远离数据报告,远离数据报告, dashboard、 BI或数据挖掘,数据资产远非数据报告, BI或数据挖掘是一种能够真正应用于特定场景、驱动特定业务(特别是客户运营)的材料。既然它不能释放更多的能量,为什么要谈论它的资产呢?
因此,数据资产的逻辑描述如下:
图片来源:宋星的数据观
上图:传统的消费市场运营系统只是蓝框的一部分,但为了积累数据资产,必须包含更多的数据运营部分。
使用数据需要花费大量的时间和精力来规划数据系统,需要花费大量的时间和精力来开发具有抵抗数据岛能力的工具,但更重要的是,建立自己的操作系统需要花费大量的时间和能力,以及结合数据和业务的战略人才。所有这些都很冷。
因此,将数据转化为资产不是一夜之间的事情,很少有数据系统工具可以解决。事实上,这是当今企业数字化转型的核心问题。
说到这里,今天的主题是如何应用数据资产来做一个开场白。下一个问题是许多海外朋友共同关心的话题——如何在出海的路上应用数据资产。
数据采集和标准化
当我们有一个一般的计划时,下一步是收集数据。我们提前部署了客户数据平台(CDP) ,当独立站的用户数据已经包装在我们的客户数据平台上时。这些标准化的数据可以直接使用。
对于新客户来说,除了数据拉通,我们还需要进行数据清理和流程标准化,这个阶段的速度会比较慢。
数据预处理
数据预处理是整个建模过程中最耗时的一步,也是实现项目成功、保证模型准确性的关键一步。
以零售业为例,假设零售客户希望预测哪些用户会在商店购买,或者他们将来会购买哪个品牌和类别。
通常,我们收集的零售数据是一些记录用户消费信息的交易数据。
我们需要做的是预测哪些用户将在未来进行购买转换,而过去的用户消费数据可能包含这些信息。因此,我们需要将这些交易数据转换为用户特征和商品特征,以输入我们的预测模型。
算法-模型验证-输出管理
我们通常使用预测用户可能转换的场景 1 或 0 二分类模型。
当场景复杂,涉及多种商品或商品时,我们可以做一些多分类模型。例如,在购买电子商务平台推荐时,面对过多的商品类型,可以通过个性化推荐实现“千人千面”的推荐效果。
在基于上述四个步骤初步构建模型后,我们需要进行大量的离线检查来验证模型。
整个过程结束后,我们将对验证后的模型进行一些肖像,以更好地理解模型背后的逻辑。同时,模型肖像也可以帮助我们确定整体营销策略。
激活和在线检查
到目前为止,我们对这个模型也有一定程度的理解,精度也可以得到保证,模型可以在线。上线后,我们还将在线进行一些相应的测试,并固化整个过程,使其成为一个自动模型产品。同时,我们还将根据业务需求自动更新模型。
一个成功的数据模型通常是商业洞察力、数据和算法相互作用的结果。业务目标决定了我们需要收集什么数据,使用什么算法,验证什么,制定什么策略。总之,业务目标是一个基本的驱动因素。
图片来源:GrowingIO
一般来说,业务场景是多种多样的,所以我们需要根据客户的需求对建模过程进行一些微调。
对于用户操作的学生,他们可能需要更新、保留、预测用户损失和预警;对于业务前端的学生,他们需要制定合理的定价策略和促销;对于负责广告业务的学生,他们需要评估广告渠道的效率,以产生一些对营销组合的洞察力,以便在下一阶段制定广告预算和分配策略。
还有一些与供应链相关的场景,如订单评估不准确,导致库存积压或商品脱销。此时,我们需要更准确的需求预测来建立一个更理想的供应链,并在正确的时间将合理数量的商品运输到正确的地方。