2024年医药行业将走向何方?
06-18
编者注:a16z合伙人、Martin和Peter认为,我们通常理解的“数据护城河”实际上只是“数据规模效应”,而不是真正的“数据网络效应”,这就是它是一个值得企业数字化转型的目标,并提出了更有效的构建企业数据护城河的策略。
数据长期以来一直被誉为公司的竞争护城河,而随着最近人工智能初创公司的浪潮,这种说法被进一步炒作。
“网络效应”也被宣传为构建软件业务的防御力量。
当然,我们经常听到两者的结合:“数据网络效应”(我们之前已经详细讨论过这个概念)。
但对于企业初创公司——这是我们关注的领域——我们现在想知道是否有数据网络效应的实际证据。
此外,我们怀疑,即使将数据规模的更直接影响作为许多公司的防御策略,其价值也有限。
这不仅仅是一个学术问题:它对于创始人在何处投入时间和资源具有重要意义。
如果您是一家初创公司,假设您收集的数据相当于一条持久的护城河,那么这种策略可能会导致您在其他确实改善业务长期防御的领域投资不足(例如:垂直化、获得市场主导地位、增强销售岗位) -管理、品牌建设等)。
将数据视为神奇的护城河可能会误导创始人,从而忽视其他真正获胜的东西。
换句话说,将数据视为魔力护城河可能会误导创始人专注于发展业务真正需要的东西。
那么,“数据网络效应”是否存在?规模效应与传统的网络效应有何不同?一旦我们摆脱了“必备”的炒作……初创公司如何建立更持久的数据护城河,或者至少找出数据在其战略中最有用的地方?数据+网络效应≠数据网络效应从广义上讲,“网络”在用户/客户/端点等方面发挥作用。
系统。
在结构上排列成网络。
在我们的背景下,此类网络通常围绕支持网络结构的技术、产品或服务构建,无论是围绕用户营销功能(例如社交网络)和/或协议(例如以太网、电子邮件、加密货币)构建。
当更多节点加入网络或现有节点的参与度增加时,参与者参与网络的价值就会上升,从而产生网络效应。
想象一下尝试进行单向电话交谈,或者只给世界上的五个人打电话而没有其他人;随着越来越多的用户加入网络,电话系统变得更有价值。
其他常见的、更现代的网络效应示例可能包括社交网络、在线市场和区块链网络。
具有网络效应的系统通常具有通过定义的接口或协议在节点之间直接交互的特征。
加入网络需要遵守一定的标准,这增加了所有节点的直接交互,并使这些交互越来越具有用户粘性。
但当谈到有关数据网络效应的流行叙述时,我们通常不会看到同样粘性的、直接的交互(更不用说由于协议或接口而导致节点之间的机械依赖关系)。
简单地拥有更多数据通常不会产生固有的(固有的)网络效应。
大多数“数据网络效应”实际上只是“规模效应”。
大多数关于数据防御性的讨论实际上都可以归结为“规模效应”,这种形式符合网络效应的宽松定义,其中节点没有直接交互。
例如,如果您最喜欢的电影的大多数观众更多的数据意味着更好的推荐,这意味着更多的客户,甚至更多的数据......著名的“增长飞轮”。
然而,即使存在规模效应,我们的观察结果是,数据本身也很难成为足够强大的护城河。
与传统的规模经济不同的是,随着时间的推移,固定的前期投资会变得越来越有利,而数据规模经济的情况恰恰相反,其中不断添加独特数据的成本实际上可能会上升。
增量数据的价值反而下降了!例如,考虑一家使用聊天机器人来响应客户支持查询的公司。
从下图中可以看出,根据客户服务记录创建初始语料库可能会提供简单查询(“我的包裹在哪里?”)的答案。
但绝大多数询问要复杂得多,其中许多只被问一次(“我一直在等待到达我前门阶的那个东西在哪里?”)。
因此,在这种限制下,随着时间的推移,收集有用的查询变得更加困难。
而且,在本例中已经收集了 40% 的查询后,收集更多数据确实没有任何优势!上图来自 Eloquent Labs 的 Arun Chaganty 的一项研究(经许可共享):针对提交给客户服务聊天机器人的问题。
在其中,他发现 20% 的数据分发工作通常只能获得大约 20% 的用例覆盖率。
超过这一点,数据曲线不仅边际价值递减,而且捕获和清理的成本也变得越来越高。
另请注意,此分布接近 40% 意图覆盖率的渐近线,这表明基于上下文自动化所有对话是多么困难。
当然,数据规模的影响减弱的程度因业务领域而异。
但无论这种情况何时发生,最终结果通常都是相同的:随着数据量的增加,保持领先地位的能力往往会减慢,而不是加速。
随着数据库的增长和竞争对手的追赶,防御护城河不会变得更强,而是会逐渐消失。
数据护城河不会随着数据池的增长而变得更强。
这样做的目的并不是要明确说明数据作为防御护城河的效用——我们的观点是,防御性并不是数据本身固有的。
除非您了解目标业务领域的数据旅程(生命周期),否则无法保证防御性;下面的框架或许对你的思考有帮助。
理解数据旅程最小可行数据库的实用框架 当大多数人谈论网络效应时,他们关注的是克服引导或冷启动问题(通常称为“先有鸡还是先有蛋”问题),即获得足够的早期节点使网络对所有节点都有用(并使网络内的经济生态具有竞争力)。

在大多数网络效应业务中,“零启动”问题很难解决,尤其是当您需要网络已经启动并运行以吸引流量时。
但对于许多具有数据规模效应的企业来说,情况却不一定如此。
启动我们认为的“最小可行数据库”足以开始训练您的系统,并且是初创公司数据之旅的第一个转折点。
这个初始数据库可以来自多种来源:从可用来源自动捕获数据,例如网络爬虫;让早期用户用他们的数据交换一些东西;通过迁移学习重新利用其他领域的数据;甚至综合生成数据,您可以通过编程方式创建要训练的数据。
在数据之旅的早期,获得最小可行数据库需要相对较低的投资,并且显然不会成为持久的护城河。
数据获取成本 在给定的数据库中,随着时间的推移,获取下一段数据往往会变得更加昂贵。
为数据库带来新信号的独特数据可能更难在噪音中找到,更难保护,并且随着时间的推移需要更长的时间才能清楚地标记它们。
在许多依赖所谓“数据网络效应”的领域都是如此。
另一方面,在传统网络效应下,随着加入网络价值的增加,用户获取成本随着时间的推移而下降。
此外,除了传统的网络效应之外,通常还伴随着更固有的病毒式传播,即节点被激励自行发展网络,从而传播出去,为网络增加更多价值。
这些属性都不适用于数据效应:数据成本上升。
增量数据价值 当您收集数据时,添加到数据库中的数据也往往会变得不那么有价值。
为什么?即使新的任意一批数据的收集成本与上一批获取的数据相同,但鉴于您获取的一些新数据已经与现有数据重叠,它产生的价值也会更少。
随着时间的推移,这种情况只会变得更糟:新数据的好处逐渐减弱。
在我们见过的大多数初创公司中,早期的新数据适用于整个客户群。
但超过某个点(例如上面示例图中的渐近线),收集的新数据将仅适用于特殊用例“长尾”的一小部分。
因此,随着数据集的扩大,任何数据规模效应护城河都变得不那么有价值。
数据新鲜度这一点似乎是显而易见的,但无论如何强调都不为过:在许多现实世界的用例中,数据随着时间的推移而变得陈旧......它不再相关。
街道发生变化、气温发生变化、态度发生变化等。
不仅如此,许多数据初创公司的任何专有见解最初都会随着时间的推移而减少,因为随着越来越多的人收集数据,数据的价值会下降:当竞争对手在同一空间追赶你时,你的数据价值就会下降。
预测优势将逐渐消失。
随着时间的推移,保持现有数据库最新所需的工作量(更不用说提前)随着规模的扩大而增加。
从这个意义上说,数据就像一种商品。
数据何时变得具有(竞争性)防御性,您可以采取哪些措施来管理它?这并不是说数据毫无意义!但这确实需要比从“我们有大量数据”跳到“所以我们有长期防御能力”更深思熟虑的考虑。
由于数据护城河显然不会仅通过数据收集而持续存在(或自动发生),因此仔细考虑与您的数据旅程相对应的策略可以帮助您更有意、更主动地竞争并保持数据优势。
当渐近线或收益递减点突然袭击您的公司时,最好做好计划。
数据效应需要比启动初始数据库更深思熟虑的考虑,从“我们有大量数据”到“因此我们有长期防御”与现有竞争对手的比较如前所述,在某些领域引导数据并不是那么困难。
然而,创始人实际上可以利用这一点来与拥有数据但未能正确应用数据的现有竞争对手进行正面交锋。
在推出自己的“最小可行数据库”后,在构建正确数据集方面处于领先地位的初创公司可以利用这种洞察力和技术来加速并保持领先于现有竞争对手,然后再弄清楚如何理解数据。
。
生成“合成数据”是赶上拥有大量数据的现有企业的另一种方法。
我们知道有一家初创公司生产合成数据来训练其在企业自动化领域的系统;结果,仅由少数工程师组成的团队就能够冷启动他们的最小可行数据库。
该团队最终击败了两家大型现有企业,依靠的是他们几十年来在世界各地收集的现有数据集,因为这两家传统企业的数据洞察力都不适合解决同一行业问题。
了解数据分布 深入了解数据分布将为您的数据策略以及您实际可以创建多少防御性提供信息,具体取决于您产品的业务应用领域。
数据的分布及其对应的值根据业务领域的不同而不同。
因此,深入了解分布的形状并制定正确的策略来捕获它至关重要。
是否存在难以获取的关键数据“肥尾”?如果是这样,将数据库扩展到长尾的计划是什么?您的业??务领域中数据准确性有多重要?可接受的错误率——如果机器学习在给同事的电子邮件中预测出错误的自动完成功能,那么这并不是世界末日,但自动驾驶汽车世界中不准确的对象分类实际上可能是生死攸关的问题。
如果不仔细检查,甚至可能很难发现对数据分布的误解,例如,如果权重没有正确应用于时间序列数据(例如,参见“灾难性遗忘”)。
我们之前分享的挑战——许多领域的大量学习都在专门用例的长尾中——如果您是先行者,也可能是一个优势。
对于将这些知识嵌入其产品和销售流程的企业来说尤其如此。
虽然一些投资者不喜欢进入复杂的市场,因为他们只看到规模和盈利方面的困难,但我们相信,进入复杂的市场会产生“填补漏洞的经验”,而这种经验本身可以带来竞争防御。
了解数据在多大程度上改进了您的产品 在某些领域,拥有更多数据将带来更好的产品。
如此一来,它将克服随着时间的推移不断增加的开销和不断下降的数据价值。
例如,如果您的癌症筛查准确度为 85%,那么它比准确度为 80% 的癌症筛查更有可能被使用。
这种用途将提供额外的数据,从而提高准确性。
虽然我们在实践中还没有看到很多这样的案例,但在少数情况下,数据优势可以为产品创造“赢者通吃”的优势,这显然是强大护城河的基础。
当然,了解数据对产品的贡献程度并不总是那么简单。
通常,选择算法或调整产品功能比单独拥有更多数据产生更大的影响。
质量和数量之间的权衡 建立数据库时最棘手的权衡之一是如何平衡质量和数量。
为什么要进行权衡?解决太多的规模问题可以在广泛的用例中产生良好的预测,但对于其中任何一个用例都不是很好的预测。
解决规模太小的问题可能会导致数据库能够很好地解决一个狭窄的问题,但在客户期望的整个用例集上提供的结果却很弱。
在实践中,这可能意味着更多地关注于为狭窄的用例标记丰富的数据,或者更广泛地打开在更多用例中有用的数据的大门。
显然,深度和广度都是任何数据库的关键属性,但在任一方向上取得错误的平衡都会严重影响性能。
在保持竞争优势的同时,始终为您的特定产品提供质量/数量权衡将使您能够最大化增量数据的“数据护城河”的价值。
保护专有数据源我们在本文中提出的问题——也是我们希望创始人问自己的问题——数据规模效应真正存在于哪里,会持续多久?这并不意味着公司无法从专有数据中获得实际(竞争)防御力;显然,有一长串的行业(例如制药)和反例几十年来一直主导其市场,尤其是当它们出于结构性原因而脱离行业访问专有数据集时(例如 Equifax、LexisNexis、Experian 等)。
积累专有数据是一种防御策略,当来源稀疏或不愿向多个供应商(例如政府买家)提供数据时,该策略效果最佳。
随着安全要求和合规标准的门槛升至历史最高水平,通过供应商审查来访问敏感数据本身就可能成为对抗竞争对手的护城河。
即使承担了组装、清理和标准化大量公共数据集的所有前期成本,新兴竞争对手也将不得不从头开始重新创造规模效应。
尤其是当专业知识对于查找、理解和清理数据至关重要时。
事实证明,初创公司是负责任的数据保管人,可以赢得客户的信任,然后客户只会与他们共享越来越敏感的数据,从而创造一条护城河。
枯萎的数据护城河……数据是许多软件公司产品战略的基础,它可以通过多种方式提高防御能力——但不要把它当作一根魔杖。
大多数有关数据网络效应的叙述实际上都围绕着“数据规模效应”,正如我们在本文中概述的那样,如果计划不正确,有时可能会产生相反的效果。
但不要假设你有数据网络效应(你可能没有),或者数据规模效应将永远持续(它们几乎肯定不会)。
相反,我们鼓励初创公司更全面地思考防御性。
更大的长期防御力更有可能来自品牌包装的差异化;当您跨行业垂直时,了解该领域并将其反映在您的产品中;主导营销竞赛;打赢人才争夺战,打造世界一流团队。
这些努力将在捍卫和赢得市场方面获得回报,而不仅仅是数据方面。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-18
06-18
06-17
06-17
06-17
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态