合成数据会是训练AI大模型的永动机么？

一只子睿呀 • 2024年12月14日 03:24 • 每日动态 • 阅读 3

越来越多的AI从业者认为，AI智能超越人类智能，大概率只是时间问题。现如今更大参数的模型，对算力...

越来越多的AI从业者认为，AI智能超越人类智能，大概率只是时间问题。现如今更大参数的模型，对算力需求巨大的同时，对数据也提出了更高的要求。千亿级大模型正迅速耗尽世界的高质量数据。因此利用AI合成数据，再投入到模型训练中，或许可以解决真实世界数据有限且昂贵的问题。对于使用合成数据，OpenAI的CEO Sam Altman不仅不介意，还放话“未来所有数据都将变成合成数据”。璞跃中国移动出行团队将针对合成数据（synthetic data）的创新应用趋势，与大家共同讨论AI合成数据未来的发展方向。以下为本文目录，建议结合要点进行针对性阅读。本篇行研将分为5个部分阐述： 👇 01 行业概述及发展驱动力 02 技术背景与核心技术难点 03 市场规模及核心部件现状 04 产业链及核心玩家分析 05 璞跃中国核心观点 01. 行业概述及发展驱动力 1.1 宏观演进趋势由决策式AI到生成式AI再到通用型AI 人工智能从出现到现在已经历两个阶段，并正在往第三个阶段过渡：第一个阶段的决策式AI是以逻辑推理为主，聚焦决策和认知；注重以概率统计的建模、学习和计算为主，AI能力开始聚焦感知、认知和决策；第二个阶段的生成式AI聚焦学习环节，注重大模型的建设，AI能力覆盖学习和执行，从大量数据中学习并生成新的数据或内容的人工智能系统；聚焦执行与社会协作环节，开始注重人机交互协作，注重人类对人工智能的反馈训练，当下正处于此阶段。最终发展阶段是通用型AI，即通用人工智能（AGI）或强人工智能（Strong AI），具备与人类同等智能、或超越人类的人工智能，可以像人类一样进行感知、推理、学习、决策、规划等多种任务，能够在不同的领域和情境中灵活地应对和适应。 1.2 当前生成式 AI 进入行业落地阶段生成式 AI的本质是内容与场景，其发展需要AI与后端基建、算法、算据和算力三要素共同配合。生成式 AI的三大发展阶段是：模型赋智阶段（从现实生成数字）：利用AI技术构建模拟现实世界的数字孪生模型；认知交互阶段（从数字生成数字）：AI能够学习并创作更丰富的内容；空间赋能阶段（从数字生成现实）：基于物联网，多模态技术获取多维信息，实现更加智能的人与机器互动。 1.3 生成式AI及通用型AI下对合成数据需求强烈合成数据或将弥补未来数据的不足。合成数据是计算机模拟或算法生成的带有注释的信息，可以替代真实数据。它可以用于模拟实际情况，补充真实数据的不足，提高数据质量和数量，以及降低数据采集和处理的成本。OpenAI 在 GPT-4 的技术文档中重点提到了合成数据的应用，可见其对该领域的重视。根据 Gartner 的预测，2024 年用于训练大模型的数据中有60%将是合成数据，到 2030 年大模型使用的绝大部分数据将由人工智能合成。潜在落地行业：合成数据有望首先在汽车、工业、金融、医疗和等诸多领域落地。 02. 技术背景与核心技术难点 2.1 什么是合成数据合成数据（synthetic data）是通过计算机技术人工生成的数据，而不是由真实事件产生的数据。但合成数据具备“可用性”，能够在数学上或统计学上反映原始数据的属性，因此可以作为原始数据的替代品来训练、测试并验证大模型。相较于真实数据，利用合成数据可以更廉价、更高效、更准确、更安全可靠地训练AI模型，进而极大扩展AI的应用可能性，将人工智能推向新的发展阶段。 2.2 合成数据背后的技术原理生成合成数据有多种，一般生成的数据集很复杂，通常首选生成模型。生成模型是基于神经网络的，它可以自动从现实数据中找到的模式中学习，并产生与现实数据精确匹配的信息。生成模型包含：生成对抗网络（GAN）、变分自编码器（VAE）、Transformer模型、扩散模型（Diffusion Model）、神经辐射场模型（NeRF）等，不同的生成模型不仅使合成数据的种类扩展，而且使其质量也得到了提升。合成数据核心为多模态技术融合、跨模态场景合成，但当前仍面临许多挑战。以3D场景自动生成领域为例，面临的挑战包含：数据匮乏且无好表示方法、技术选型对齐困难、生成复杂度上升、知识迁移困难、大算力依赖、缺少“模型训练→产品应用→用户反馈→改进模型训练”的正循环等问题。多模态AI的技术挑战真实存在，但有挑战就意味着有机会；通过技术突破、技术创新在多模态AI领域大步前进，目前是最好的时机。 03. 应用场景及市场规模 3.1 合成数据市场规模市场规模方面，根据Cognilytica按照 Grand View Research的数据，合成数据市场规模在2021年大概是1.1亿美元，预计AI训练数据市场规模到2030年将超过1000亿美元。合成数据的应用场景包括医疗保健与生命科学、商业及金融服务、交通运输与物流、制造业、IT与电信、零售与电子商务、消费电子等方方面面，可以预见合成数据作为数据要素市场的新增量，在创造巨大商业价值的同时，也有望解决人工智能和数字经济的数据供给问题。 3.2 合成数据应用场景多元应用场景1：智能汽车赛道（舱内外交互&自动驾驶&场景仿真） CV 大模型助力数据标注、场景仿真与重现和纯视觉感知等；NLP 大模型实现人车的更友好交互，推动座舱智能化进程；多模态 AI 大模型为城市场景辅助驾驶乃至高等级自动驾驶的规模量产拉开帷幕，同时也有望用于智能座舱中的人机交互，如融合语音、视觉、手势等多种方式，满足用户在不同场景下的不同使用习惯。应用场景2：制造业与数字化生产人工智能在工业流水线上的一个关键用途是识别和计数组件以及检测故障组件。由于装配环境中存在严格的质量要求，出现缺陷产品的情况十分罕见。可以使用AI合成数据创建虚拟场景，生成大量图像以训练工业AI视觉网络的产品计数与缺陷产品检测能力。应用场景3：商业与金融服务在银行和投资服务领域，受到GDPR 和隐私问题等法律限制，导致使用真实文档进行 AI 网络训练十分困难。可以使用合成数据填充真实文档模板，创建高质量、多样化训练数据。同时也可通过合成数据模拟损坏、受潮、泛黄文件，扩展边缘数据集。目前应用领域：金融犯罪和欺诈预防、交易预测、信用评分、销售和交易、合成数据生成和风险因素建模、保险产品定价和索赔管理、资产管理和组合优化等。应用场景4：医疗健康医疗影像的合成数据对医疗AI领域的发展产生巨大推动作用。使用案例包含仿真的医疗案例数据训练医疗诊断模型、合成的基因组数据来进行医学研究、合成重大疾病病历数据以开展研究等。 04. 产业链及核心玩家分析 4.1 合成数据产业链结构合成数据产业链与生成式 AI 大模型的产业链类似，均可以分成算力模型基本层、算法模型训练中间层及场景应用层。大厂适合布局的环节应聚焦高投入、大算力需求、大数据量级、通用能力好的环节，因此适合布局在算力层、平台的基础层模型生产和训练等环节。其中，对模型进行行业化改造，提供API或改造后的模型。实际上这一功能由产业链上一环节的基础模型研发或者下一环节的应用软件层承担，尚未看到仅从事这一环节的公司，因此在模型优化与改进上仍有机会。初创企业适合入局的环节应聚焦在投入少、算力需求不高、中低数据量级、垂直/专业场景等环节，适合布局在中间层、应用层和平台层的数据平台环节。其中，应用软件与场景重建层更强调产品运营和商业落地能力，类似SaaS公司。这一环节在国内外已经涌现一部分初创公司，其价值在于提升专业用户生产力，商业模式将主要来自于订阅制或项目制收费。 4.2 合成数据核心玩家mapping 目前全球合成数据创业企业已达100家，比较知名、有影响力的包括AI.Reverie、Datagen、Sky engine、Mostly.ai、Synthesis AI、Gretel.ai、One view、Innodata、Cvedia等。合成数据的创业赛道主要涵盖非结构化数据（图片、视频、语音等）、结构化数据（表格等）、测试数据（test data）、开源服务等几大方向。非结构化合成数据持续保持强劲发展势头，原因在于计算机视觉应用场景相对成熟；并且有游戏引擎、图像建模软件、AIGC技术的支撑；自动驾驶汽车、零售、电子游戏等快速发展的产业对合成数据有较高需求。目前结构化数据合成和测试数据合成正在迅猛发展，尤其是合成的测试数据更少受到数据隐私立法的限制，所以开始得到业界青睐。此外，合成数据开源服务也在快速发展，例如Synthetic data vault、Synner、Synthea、Synthetig等。 05. 璞跃中国核心观点璞跃中国移动出行团队认为，由于当前数据瓶颈的问题，数据增强、迁移学习、数据合成、数据要素等市场，具有实现数据共享、数据反哺加速商业化飞轮的效应。同时，合成数据的技术突破、国家对生成式 AI的政策支持、巨头推动、生态建设、市场化教育均能够推动商业价值闭环。璞跃中国移动出行团队建议关注：具备落地AI提供自动化、物理精确可控、真实、可泛化的合成数据解决方案的初创企业。深耕垂直行业，围绕大客户案例，辐射所在行业做深场景的初创团队。在和行业保持深度绑定关系的同时，能够有相关信任进入接口，成为未来生成式 AI 整体内容平台下的特定应用工具，形成业务闭环。拥有多模态数据合成的能力，形成模型训练→产品应用→用户反馈→改进模型训练的正循环的初创团队。发送【移动出行玩家】加入移动出行行业交流群与更多志同道合的伙伴们共话移动出行点击图片，了解更多关于 Plug and Play China 璞跃中国璞跃(Plug and Play)是全球历史最悠久和区域及行业覆盖最广的科技孵化器之一，也是全球知名的科技创新生态平台。璞跃发源于硅谷，在全球布局了50多座创新中心，拥有20余年的科创投资、产业科技服务、科技孵化经验，公司曾成功早期孵化了Google，投资了PayPal、Dropbox等多家科技巨头公司，在全球每年投资超过200家科技公司。璞跃致力于在全球寻找、孵化、加速、投资、推广早期硬科技公司和项目，同时在全球与戴姆勒、松下、西门子、中外运、东风等500余家行业龙头企业开展基于其创新需求和文化生态的开放式创新合作和实践。 2016年，随着璞跃全球业务的拓展，璞跃中国(Plug and Play China)正式成立，在北京、上海、深圳、武汉等城市设立区域创新中心。当前，璞跃中国构建了国内领军的一站式科技投资、创新服务和孵化对接平台，开展早期科技投资、创新服务(企业创新、城市创新、国际合作)、孵化创新空间三类创新业务。璞跃中国构筑的创新平台，联接多维度的创新伙伴，催化创新生态效应发生。目前平台上活跃着超过160余家大企业，14000余家创业公司，100余位创新专家导师，60多家驻华使馆和海外机构，众多投资机构、海内外高校及科研院所等科创活跃力量。迄今璞跃中国已成功投资了包括ApplyBoard、AutoX、非夕科技等逾百家中国硬科技企业，年均孵化加速1000余家初创公司，累计促进创新技术的转化和应用的PoC案例近500项。了解更多信息请访问 www.pnpchina.com 责任编辑：

本文来自作者[一只子睿呀]投稿，不代表娱乐盟立场，如若转载，请注明出处：https://ylmeng.com/meiridongtai/202412-22197.html

3 4

本文作者

一只子睿呀签约作者

1 文章

136990 评论

1 粉丝

我是娱乐盟的签约作者[一只子睿呀],本篇文章《合成数据会是训练AI大模型的永动机么？》主要讲述了:越来越多的AI从业者认为，AI智能超越人类智能，大概率只是时间问题。现如今更大参数的模型，对算力...

未命名

过界的爱主题曲爱情睡醒了的主题曲

过界的爱主题曲我梦寐以求的爱。爱真好。从来没有过,对吧?多少次亲爱的?我越爱越深。只会让事情变得更糟。爱是努力去解决的。越找越远。被困在一个地方,就像迷路的人一样。看不见什么?在这个爱里,没有路可走。出口没有让我走。我的痛苦。不能告诉任何人和理解。在循环中,只有眼睛。从来没有从噩梦中醒来。只有没有答

小绣文吖
2024年10月12日
38
未命名

红姐统一免费图彩图图库_精彩对决解析_网页版v652.357

红姐统一免费图彩图图库在这个数字化和信息化飞速发展的时代，图像资源的获取和使用变得异常便捷。在这样的背景下，“红姐统一免费图彩图图库”应运而生，它是一个致力于提供免费、高质量图像资源的平台，旨在满足不同用户在设计、教育、媒体制作等领域的需求。“红姐统一免费图彩图图库”以其丰富的图像资源和便捷

facai369
2024年11月14日
16
每日动态

榨水县美食推荐榨水县美食推荐店

榨水县，一个位于中国南部的小县城，虽然名气不大，但这里的美食却足以让人流连忘返，榨水县的美食文化源远流长，融合了各地的特色风味，形成了自己独特的饮食风格，本文将为您详细介绍榨水县的几大美食，让您在品尝美食的同时，也能感受到这座小城的魅力。榨水豆腐榨水豆腐是榨水县的特色美食之一，这里的豆腐选用优质黄豆

一只怡博呀
2024年11月16日
6
旅游美食

6合之家资料大全澳门__精选解释落实-1564.CN.5

近年来，随着博彩行业的蓬勃发展，澳门作为亚洲知名的博彩中心，吸引了全球无数彩民的目光。在众多博彩形式中，澳门彩票无疑是一颗闪耀的明珠。如何在众多的号码和复杂的规则中寻找规律？如何精准预测结果？这些问题困扰着无数彩民。在这种背景下，“6合之家资料大全澳门”应运而生，成为广大彩民的得力助手。一站式服

一只子睿呀
2024年11月19日
7
玩车行家

澳门一肖一码一必中一肖同舟前进，缄舌闭口精选答案落实_突击版252.689

一、澳门一肖一码的历史与文化背景澳门一肖一码的历史可以追溯到其博彩业的兴起。自19世纪中叶以来，澳门逐渐成为亚洲乃至全球的博彩中心，这一地位的形成与其特殊的历史背景密不可分。澳门曾是葡萄牙的殖民地，这种独特的文化交融使得澳门在博彩业上形成了自己独特的风格。一肖一码的概念正是在这种文化背景下逐渐发展起

facai369
2024年11月21日
7
娱乐体育

正版马会精选资料大全，吉祥精选答案落实_SXD0.357

一、正版马会精选资料大全：权威数据解析正版马会精选资料大全汇集了权威数据解析，为用户提供精准的赛马信息。这些资料不仅包括历史赛果、骑师表现、马匹状态等基础数据，还深入分析了赛道条件、天气影响等变量，确保每一项数据都经过严格筛选和验证。通过这些详尽的数据，用户可以更科学地预测比赛结果，提升投注的准确性

一只东方呀
2024年11月22日
5
旅游美食

铁岭特产美食，品味独特风味铁岭特产美食有哪些

铁岭，位于中国东北的辽宁省，是一个充满魅力的城市，这里不仅有壮丽的自然风光，还有丰富的特产美食，铁岭的美食文化源远流长，融合了东北的独特风味和地方特色，形成了独具魅力的美食文化，本文将带您领略铁岭的特产美食，让您品味独特的味道。铁岭特色美食概览铁岭的特产美食种类繁多，各具特色，从传统的农家菜到现代的

玄静公子
2024年12月09日
13
综合问答

同比增长18.16%港股异动｜瑞声科技(02018)午后拉升逾5% 上半年纯利同比增近2.6倍至5.37亿元

智通财经APP获悉，瑞声科技(02018)午后拉升逾5%，截至发稿，涨3.69%，报30.95港元，成交额1.4亿港元。消息面上，瑞声科技披露截至2024年6月30日止六个月中期业绩，收入112.5亿元，同比增长22.0%；毛利24.1

一只天恩呀
2024年12月14日
3
每日动态

葛剑雄：“苏州阊门”

为什么明初有大量的苏州移民迁入苏北呢？在正史上至今还没有找到直接的记载，而在苏北流传最广的就是上引〔民国〕《续修盐城县志》的说法，即由于苏州是张士诚的据点，朱元璋久攻不下，因而在消灭张士诚政权后对当地居民采取了强制迁往苏北的报复性措施。县志的这一说法来自凌兰荪《凌氏族谱》，显然是以民间传说为

一只子睿呀
2024年12月21日
1
每日动态

史花卉的魅力与传承

在中华文化的瑰宝中，史花卉以其独特的魅力，成为了人们心中永恒的风景，它不仅是一种自然界的美丽存在，更是人类文明与自然和谐共生的象征，本文将带您走进史花卉的世界，探索其背后的文化内涵和历史渊源。史花卉的概述史花卉，顾名思义，是指具有历史意义的花卉，它们在漫长的岁月中，以其独特的形态、色彩和香气，成为了

浮生未歇
2024年12月23日
1