92
最近收盘市值(亿元)
最近收盘市值(亿元)
311.81
众问真实估值(倍)
众问真实估值(倍)
你好 👋, 这是调取相关机构调研会议后,结合网站相关观点框架做的总结,仅供您参考:
2026-06-08 公告,路演活动
接待于2026-06-07
- 毛利率提升原因:高毛利的政府平台类业务在本季度显著起量,人力密集程度更低、交付周期更短、边际成本递减效应更明显,带动整体毛利率增长。
- 后训练数据标注需求变化:从“量”到“质”与“复杂度”转变,需要高质量、细粒度、领域专家级的标注数据;聚焦“难例”与“长尾”场景。
- 具身数据核心竞争优势:硬件理解+驾驭壁垒(北京运营首个具身智能数据训练场,100+台机器人);模型理解与落地壁垒;综合数据工程化壁垒(全球化数据采集、自研AI自动化标注平台、7×24算法质检)。
- 具身数据赛道与需求逻辑:真机数据难以共用(硬件不统一、格式无标准),UMI和第一人称视角数据可跨本体迁移;客户选择外采因为数据工程重人力重流程,定位为“具身智能行业的数据富士康”;赛道比自动驾驶更长更宽,数据需求伴随机器人进家庭、进工厂的全过程。
2026-06-05 公告,路演活动
接待于2026-05-28
- WDO组织的影响与公司角色
- WDO填补全球数据治理空白,推动“规则+标准”并重,引入“集体数据治理”新范式。
- 降低跨境合规成本,目标实现“一次评估、多国互认”。
- 赋能全球南方国家,放大其在存储、算力、人力成本方面的优势。
- 海天瑞声作为AI数据领域唯一理事单位,定位深度参与全球数据治理,推动标准互认与全球化业务拓展。
- 数据需求变化与机器人数据特点
- 后训练与强化学习阶段,标注需求从“量”转向“质”与“复杂度”,需要领域专家级标注和偏好排序数据。
- 聚焦“难例”与“长尾”场景,模型初始成功率低的数据价值远超易例。
- 不同机器人厂商存在可共用数据:UMI和第一人称视角数据可跨本体迁移,真机数据因硬件不统一和格式缺乏标准难以共用。
- 具身智能赛道前景与数据服务需求
- 具身智能被列为未来产业重点,当前机器人“大脑”认知决策仍处早期,需要海量高质量真实物理交互数据作为训练“燃料”。
- 公司与国内头部具身厂商签署真机数据采集合约,并与多家厂商、科技大厂及地方政府启动订单对接。
- 具身智能数据赛道比自动驾驶更长、更宽,数据需求将伴随机器人进家庭、进工厂的全过程,公司定位为全行业数据基础设施。
- 公司财务表现与核心竞争壁垒
- 2026年第一季度营收9,677.93万元,同比增长38.63%,受益于AI应用爆发、ToG可信数据空间业务突破及东南亚交付基地产能爬坡。
- 毛利率同比提升因高毛利的政府平台类业务起量,标准化数据处理平台人力密集度低、交付周期短。
- 核心竞争壁垒:硬件理解与驾驭壁垒(运营100+台机器人训练场)、模型理解与落地壁垒(精准对齐机器人大脑训练范式)、综合数据工程化壁垒(全球化采集、AI自动化标注与7×24小时质检)。
2026-05-28 公告,路演活动
接待于2026-05-13
- 收入增长原因
- AI应用爆发与数据要素产业化万亿赛道:全球AI竞争加剧,高质量训练数据成为核心资源,公司作为国内AI数据服务头部企业,传统业务凭借全品类、规模化、高合规优势稳健增长。
- ToG可信数据空间业务突破:与国家级数据标注试点城市深度合作,提供全栈解决方案,开辟政务与公共数据新增长曲线。
- 东南亚数据交付基地产能爬坡:全球化交付能力与竞争力提升。
- 毛利率提升原因
- 高毛利政府平台类业务显著起量:G端客户的可信数据空间建设,核心是提供标准化程度较高的数据处理平台及方案,相比传统定制化业务人力密集程度更低、交付周期更短、边际成本递减效应更明显,因此毛利率水平更高。
- 高毛利业务收入结构占比明显提升:前期G端市场全面布局进入收获期,带动整体毛利率增长。
- 具身数据核心竞争优势
- 硬件理解与驾驭壁垒:通过头部主流本体厂商合作经验,深度理解本体硬件性能特性、负载逻辑与异构适配要点;已在北京运营首个具身智能数据训练场,依托100+台机器人实现高效数据产出。
- 模型理解与落地壁垒:核心团队拥有大模型开发等资深背景,数据体系精准对齐机器人大脑训练范式,提供具备高泛化能力的数据解决方案。
- 综合数据工程化壁垒:具备全球化数据采集与低成本交付资源;自研AI自动化标注平台与7×24小时算法质检,兼顾低成本与专家级质量。
- 不同机器人公司间可共用数据
- 真机数据难以直接共用:硬件本体不统一(不同厂家关节数量、自由度、末端执行器各异);数据格式各自为政,行业缺乏统一标准。
- UMI和第一人称视角数据相对容易跨本体迁移:不绑定具体机器人关节参数和运动学模型,采集的是“操作过程”本身,理论上可被不同机器人学习和泛化。
- 行业推动方向:让UMI和第一人称这类“本体无关”数据更多流通共用,同时通过技术对齐和标准统一逐步解决真机数据跨本体迁移问题。
- 具身智能数据服务需求逻辑
- 具身大脑需要海量真实物理交互数据:当前仿真环境无法完美模拟物理接触与长尾场景,海量、高泛化度的真实物理交互数据成为训练具身大脑的唯一“燃料”。
- 区别于传统自动化的根本逻辑:具身智能核心在于赋予机器人理解与泛化能力的“大脑”,是类似大模型“涌现”的范式变革。
- 客户为何外部采购数据
- 数据工程重人力、重流程、重管理:并非算法厂商的核心基因;自建数据团队边际成本高,且难以应对波峰波谷的弹性需求。
- 公司定位为“具身智能行业的数据富士康”:通过规模化、标准化、可伴随客户迭代而同步迭代的整体数据供应链能力,帮助客户剥离非核心业务,使其聚焦于算法与本体研发。
- 赛道持续性
- 比自动驾驶更长、更宽的赛道:自动驾驶主要解决避障与导航,具身智能需要解决非结构化环境下的复杂物理交互;当前甚至还未穷尽场景的定义。
- 定位为全行业数据基础设施:数据需求将伴随机器人进家庭、进工厂的全过程,旨在伴随行业全生命周期成长,而非短期套利。
2026-05-21 公告,路演活动
接待于2026-04-28
- 公司第一季度收入增长原因
- AI应用爆发与数据要素产业化提速:公司实现营业收入9,677.93万元,同比增长38.63%
- 传统业务稳健增长:凭借全品类、规模化、高合规优势
- ToG可信数据空间业务突破:与国家级数据标注试点城市深度合作,开辟政务与公共数据新增长曲线
- 东南亚数据交付基地完成产能爬坡:全球化交付能力与竞争力提升
- 公司毛利率提升原因
- 业务结构积极变化:高毛利的政府平台类业务显著起量,人力密集程度更低、交付周期更短、边际成本递减效应更明显
- 公司在具身数据领域的核心竞争优势
- 硬件理解+驾驭壁垒:深度理解本体硬件性能特性,已运营100+台机器人数据训练场
- 模型理解与落地壁垒:核心团队拥有大模型开发背景,数据体系精准对齐机器人大脑训练范式
- 综合数据工程化壁垒:全球化数据采集与低成本交付资源,自研AI自动化标注平台与7×24小时算法质检
- 不同机器人公司之间是否存在可以共用的数据
- 真机数据很难共用:硬件本体不统一、数据格式各自为政
- UMI数据和第一人称视角数据相对更容易跨本体迁移:不绑定具体机器人的关节参数和运动学模型
- 行业推动UMI和第一人称数据流通,逐步解决真机数据跨本体迁移问题
- 后训练和强化学习阶段对数据标注需求的变化
- 从“量”到“质”与“复杂度”转变:需要高质量、细粒度、领域专家级的标注数据
- 聚焦“难例”与“长尾”场景:难例价值远超易例,标注重点转向稀缺、复杂的边界案例
- 具身智能数据服务的需求逻辑
- 海量、高泛化度的真实物理交互数据成为训练具身大脑的唯一“燃料”:仿真环境无法完美模拟物理接触与长尾场景
- 客户为何不自己做数据而选择外部采购
- 数据工程是重人力、重流程、重管理的“苦活累活”:自建数据团队边际成本高,难以应对弹性需求
- 公司定位为“具身智能行业的数据富士康”:通过规模化、标准化、可伴随客户迭代的数据供应链能力,帮助客户聚焦算法与本体研发
- 具身智能数据赛道能做多久
- 比自动驾驶更长、更宽的赛道:需要解决非结构化环境下的复杂物理交互,数据需求将伴随机器人进家庭、进工厂的全过程
- 定位为全行业的数据基础设施,伴随行业全生命周期成长
- 语音业务的发展趋势
- 拟人化:多情感、多音色成为刚需,覆盖丰富的情感维度和音色特征
- 全球化:多语种能力决定产品边界,拥有覆盖全球300多种语言的工业化数据生产网络及境外标注基地
- 多场景:从通用场景向医疗、金融、教育、车载等垂直行业深度渗透,数据价值密度更高
2026-03-20 公告,路演活动
接待于2026-03-03
- 公司2025年收入增长的驱动因素是什么?
- 全球人工智能产业从“技术突破”迈向“规模化落地”,公司训练数据业务迎来强劲增长,其中视觉业务收入增长超过200%,文本业务收入增长超过100%,语音业务收入亦保持合理水平。
- 驱动这一高增态势的核心动能来自四重引擎:一是国内外科技巨头加速全球纵深布局,带动各类模态的多语种数据爆发增长;二是视觉大模型持续突破,推动高精度、场景化视觉数据投入持续加码;三是交互体验迈向拟人化,多情感、多角色、多音色的语音数据需求持续释放;四是垂直行业渗透加速,文旅、医疗、教育等领域垂类大模型落地提速,专业化、场景化数据需求日益凸显。
- 政府与国央企积极入局共建。25年,公司已为广西、四川等地打造多类特色数据集,并同步推进湖南、内蒙古等地的专项数据集建设。国务院国资委深入推进央企“AI+”专项行动,以运营商为代表的央企加快布局自主可控AI大模型,数据资源投入力度持续加大。
- 公司新拓展的东南亚数据交付体系已进入成熟运营阶段,为境外收入贡献了可观的持续性增量。公司积极尝试向下游应用环节延伸,成功拓展数字人研发及音色模型平台重大项目。
- 公司在境外基地方面的布局计划如何?
- 公司于2024年整合了位于东南亚的一个超过1000人的标注基地。该基地主要提供数据标注服务,2025年该基地贡献千万级美元收入。
- 计划于2026年在东南亚地区继续推进自主可控的数据基地建设,预计到2026年底,境外基地总人数将再新增300-500人左右。
- 该类基地建设为公司未来承接中国一线科技公司的出海业务、以及北美头部客户的定制化大型订单提供了关键的基础保障。
- 境外传统训练数据业务的驱动因素是什么?
- 随着全球化AI应用场景的快速落地,市场对高质量、多语种、场景化训练数据的需求持续提升。
- 驱动需求的产品线主要包括但不限于:(1)多语种语音识别数据;(2)多语种手写体数据;(3)多语种文本数据。
- 公司凭借在多语言、多模态数据处理领域长期积累的全球供应链管理能力和技术know-how,正在持续获取并交付此类项目,从而推动境外数据业务的快速发展。
- 政府类业务布局和进展如何?
- 与地方政府的合作已形成清晰的模式:一是基于地方特色数据(如农业、文旅)建设行业高质量数据集;二是搭建可信数据空间,保障数据安全;三是参与建设数据交易平台,促进数据流通;四是向下游延伸,开展场景化模型开发与应用落地。
- 公司已与成都、长沙等国家级数据标注基地试点城市建立合作,同时与广西、呼和浩特、保定、彭州等地方政府已启动具体项目推进。
- 25年,公司已完成呼和浩特首批高质量行业数据集,以及首批广西东盟语料库数据的交付。
- 请问公司如何看待具身智能数据业务?海天在该方向上有具体的计划吗?
- 公司高度看好具身智能数据这一新兴赛道,已将其作为战略重点进行前瞻布局,并组建了专项团队加快业务落地。
- 从市场需求看,国内外头部科技企业与本体厂商已启动规模化数据采购,需求覆盖真实场景交互数据、第一人称视角数据、umi数据、仿真数据等。部分地方政府正积极规划“具身智能训练场”。
- 目前,公司已与国内某头部具身厂商签署真机数据采集合约,并与多家头部具身厂商、科技大厂及地方政府启动订单对接,正稳步推进样例数据方案的设计与落地。
- 请介绍一下公司在训练数据领域的竞争优势
- 公司的业务模式是服务产品双模式,且产品化贡献显著,是收入和毛利的主要来源,标准化数据集的研、产、销体系是公司从业多年探索出来的业务模式,其复用性为公司的规模化和高利润率提供了保障。
- 技术平台能力:公司历来重视技术的研发,近年来更是加大研发投入的力度,全面提升公司的算法能力、平台能力、工程化能力,加深算法辅助能力与人工工作的结合,达到更佳的人机协同效率。
- 供应链资源管理能力:公司通过长期建设的供应链体系,保障资源的获取,未来会进一步加大供应链资源平台的建设。
- 数据安全及合规能力:公司已形成了较为成熟的安全、合规管理体系。通过了ISO/IEC 27001体系认证、ISO27701个人隐私信息安全管理体系认证,获得了北京市规划和自然资源委员会行政许可的乙级测绘资质,获得等保三级备案证明,符合GDPR、《数据安全法》、《个人信息保护法》等一系列国际通用与国内法律法规的管理规范要求。
- 客户是否会自建数据团队?
- 有一些客户是会有自建团队的,客户自建团队主要解决其自身的部分数据需求,如敏感数据等。
- 受专业化分工的影响,客户仍然会大量购买数据服务提供商的数据,尤其是那些需要投入较高研发力量的复杂数据,以充实其算法模型训练的规模性需求。
- 训练数据产品和服务的定价模式、收费模式是什么样的?价格变动趋势如何?
- 定制服务定价模式:一般采用成本加成定价法。公司根据客户的具体服务需求预估项目成本,在预估成本的基础上,参考公司制定的指导毛利率水平,结合项目技术难度、复杂程度、时限要求等进行报价。
- 产品定价模式:一般采用需求导向定价法。公司综合考虑训练数据集的开发支出、市场需求程度、预计未来重复销售的频率等因素,制定产品标准价格及价格区间。训练数据产品通常以单个数据集为单位进行定价。
- 价格走势主要由市场的供需关系决定。如果某类数据为市场稀缺数据,例如具有较高进入壁垒的多模态、虚拟人等前沿类数据需求、或传统业务里的多语种数据,都可在一定时间内维持较高的溢价水平。但在较为成熟的细分方向,比如中文智能语音数据领域,确实存在进入者增多、价格竞争的情况。
- 训练数据产品、定制服务对公司有怎样的意义?
- 拥有海量自有知识产权训练数据产品集群是公司区别于众多竞争对手的显著优势,公司已沉淀下超1,800个自有知识产权的数据集产品,通过开发大量通用型、复卖率高的标准化产品数据集为公司的规模化和高利润率提供了保障。
- 训练数据定制服务是公司收入的重要来源,而且在提供训练数据定制服务过程中,公司会接触到各种类型的数据,帮助公司了解行业最新的技术路线和需求,同时,该等数据会在公司的采集加工平台上进行处理,对公司的算法提升和平台的工程化能力都提供了很好的学习资源,是研发迭代的较强助力。
2026-02-10 公告,分析师会议,路演活动
接待于2026-01-15
- 境外基地布局计划
- 2024年整合东南亚一个超过1000人的标注基地,提供内容审核和数据标注服务
- 预计2025年该基地贡献千万级美元收入
- 计划2026年在东南亚建设第二个本地化交付基地,预计到2026年底境外基地总人数再新增500人左右
- 基地建设为承接中国一线科技公司出海业务及北美头部客户定制化大型订单提供关键基础保障
- 境外传统训练数据业务驱动因素
- 为境外多家头部科技大厂的全球AI产品本地化及出海提供关键多语种、多模态数据支撑
- 驱动需求的产品线包括:多语种语音识别数据、多语种手写体数据、多语种文本数据
- 凭借在多语言、多模态数据处理领域长期积累的全球供应链管理能力和技术know-how,持续获取并交付此类项目
- 政府类业务布局和进展
- 与地方政府合作模式:基于地方特色数据建设行业高质量数据集;搭建可信数据空间;参与建设数据交易平台;向下游延伸开展场景化模型开发与应用落地
- 已与成都、长沙等国家级数据标注基地试点城市建立合作,与广西、呼和浩特、保定、彭州等地方政府已启动具体项目推进
- 2024年第三季度已完成呼和浩特首批高质量行业数据集及首批广西东盟语料库数据的交付
- 具身智能数据业务看法与计划
- 非常看好具身智能数据领域作为高增长的新兴赛道,已组建具身智能数据专项团队开展相关业务
- 开始在全国多个城市启动专项公司的选址
- 已与多家机器人本体厂商展开合作,并与若干家头部科技大厂及地方政府启动订单需求对接
- 正在推进相关样例数据交付与训练场方案的设计与落地
- 训练数据领域竞争优势
- 业务模式是服务产品双模式,产品化贡献显著,是收入和毛利的主要来源
- 技术平台能力:加大研发投入力度,全面提升算法能力、平台能力、工程化能力
- 供应链资源管理能力:通过长期建设的供应链体系保障资源获取
- 数据安全及合规能力:形成了较为成熟的安全、合规管理体系,通过了ISO/IEC 27001、ISO27701认证,获得乙级测绘资质、等保三级备案证明,符合GDPR、《数据安全法》、《个人信息保护法》等法规要求
- 海天瑞声的价值体现
- 对于客户算法预标注的数据,依赖第三方服务商进行更高难度、更精细化的处理以达到更高数据准确率
- 在部分场景下具有更优的算法预标注能力,算法迭代速度更快,以人机藕合方式使预标注算法在最短时间内实现快速迭代
- 对于行业较为前沿、愈加丰富的数据需求或标注场景,客户仍依赖专业的第三方数据服务机构
- 业务规模效应
- 自研平台能力提升,赋能数据处理人机协作更智能化,使更大规模数据生产成为可能
- 数据产品积累、平台及工具研发,在业务规模上升时,相关研发费用、管理费用将被摊薄
- 成本控制:加大技术投入,采用更合理的人机协同比例降低人员投入、提高效率;加强供应链资源管理能力,扩大资源供给,降低单位成本
- 开发大量通用型、复卖率高的标准化产品数据集,反复带来利润,实现训练数据产品的规模化效应
2026-01-15 公告,分析师会议
接待于2026-01-12
“`html
- 公司在境外基地方面的布局计划如何?
- 公司于2024年整合了位于东南亚的一个超过1000人的标注基地,主要提供内容审核和数据标注服务。
- 预计2025年该基地将贡献千万级美元收入,标志着公司境外交付能力建设进入了新阶段。
- 计划于2026年在东南亚地区建设第二个本地化交付基地,预计到2026年底,境外基地总人数将再新增500人左右。
- 该类基地建设为公司未来承接中国一线科技公司的出海业务、以及北美头部客户的定制化大型订单提供了关键的基础保障。
- 境外传统训练数据业务的驱动因素是什么?
- 公司持续为境外多家头部科技大厂的全球人工智能产品的本地化及出海提供关键的多语种、多模态数据支撑。
- 随着全球化AI应用场景的快速落地,市场对高质量、多语种、场景化训练数据的需求持续提升。
- 驱动需求的产品线主要包括:多语种语音识别数据、多语种手写体数据、多语种文本数据。
- 公司凭借在多语言、多模态数据处理领域长期积累的全球供应链管理能力和技术know-how,正在持续获取并交付此类项目,从而推动境外数据业务的快速发展。
- 政府类业务布局和进展如何?
- 与地方政府的合作已形成清晰的模式:一是基于地方特色数据(如农业、文旅)建设行业高质量数据集;二是搭建可信数据空间,保障数据安全;三是参与建设数据交易平台,促进数据流通;四是向下游延伸,开展场景化模型开发与应用落地。
- 公司已与成都、长沙等国家级数据标注基地试点城市建立合作,同时与广西、呼和浩特、保定、彭州等地方政府已启动具体项目推进。
- 今年第三季度,公司已完成呼和浩特首批高质量行业数据集,以及首批广西东盟语料库数据的交付。
- 请问公司如何看待具身智能数据业务?海天在该方向上有具体的计划吗?
- 公司非常看好具身智能数据领域作为高增长的新兴赛道,已组建具身智能数据专项团队开展相关业务,并开始在全国多个城市启动专项公司的选址。
- 国家已将具身智能列为未来产业予以重点培育,市场潜力巨大。
- 当前,国内、外多家头部科技企业已启动具身智能数据的规模采购,同时部分地方政府也在积极规划建设“具身智能训练场”。
- 公司已与多家机器人本体厂商展开合作,并与若干家头部科技大厂及地方政府启动订单需求对接,正在推进相关样例数据交付与训练场方案的设计与落地。
- 请介绍一下公司在训练数据领域的竞争优势
- 业务模式是服务产品双模式,且产品化贡献显著,是收入和毛利的主要来源,标准化数据集的研、产、销体系是公司从业多年探索出来的业务模式。
- 技术平台能力:公司历来重视技术的研发,全面提升公司的算法能力、平台能力、工程化能力,加深算法辅助能力与人工工作的结合,达到更佳的人机协同效率。
- 供应链资源管理能力:公司通过长期建设的供应链体系,保障资源的获取,未来会进一步加大供应链资源平台的建设。
- 数据安全及合规能力:公司已形成了较为成熟的安全、合规管理体系,通过了ISO/IEC 27001体系认证、ISO27701个人隐私信息安全管理体系认证,获得了北京市规划和自然资源委员会行政许可的乙级测绘资质,获得了等保三级备案证明,符合GDPR、《数据安全法》、《个人信息保护法》等一系列国际通用与国内法律法规的管理规范要求。
- 客户是否会自建数据团队?
- 有一些客户是会有自建团队的,主要解决其自身的部分数据需求,如敏感数据等。
- 受专业化分工的影响,客户仍然会大量购买数据服务提供商的数据,尤其是那些需要投入较高研发力量的复杂数据,以充实其算法模型训练的规模性需求。
- 训练数据产品和服务的定价模式、收费模式是什么样的?价格变动趋势如何?
- 定制服务定价模式:一般采用成本加成定价法,根据客户的具体服务需求预估项目成本,在预估成本的基础上,参考公司制定的指导毛利率水平,结合项目技术难度、复杂程度、时限要求等进行报价。
- 产品定价模式:一般采用需求导向定价法,综合考虑训练数据集的开发支出、市场需求程度、预计未来重复销售的频率等因素,制定产品标准价格及价格区间。
- 价格走势主要由市场的供需关系决定。如果某类数据为市场稀缺数据,例如具有较高进入壁垒的多模态、虚拟人等前沿类数据需求、或传统业务里的多语种数据,都可在一定时间内维持较高的溢价水平。但在较为成熟的细分方向,比如中文智能语音数据领域,确实存在进入者增多、价格竞争的情况。
- 未来公司将主攻有较高技术壁垒,存在较大毛利空间的细分场景,尽力避免价格竞争带来的过度消耗。
“`
2025-12-01 公告,分析师会议
接待于2025-11-18
- 1、公司三季度收入增长的原因是什么?
- 境内市场:文生视频技术在内容创作、影视制作、广告营销等领域深入应用,推动对高质量多模态训练与精细化评测数据的旺盛需求;政企侧业务布局初见成效,多语种文本类业务开始持续贡献收入。
- 境外市场:海外科技巨头对高质量、多语种的OCR识别与多语言文本理解数据需求增长强劲;东南亚本地化数据交付体系进入稳定运营阶段,成功开拓定制化数据服务市场。
- 共同推动:境内外业务的协同发力,共同推动了公司三季度整体收入的提升。
- 2、25年第三季度公司的收入增速相较于前几个季度增速略有下滑,请问主要原因是什么?
- 主要原因:部分大额政府项目收入节点确认影响。
- 项目状态:相关项目均正常履约、推进。
- 后续影响:预计相应收入将在第四季度或期后陆续确认,带动四季度单季度收入增速提升,并有望带动公司2025年全年收入实现较好增长。
- 3、公司第三季度毛利率为何同比出现下滑?
- 主要原因:毛利率较高的标准化数据集产品收入占比下降。
- 4、请问目前公司政府类业务进展如何?
- 合作模式:基于地方特色数据建设行业高质量数据集;搭建可信数据空间;参与建设数据交易平台;向下游延伸,开展场景化模型开发与应用落地。
- 项目进展:已与成都、长沙、保定等国家级数据标注基地试点城市建立合作;与广西、呼和浩特地方政府已启动具体项目推进。
- 交付成果:第三季度已完成呼和浩特首批高质量行业数据集,以及首批广西东盟语料库数据的交付。
- 5、公司在菲律宾基地收入持续增长,请问这块业务未来的规划如何?是否会考虑在海外拓展其他类似基地?
- 未来规划:基于在东南亚基地的成功经验,下一步会考虑极规划在东南亚其他地区拓展类似基地。
- 拓展目的:持续为公司带来稳定的收入和利润增量;进一步推动海外定制业务的发展,并重点开拓高端数据标注市场。
- 6、请问公司如何看待具身智能数据业务?海天在该方向上有具体的计划吗?
- 公司看法:非常看好具身智能数据领域作为高增长的新兴赛道;市场潜力巨大。
- 具体计划:已组建具身智能数据专项团队开展相关业务,并开始在全国多个城市启动专项公司的选址。
- 市场与进展:国内、外多家头部科技企业已启动具身智能数据的规模采购;部分地方政府在积极规划建设”具身智能训练场”。公司已与多家机器人本体厂商展开合作,并与多家头部科技大厂及地方政府启动订单需求对接,正在推进相关样例数据交付与训练场方案的设计与落地。
- 7、请介绍一下公司在训练数据领域的竞争优势
- 业务模式:服务产品双模式,产品化贡献显著;标准化数据集的研、产、销体系;截至2025年6月末,已积累近180个自有知识产权的训练数据标准化产品。
- 技术平台能力:加大研发投入,全面提升算法能力、平台能力、工程化能力,加深算法辅助能力与人工工作的结合。
- 供应链资源管理能力:通过长期建设的供应链体系保障资源获取;未来会进一步加大供应链资源平台的建设。
- 数据安全及合规能力:形成了较为成熟的安全、合规管理体系;通过了ISO/IEC 27001、ISO27701认证;获得乙级测绘资质和等保三级备案证明;符合GDPR、《数据安全法》、《个人信息保护法》等规范要求。
- 8、标品化的产品数据集业务与定制化服务业务的区别是什么?客户会如何选择?
- 区别:产品数据集是先于客户需求形成的模拟数据,一次性投入、未来重复授权销售;定制业务的需求来源是客户的定向化需求,公司提供纯加工的服务。
- 客户选择:客户AI产品上线之前及初期,通常采购模拟型数据集;产品上线产生实网数据后,则提供实网数据进行数据加工;产品功能或语种拓展时,再次购买模拟数据集,后续再采购数据加工服务。
- 公司方案:产品+服务的组合是公司向市场提供的综合解决方案,服务于不同客户的不同研发阶段需求。
- 9、训练数据产品和服务的定价模式、收费模式是什么样的?价格变动趋势如何?
- 定制服务定价模式:一般采用成本加成定价法。
- 产品定价模式:一般采用需求导向定价法。训练数据产品通常以单个数据集为单位进行定价。
- 价格走势:主要由市场的供需关系决定。市场稀缺数据可维持较高溢价水平;成熟细分方向存在价格竞争。未来公司将主攻有较高技术壁垒、存在较大毛利空间的细分场景。
2025-11-10 公告,特定对象调研,分析师会议
接待于2025-11-05
- 收入增长原因:境内境外业务协同发力
- 境内业务:文生视频技术应用推动高质量多模态训练数据需求,政企侧业务布局初见成效
- 境外业务:海外科技巨头对多语种OCR识别需求增长,东南亚本地化数据交付体系稳定运营
- 收入增速下滑:部分大额政府项目收入节点确认影响
- 项目状态:正常履约推进,预计第四季度或期后陆续确认
- 预期:带动四季度单季度收入增速提升,2025年全年收入实现较好增长
- 毛利率下滑:毛利率较高的标准化数据集产品收入占比下降
- 政府业务模式:基于地方特色数据建设行业数据集,搭建可信数据空间,参与建设数据交易平台,开展场景化模型开发
- 项目进展:与成都、长沙、保定等国家级数据标注基地试点城市合作,与广西、呼和浩特地方政府启动具体项目
- 交付成果:完成呼和浩特首批高质量行业数据集,首批广西东盟语料库数据交付
- 菲律宾基地规划:考虑在东南亚其他地区拓展类似基地
- 拓展目标:带来稳定收入和利润增量,推动海外定制业务发展,开拓高端数据标注市场
- 具身智能数据:已组建专项团队开展业务,在全国多个城市启动专项公司选址
- 市场潜力:国家列为未来产业重点培育,依赖高质量细颗粒度训练数据
- 业务进展:与多家机器人本体厂商合作,与头部科技大厂及地方政府启动订单需求对接
- DeepSeek-OCR影响:多模态解决方案需求提升,数据质量与专业深度提升
- 行业变革:从纯文本语料转向高质量图文对数据,数据价值由信息密度、标注精度决定
- 竞争优势:服务产品双模式,技术平台能力,供应链资源管理能力,数据安全及合规能力
- 产品化成果:近180个自有知识产权训练数据标准化产品,数据库存量全球企业前列
- 资质认证:ISO/IEC 27001体系认证,ISO27701个人隐私信息安全管理体系认证,乙级测绘资质,等保三级备案
- 对比客户自建团队优势:项目经验丰富,数据处理算法平台成熟,更高性价比
- 规模效应:自研平台能力提升赋能更大规模数据生产,研发管理费用摊薄
- 成本控制:加大技术投入提高人机协同效率,加强供应链资源管理降低单位成本
- 产品优势:开发通用型标准化产品数据集实现规模化效应
2025-11-04 公告,特定对象调研,业绩说明会
接待于2025-10-20
- 三季度收入增长原因
- 境内业务:文生视频技术应用推动高质量多模态训练与精细化评测数据需求,政企侧多语种文本类业务贡献收入
- 境外业务:海外科技巨头对多语种OCR识别与文本理解数据需求增长,东南亚本地化数据交付体系稳定运营
- 收入增速下滑原因
- 部分大额政府项目收入节点确认影响,项目正常履约推进
- 预计收入将在第四季度或期后陆续确认
- 毛利率下滑原因
- 毛利率较高的标准化数据集产品收入占比下降
- 政府类业务进展
- 合作模式:建设行业高质量数据集、搭建可信数据空间、参与建设数据交易平台、开展场景化模型开发
- 项目进展:与成都、长沙、保定等试点城市合作,完成呼和浩特行业数据集和广西东盟语料库数据交付
- 菲律宾基地规划
- 考虑在东南亚其他地区拓展类似基地
- 目标:带来稳定收入和利润增量,推动海外定制业务发展,开拓高端数据标注市场
- 具身智能数据业务
- 已组建专项团队,启动全国多城市选址
- 市场需求:机器人认知决策依赖高质量训练数据,国内外头部科技企业启动规模采购
- 业务进展:与机器人本体厂商合作,与科技大厂及地方政府对接订单需求
- 文生视频领域竞争优势
- 市场需求:高质量视频-文本对数据严重短缺,每年需数千万对图像/视频-文本数据
- 公司优势:国内头部视频模型厂商核心数据供应商,积累文生视频标注经验,构建专业标注团队
- 科技类企业需求
- 当前需求:多语种数据包括语音识别、手写体及文本数据
- 未来增量:多语种数据持续旺盛,高端专业化数据快速增长,交互自然度数据显著提升
2025-10-09 公告,业绩说明会
接待于2025-10-09
- 毛利率下降原因:业务类型阶段性变化,定制化服务收入占比提升;境外内容审核业务全部采用定制化服务模式;央企客户行业数据需求高度差异化
- 华为合作进展:昇腾DeepSeek数据飞轮智能体整合进华为昇腾一体机;参与陕西智慧文旅项目建设高质量文旅数据集、构建AI文旅垂直大模型
- 海外市场拓展计划:并购菲律宾交付基地构建海外标注产能;在香港、新加坡和美国设立区域子公司;推进日本、韩国及欧盟子公司落地
- 具身智能数据收集方式:互联网开源数据集;虚拟合成;动作捕捉;机器人遥操
- 核心竞争力:服务产品双模式,标准化数据集研产销体系;技术平台能力;供应链资源管理能力;数据安全及合规能力
- 数据要素业务进展:与多地政府、地方运营商开展战略合作;联合高校培训数据标注人才;助力地方打造数据标注基地;已与成都、长沙、保定成立合资公司
- 具身智能布局:依托多模态数据能力;共建”具身智能数据训练场”;发布全国首个具身智能数据工程化服务平台
- 运营商业务进展:成为中国移动重要数据服务供应商;参与中国移动人工智能焕新社区建设;聚焦数据要素建设
- 收入结构变化:计算机视觉业务占比40%;自然语言业务占比14%;计算机视觉和自然语言业务占比提升
- 主要收入增长点:2025年上半年收入增长69.54%;计算机视觉、自然语言和智能语音三大业务板块全面增长;东南亚数据交付体系稳定运营
2025-09-03 公告,分析师会议
接待于2025-08-31
- 2025年上半年收入增长69.54%:全球AI技术快速发展和商业化落地,计算机视觉、自然语言和智能语音三大业务板块全面增长
- 计算机视觉业务:视觉理解与生成技术突破加速AIGC多模态内容生成、OCR识别、数字人、多模态数据评估等场景规模化应用
- 自然语言业务:大模型语义理解、政务、法律合规等场景应用落地及海外巨头全球化扩张推动专业文本和平行语料需求增长
- 智能语音业务:科技巨头国际化战略持续落地带动高质量多语种语音数据旺盛需求;东南亚数据交付体系稳定运营拓展海外定制服务市场
- 收入结构变化:计算机视觉占比40%、自然语言占比14%,同比提升
- 计算机视觉增长原因:视觉大模型技术迭代和应用场景拓展,图像/视频文本对数据需求爆发;东南亚交付体系稳定运营
- 自然语言增长原因:大模型技术在政务/法律合规领域深度应用,全球化扩张带来多语言语料需求激增
- 智能语音业务:保持稳定增长但增速平缓
- 华为合作进展:昇腾DeepSeek数据飞轮智能体 – 在华为昇腾一体机整合数据飞轮智能体平台、DOTS标注平台及AI研发平台,解决企业数据安全问题
- 陕西智慧文旅项目:与华为、陕文投集团合作打造文旅行业示范项目,建设高质量文旅数据集和AI文旅垂直大模型,提供数据及场景化解决方案
- 运营商合作:成为中国移动重要数据服务供应商;参与中国移动牵头的人工智能焕新社区建设,作为唯一数据服务企业聚焦数据要素建设
- 合作背景:国务院国资委部署中央企业”AI+”专项行动,运营商加速布局通用+垂向大模型研发,带动高质量图像视频训练数据规模化采购
- 数据要素业务进展:聚焦三类模式 – 与多地政府、地方运营商合作探索数据要素市场化与产业化路径,构建”数据可信空间”
- 人才培养:联合高校培训数据标注人才,提升就业率夯实数字经济发展基础
- 产业生态:助力地方及产业园区打造数据标注基地和构建产业新生态;已与成都、长沙、保定成立合资公司,与呼和浩特签署战略协议共建特色产业数据集
- 业务拓展:正积极拓展与上海、广州、宜宾等十余地战略合作,完善标注基地全国性布局
- 海外市场布局:并购菲律宾交付基地构建海外标注产能,拓展定制化服务;在香港、新加坡和美国设立区域子公司,推进日本、韩国及欧盟子公司落地
- 市场机遇:Meta收购Scale AI,Google、微软等切断与Scale AI合作,海外AI数据服务市场格局重塑
- 具身智能数据需求:产业从技术验证迈向场景应用,对训练数据质量、规模和场景化要求更高
- 公司布局:依托多模态数据能力提供训练支持;携手石景山人形机器人数据训练中心共建”具身智能数据训练场”;发布全国首个具身智能数据工程化服务平台
- 核心竞争力:服务产品双模式,产品化贡献显著是收入和毛利主要来源;拥有近1,800个自有知识产权训练数据标准化产品
- 技术平台能力:加大研发投入提升算法能力、平台能力、工程化能力,优化人机协同效率
- 供应链资源管理能力:长期建设供应链体系保障资源获取,加强人员管理、资源分配、质量检验、远程工作能力
- 数据安全及合规能力:形成成熟的安全、合规管理体系