报告出品:华泰证券报告摘要生成:司马阅
中国人工智能(AI)大模型数据的竞争状态备受关注,其中优质中文数据集相对稀缺。
解决这一问题的方法包括数字中国战略的实施,刺激开源数据集的发展以及利用海外开源数据集。
为提升数据质量,不仅需要开发高质量数据集,还需投资数据生产和处理环节包括数据资产储备公司的商业化进程、行业数据价值高、具有大型模型能力的公司和优质客户的数据服务企业。
专业及垂直内容平台有望成为优质中文数据集的重要来源。中国科传从事科技图书、期刊等出版业务,是国内学科分布最全、出版规模最大的综合性科技出版机构。
此外,中文在线拥有超过510万种数字内容资源和440万余名网络原创驻站作者。
同时,保护数据隐私仍是重要的问题,监管和技术手段并举有助于防范数据隐私泄露。
总之,提高数据集质量和丰富度,加强数据管理和保护仍是中国AI发展的重要任务。
获取本文完整报告:免费领取获取更多AI前沿报告:加入AI先锋联盟社群