伴随着数字中国建设的推进,我国数字经济迈向了全面扩展期,数据成为了新的生产要素。AGI(Artificial General Intelligence ,通用人工智能)的发展更进一步催生海量数据。
日前召开的2024年全国数据工作会议显示,经初步测算,2023年我国数据生产总量预计超32ZB。这表明我国已是全球数据大国,让流动的数据创造更多价值是未来方向。
而对于看不见摸不着的海量数据,如何才能运用好?数据标注就为数据采集、存储处理提供了方法。从概念上看,数据标注是在机器学习中,对原始数据(如图片、文本文件、视频等)进行分类和标记的过程。这些标记为数据添加了有意义的信息,使得机器学习模型能够从中学习。
上述会议指出,接下来,我国将开展数据标注基地试点。探索建设国家级数据标注基地,充分发挥地方配套支撑作用,在数据标注产业的生态构建、能力提升和场景应用等方面先行先试,集聚龙头企业,促进区域人工智能产业生态发展。
为何需要数据标注
数据标注就像是为机器学习“划重点”和“笔记讲解”。
赛迪顾问数字转型研究中心副总经理于凯迪告诉第一财经,比如我们想让AI创作图画,首先需要让它先学习和识别每幅画画的是什么、颜色是什么、有什么实体在里面,然后AI才能通过这些详细的注解学会模仿并创作出相似的画作。AI的文字生成也是一样,AI需要了解文本数据的情感色彩和使用场景,才能够学会按照不同的情感要求去生成新的句子或文章。没有这些“重点”和“笔记”,机器学习的效率、质量和准确性会受到影响。尽管近年来无监督学习和半监督学习技术也在不断发展,但数据标注依然是精准实现生成式AI的重要因素。
在新兴信息通信技术应用研究院首席专家贺仁龙看来,人工智能是要构建一个世界知识体系,而人类的世界知识体系是能理解万事万物的。我们通常的原始数据大部分是非结构化的数据。“比如文字、语音、视频,这些都是非结构化数据。而标注是用人构建的知识体系去给它们打标签,那首先就要理解这个语义,标注如果不对,就可能指鹿为马。”
数据是多样且复杂的,《数字中国发展报告(2022年)》显示,2022年我国数据产量达8.1ZB,同比增长22.7%,全球占比达10.5%。尽管已经出现了各种AI自动化的数据处理方式,但数据标注仍然是一种非常有用的方法。它的优势在于可以提供高质量、高准确度的数据,并且能够灵活地应对不同的数据类型和任务。因此,数据标注这个行业也能为各种人工智能系统提供高质量的数据支持。
根据Grand View Research的报告,2022年全球数据收集和标注市场规模为22.2亿美元,预计2023年到2030年将以28.9%的复合年增长率增长。2022年全球数据标注解决方案和服务市场规模为118.3亿美元,预计2023年到2030年的复合年增长率为21.3%。在中国,数据标注市场也在迅速增长。根据华经产业研究院的数据,2021年我国数据标注行业市场规模达到43.3亿元,同比增长约19.2%,预计到2029年市场规模将达到204.3亿元。
标注人才需求量提升
随着技术的进步和市场需求的增加,数据标注行业也在向知识密集型转变,这意味着对于高学历和专业技能的需求将会增加。
贺仁龙对记者解释道,要构建知识体系,就要对世界对象进行人类认识的标注,好比小孩的认识教育,认识自然数、认识物件桌子是桌子等,这是构建知识体系的最基本的要素,所以有数据标记的产业链,基础大模型就是要构建人类世界知识体系,尤其是常识和逻辑等。“我们通常还有行业或者垂类的模型,比如金融、材料、医学等,这些行业的基础标注就不是我们说的自然界和日常生活大家熟知的对象标注了,这里涉及专业的对象和术语结合的标注过程,就要专业领域的从业人员来标注了。”
根据猎聘大数据研究院今年发布的《2023年度就业趋势数据报告》(下称《报告》),AIGC工具推广提升职场人竞争力、ChatGPT热让数据标注人才需求大幅提升。
《报告》显示,数据标注此前较少有人关注,当ChatGPT火爆全球后,其需求量大幅增长,2023年较2022年增长34.43%。从行业分布来看,数据标注新发职位主要集中于互联网、计算机软件、人工智能三大行业,占比为29.65%、12.7%、9.96%。
出门问问创始人兼CEO、前Google总部科学家李志飞在《报告》中称,以GPT为代表的生成式AI的这场风暴带来了AI落地应用的生机,尤其是AIGC方向。虽然基础大模型本身原则上不需要标注,但大模型赋能各种场景应用的工作离不开各种数据标注,数据标注岗位的增长就是这种需求的反应。
数据标注在其中主要有两个作用,一是作为训练语料用来微调(fine tune)大模型,以适应场景应用的目标;二是作为测试数据用来评测应用的数据质量。“没有数据标注,应用的研发就是盲目的。需要数据标注工作的,无论是内部标注还是外包工作,主要是大模型及其AI应用的开发企业。”他认为。
于凯迪告诉记者,数据标注涉及的需要标注的内容很丰富,从日常通用的图像和文本信息,到医疗、外语、金融等专业细分领域的复杂数据均有涉及,所以在技能要求层面的吸纳性很强,各个学历层次的人员都可以从事数据标注师的职业。
《报告》显示,数据标注的职位招聘平均年薪为12.38万元。从猎聘平台来看,不同类别的数据标注招聘薪资差别较大,从月薪1万元以下,到1万以上、2万~4万元不等。猎聘AIG部门负责人莫瑜表示,一般数据标注岗位仅涉及日常文本和图像,薪资相对低些;相应的,偏专业领域如法律、医疗、跨境电商外语方面的数据标注薪资则较高。