现在各地都努力建设数字化产业,提升高技术处理数据能力,而人工智能数据准备和AI数据准备就变得越来越重要,不管是大数据说法,还是数据湖说法,其实都是把业务数据转化成人工智能AI决策系统能够识别的输入格式,或者就是开始时就设计成人工智能AI能够适用的格式,包含一些人工智能系统需要的参数列。
前面讲过一个Java象棋的小人工智能程序,每个棋子有x、y和颜色这样的数据,这些数据是人工智能判断走棋的基础,没有这些数据就没有这个象棋人工智能。
软件在处理语音识别数据时,遇到了各种不同的模型,上个模型的结果是下个模型的输入,第一步的数据是wav和txt,但是这里不是一个wav和txt,是几十万个,人一过万,无边无际,数据量大了,也是这样,数据多了就容易出错,出错你就要审核,审核也要涉及人工,审核会消灭80%的问题,但是训练时还有可能有20%的问题,所以人工智能AI数据准备是非常复杂的任务。
大的数据架构跨多个行业,多个方向,多个职能部门,多个软件平台,没有实际的处理经验,只凭一些PPT或图表很难把握。
初学者学习人工智能数据准备和AI数据准备,可以参考微软的例子,里面代码里就带有数据,可以帮初学者理解人工智能数据准备和AI数据准备。
最近比较流行的人工智能数据AI数据准备事件是AI换脸,是把脸部的数据扫描后,才能换成功,不是说凭空想换就换。