DxChain中文博客

「火星公开课」第133期|Allan Zhang:用区块链驱动人工智能


区块链会带来高质量数据的爆发,这是中小项目和公司的机会。

人工智能、区块链无疑是当下最为热门的技术。前者代表先进的生产力,后者代表新的生产关系。

那么,当人工智能遇上区块链,究竟会碰撞出什么样的火花呢?

7月28日22:00,应「火星财经创始学习群」轮值群主向亚贞、副群主徐英凯邀请,DxChain创始人Allan Zhang结合自己的项目分享了如何用区块链驱动人工智能的发展。

他认为目前区块链最大的瓶颈之一是在存储和计算领域,缺少一个真正好的提供和存储和计算的基础公链。为此,他跟团队创办了DxChain,试图打造以区块链存储和计算为核心的下一代技术公链,通过区块链技术让算力和存储共享成为现实,从而降低算力和存储成本,让大数据和机器学习等更专注于算法的完善、模型的迭代,加速人工智能的发展。

以下为Allan Zhang分享原文,由火星财经(微信:hxcj24h)整理:

一、区块链和人工智能的关系

我们先谈谈人工智能和区块链之间的关系。

人工智能的发展离不开数据的喂养,离不开算力和存储,算法再牛,也需要这些基础设施的支持。

有趣的是,AI和区块链是对立的,就像Peter Thiel和Reid Hoffman在最近对话中很好地表达过的观点那样。

AI是非常中心化的,AI仅掌握在少数公司手里,主要是Google、苹果、Facebook以及Amazon(“GAFA”)以及中国的互联网巨头阿里巴巴、腾讯和百度(“BAT”)。

主要原因就是数据垄断在他们的数据黑盒子中,对于创业公司或项目来说,AI的中心化为各种滥用打开了大门,Facebook的事情我们在这里不做赘述了。

区块链的出现是对垄断组织问题的强力回应,在技术上提供了可能性。

这个想法大概是这样:我们所有人都会受到金融激励来提供个人数据和专业数据。在知道这些数据可以安全保证安全和隐私(通过去中心化和安全计算)的情况下,我们对共享敏感数据(开支、健康信息)会感到更加放心。跟GAFA掌握的那些相比,随着时间转移,市场会积累越来越多的大量数据,数据的质量也会越来越高。

而中小人工智能厂商也有机会以更低成本获得高质量的数据。这是破解传统互联网时代数据垄断的最佳方式。可以说,区块链会带来高质量数据的爆发,这是中小项目和公司的机会。

除了数据,人工智能还需要算力和存储。对于财力不雄厚的中小公司来说,这也是一个很高的门槛。

而区块链正好带来去中心化的算力和存储共享服务,可以通过激励算力和存储矿工贡献自己的服务,从而降低成本。这让中小人工智能企业,各个行业也有了以较低成本构建自己的大数据和机器学习平台和应用的机会。

DxChain项目正是通过区块链技术,为数据需求的双方搭建数据交易市场,让对高质量数据有需求的企业可以更低成本、更高效地获得数据,而用户也无需担心自己的隐私泄漏,还可以获得价值回馈,实现双赢。

同时,DxChain还努力通过区块链技术让算力和存储共享成为现实,从而降低算力和存储成本,让大数据和机器学习等更专注于算法的完善,模型的迭代,加速人工智能的发展。

二、详解DxChain架构

接下来我们详细解释DxChain如何将区块链和AI结合在一起。

要在去中心化数据存储的基础之上,提供去中心化的大数据分析和机器学习计算,要求很高。为了达成这个目标,我们从基础架构上做了一些创新,去解决目前的存储和计算瓶颈。

我们认为,单靠一条主链很难同时满足数据的存储、计算和隐私需求,从而借鉴了闪电网络多链的思路,添加了存储链、计算链两条侧链,让主链只负责运行智能合约,管理存储和计算侧链,而两条侧链各司其职,分别负责存储和计算。

DxChain主链使用基于账户的模型进行交易和资产信息的存储,包括账户状态、跨账户交易和收据。它有常规账户和合约账户。DxChain兼容以太坊的数据结构,由哈希链接的区块组成。数据存储在网络全节点中。

数据侧链建立在P2P分布式文件存储系统上,存储非资产类信息。计算侧链主要是为了完成计算任务,计算任务是基于真实业务需求的任务。计算单元可以读取数据侧链的数据,并把结果写入数据侧链。

当任务完成时,最终的状态会通过智能合约存储在主链上。中间状态或任务级交易信息保存在侧链中。数据侧链和计算侧链通过链上链微服务实现互操作,可以进行数据和消息互通。侧链则通过智能合约跟主链进行沟通。

我们把这种架构称为“三链合一”模式。这种设计有助于实现它为大数据和机器学习提供计算和存储服务的目标,这跟比特币主要用于实现金融交易的目的不同。设计侧链架构的核心目的是为了高效、扩展性以及满足具体的业务场景需求。

DxChain主链保持低成本,侧链实现计算和数据存储的高效,并通过智能合约实现主链和侧链沟通,最终形成一个整体的服务架构。因为要实现去中心化,存储侧链和计算侧链都有自己的共识算法。

另外,通过把侧链的有效交易写入主链,可支持主链和侧链之间的资产转移,侧链和主链使用相同Token,侧链也可以定义自己的Token。

三、去中心化的算力服务

计算能力上面,AI很多最近的进展都是在计算能力的大规模提升的促进下取得的,这既是更好利用现有硬件的结果,也是因为开发出了特别针对AI的新的高性能硬件(比如Google的TPU)。

DxChain要为大数据和机器学习提供算力服务。它通过去中心化的方式来解决这个问题,一是可以把空余算力共享出来,二是算力也会因为基于特定任务而被高效利用。

DxChain的算力跟比特币的算力不同,它不仅是为了网络安全,同时也解决实际业务需求。而DxChain不是要提供一种数字货币,而是提供一个去中心化的计算环境。

为了验证计算的正确性,需要共识机制来确保。DxChain提出了两个共识算法:一是验证博弈(Verification game),一是可证明数据计算(Provable Data Computation)。

验证博弈用来验证计算过程的正确性。可证明数据计算可以从一组不被信任的节点中找到一个小概率被攻击的正确答案。

验证博弈的核心角色是求解者、挑战者以及法官。求解者是矿工,负责完成计算任务,提供解决方案;挑战者则不同意求解者的解决方案;法官则提供正确的计算。

验证博弈并不关心参与者的声誉或系统中的任何受信方。它有一个惩罚机制,求解者和挑战者执行任务都需要押金。任何犯错的参与角色,都会失去押金。这样会让不受信任玩家被淘汰。

可证明数据计算中,一个计算任务通过网络进行广播,N个节点执行任务,生成同一答案的最先M个节点答案为有效答案。

DxChain还整合Hadoop实现去中心化的计算。Hadoop的核心组件是作业跟踪器(jobtracker)、任务跟踪器(tasktracker)、map-reduce中的工作节点。参考Hadoop,DxChain设计了D-Jobtracker和D-Tasktracker的角色。在DxChain的去中心化系统中,角色需要押金,矿工诚实执行任务,可获得报酬,否则失去押金。

Map-reduce是中心化的系统。它的作业跟踪器负责管理集群资源和任务调度。任务跟踪器管理节点中的任务,同时跟作业跟踪器通信。而DxChain是去中心化的系统,在分布式网络中保持两个节点的实时通信很不容易。在DxChain中,不需要检查任务节点的状态,一个节点或几个节点离线,不会对最终结果产生影响。而在Hadoop系统中,它会通过心跳来了解节点活跃度,如果节点出现问题,作业跟踪器需要重新分配任务到新节点。

节点完成计算,作业跟踪器将结果发送到计算侧链,验证博弈或可证明数据计算会进行验证。计算侧链保存工作分配信息和结果。任何矿工节点都可以领取任务。

四、去中心化的数据存储服务

我们认为,出于AI训练的目的你需要创建自己的数据,DxChain的经济模型能够鼓励用户上传数据,解决了AI数据从何而来的问题,这就引出了区块链的存储问题。

DxChain提供了去中心化的存储网络,它把计算结果和计算中间状态存储为文件。

数据侧链会建立在P2P分布式存储网络上,比如IPFS、Swarm等。数据侧链是激励层,它本身不用做数据存储。数据和文件被分成小块,存储进入P2P网络。

同时,小块的元信息和哈希采用类似MerklePatricia Tree结构存储在侧链中,表示文件状态。为了数据跨链互通,DxChain为文件设计了跨链统一资源标示符。

在侧链和P2P存储网络之间,DxChain还有一个虚拟逻辑层,包括存储任务发布者、文件导入和导出的矿工、验证者。

因为是去中心化的方式,提供存储的矿工需要有一个共识机制来进行激励和确保网络安全。

DxChain存储侧链的共识机制是时空证明(Proofof Spacetime),用它来验证存储贡献。数据侧链管理存储任务,连接到主链可以为存储矿工给到奖励,连接到计算侧链可以存储计算状态。它具有交易费用低、交易速度快、更好隐私保护等特点。

时空证明改进了“数据持有性证明(ProvableData Possession)”,让它更适合去中心化的环境。数据持有性证明主要是为了允许客户在不可信服务器上存储数据,在不检索数据的前提下,验证服务器是否存储其原始数据。从客户端持续发送挑战,验证服务器是否存储某文件,确保在一定的连续时间内存储了某文件。

时空证明则是适用于去中心化网络的,它通过算法能够预防女巫攻击,确保系统的完备和安全。任何诚实的节点存储了文件,它能够产生有效证明并说服验证者,同时它也能阻止各种恶意攻击行为。

时空证明共识也是可以公开验证的。为了保护隐私和防止其他恶意行为,时空证明还通过零知识证明等实现验证,可以向验证者证明自己,同时不揭示具体内容。

五、隐私保护

去中心化的AI市场要想见效,你需要能够保证个人和公司所提供的任何数据都是以完全私密的方式进行处理的,这就不得不谈到隐私问题。

对于隐私问题,业界公链采用了几种形式,比如同态加密(Homomorphicencryption),还有多方计算(Multi-PartyComputation),这两种都是通过计算去加密保护隐私,目前常见的还有SGX,这是通过硬件去加密。

DxChain采用的是一种更实际的解决方案 — — 对关键数据信息加密,从而做到隐私保护。

由于我们能够做到对数据细密度的操作,数据入链时都是有结构的,比如数据形成一个表格,有一列是人的姓名,我们就对人名这一列关键信息加密,但是其他的信息公开,不是把整个文件都加密,这种叫做数据模型支持的数据加密。

除此之外,DxChain还用到差分隐私。差分隐私可以降低一个用户倾斜查询结果的概率,也就是降低让信息可以追溯到某个用户的概率。如果只是为统计分析提供数据,比如平均值,DxChain可以有工具方便用户在提交文件到网络之前运行差分隐私。

三是矿工存储加密。每个本地节点使用存储矿工的公钥对数据块进行加密。可以保护网络免遭入侵。

四是把文件进行切分。一个大文件根据不同策略切分成小块,只获取其中一个部分不会泄漏整体信息。最后是在文件传输过程中加密。文件复制到存储矿工之前,使用矿工的公钥加密。

六、商业化

下面我们来谈谈AI和区块链结合的市场前景。

一个去中心化的市场也许是创建AI的一个非常新颖的手段,但从中出来的任何东西仍然需要实现产品/市场匹配并且解决真正的问题,才能取得商业上的成功。从这个角度来说,垂直化的方向(工业、基因组、金融等)尤其有趣。

对于AI的发展来说,DxChain一旦落地,它就是一个AI基础设施。对中小企业和项目尤其重要。很多中小公司缺乏高质量的数据。大多数高质量的数据都需要从其他大型公司购买,甚至花钱也无法获得。

从数据共享和交换的角度,DxChain的数据模型对数据进行标准化,数据供应商可以开放API,实现数据的交易和共享。这对于有高质量数据需求的需求方来说,有很大的吸引力,尤其是人工智能厂商。

DxChain也是一个数据交易平台。用户可以定义交易哪些数据,以及交易的价格等。这会让数据需求方和供应方都收益。

不仅如此,由于计算和存储的成本也很高,DxChain通过构建去中心化的大数据和机器学习网络,可以让人工智能厂商降低成本,利用DxChain建立自己的机器学习平台和应用。它的数据保存在存储矿工的磁盘上,矿工共享带宽,可以降低数据存储和网络流量成本。

比如医疗保健行业,通过智能设备可以为用户提供远程的诊断,让更多人受益。但这样的系统依然很贵,医疗保险费用不低,很多低收入人群无法获益;医疗智能设备碎片化,很难集成;用户的数据很容易被滥用。

这个时候,DxChain有机会发挥自身的优势。它本身是一个去中心化的大数据和机器学习网络。医疗行业的开发者可以利用它来构建自己的大数据和机器学习平台和应用。

因为DxChain去中心化的方式,可以更高效利用计算和存储资源,会降低自建人工智能平台的成本,也会带来医疗费用的降低,让更多人能够获益。医疗智能设备,比如身体状况追踪器、智能手表等上传的数据会被加密,会安全存储到区块链上,不会被泄漏和滥用。这些数据的使用,要得到用户的授权,如果用户愿意售卖自己的数据,还能获得经济收益。

最后,基于医疗设备采集的数据,可以让医疗保健供应商建立自己的人工智能技术监测病人健康,提前作出预警。

总的来说,基于DxChain,各行业都可以构建自己的大数据和机器学习平台和应用,可以极大降低人工智能发展的成本,可以帮助不同行业的开发者以更低成本获取更多高质量数据,同时还能以更低成本获得算力和存储。这对于促进人工智能发展有很大的帮助。

七、对于行业未来的讨论

AI和去中心化结合能够带来很多想象空间。

Fred Ehrsam在最近一篇blog中提到,区块链可以提供一个有趣的组织模型来帮助各种AI机器人以透明的方式协作。

旅游就是机器人协作的例子:你可以让一个机器人买飞机票,如果出现延误的话,另一个机器人可以预测误接的可能性,提议另一条路线,而第一个机器人可以变更预订。所有这一切都是实时地在后台自动进行的,完全消除了我们人类可能发生的摩擦。

SingularityNET项目是一个有趣的例子 — — 这是一个非常有野心、非常复杂的项目,由很多部分组成。作为各种AI如何可以协作来创造出单个大脑的展示,他们开发出了Sophia,一个由SingularityNET驱动的Hanlon机器人。其讲解视频非常疯狂,让人想到《西部世界》。

Fred Ehrsam在这篇博文中指出,还可以想象AI以完全自治的方式去运行,这正是去中心化自治组织DAO的想法 — — 一个完全由机器运营的去中心化组织,连有限的人为干预都没有。比方说,展望未来你可以想象一个彻底去中心化版的Uber,车队全都是由AI驾驶和管理的无人车。这里面将会有一个庞大的反馈回环,系统会不断学习如何调度车辆,高效地运送人和处理各种物流任务,将许多技能和复杂性结合到一个自运营的体验上。

不过这种AIDAO有一点比较可怕,那就是如果这样一个组织真正去中心化和自治化的话,尚不清楚一旦出现紊乱如何才能阻止它继续运转。这可不像计算机拔掉插头就能关机那么简单。

问答环节:

Q1:目前其他项目是怎么做的?

A1:比较早期的项目比如Morpheo,这是一个用区块链来分析医学数据的项目。它并不是纯粹的去中心化,使用可信的云平台来存储数据和计算。区块链在这里是用来作为激励机制的。

这个平台里面的机器学习算法是公开的,但是上传的数据是不公开的。个体可以上传数据,然后各个算法对于这些数据都运行一次。他们可以因此来确定不同算法的性能。

由于数据的存储目前还没有被区块链解决,所以这种杂合的系统被很多区块链项目所采用,并不仅仅是AI的项目。

另外,很多深度学习的平台和可信硬件的平台纷纷和区块链结合。

Q2:现在比较流行的深度学习可以在区块链上运行吗?

A2:由于深度学习在近几年非常流行,所以一些区块链项目是想做这一块的。深度学习的开源程序有很多,比如Caffe,MXNet等等。其核心是通过GPU来加速矩阵运算。目前比较流行的区块链做法是把矩阵运算拆解成很小的任务,然后分配给各个不同的计算节点。:

这种做法的问题是这种特殊设计的区块链体系只是适合特定类型的深度学习,扩展性不好。另外深度学习的应用场景比较适合图像、视频等处理,这种任务通常对于大公司有实际意义。

Q3:可信硬件和区块链的结合是不是更好?

A3:可信硬件和区块链的结合比如TEE吸引了很多眼球,目前有些项目是这么做的。这种项目其实更适合比较纯粹的隐私保护。我曾经使用SGX尝试过比较简单的机器学习算法,比如说K-means算法。当数据小于400M的时候,大约需要5分钟。一旦数据超过一定的容量,比如1.2G,需要运行2天。目前SGX对于内存的要求比较严格,所以性能上并不是特别好。单机运行SGX的时间不可控,另外针对SGX的程序也并不多。所以SGX即使在大公司中adoption也并不是很好。

在去中心化环境中,由于网络的限制,性能会受到更大程度的限制。

Q4:AI和区块链结合是不是一个伪需求?

A4:这两个词都是buzzword,如果简单的放到一起就是一个伪需求。因为看到了很多不切实际的项目。如果单纯的使用区块链去做AI运算就是一个伪需求,因为效率一定是不好的。比如如果使用GPU运算8个小时这样的操作,通常这样的运算是使用者会担负起买个好一点的显卡。parametertuning不允许花更长的时间。所以modeltraining这样的操作不应该在区块链上允许。

AI的最大量的需求是使用比较常用的算法来发掘数据的价值。所以applymodel到实际数据会是一个比较实际的用法。这样使用的前提条件是有数据,所以datacollection是最重要的一部分。DxChain比较适合一个整套的分析流程:datacollection, data cleaning, data anlysis and reporting。

Q5:AI和区块链结合什么时候可以看到真正的落地应用?

A5:AI在区块链上的应用由于需要大量的存储和计算,所以一定是在有了这样一个系统以后才可以有真正的应用。这样的应用会出现在数据密集、计算量在合理范围的环境中。并且传统的中心化应用并不work的这样一个场景中。

我认为在医疗领域、IOT行业中,这样的应用会比较现实并且有巨大的影响力,而且不是一个玩具类型的应用。DxChain目前正在朝着这个方向去努力,同时也希望有其它的项目能一起解决这个系统平台的问题。

嘉宾简介

Allan Zhang / DxChain创始人

Trustlook CEO,负责移动安全和网络漏洞与威胁等方向的研究和开发,十年以上互联网安全方面的经验,8年数字货币的研究经验以及五年区块链投资经验,曾是公司PaloAlto Networks 创始工程师,并在朗讯科技\nCircle网络安全公司等开展安全方面最先进的研究,是一位充满能量的连续创业家。

对话发起人

向亚贞 / QuarkChain CMO

上海交大本科,Johns Hopkins硕士,在华尔街与硅谷工作7年,曾先后任职于Argus, LinkedIn, Wish等世界名企,具有专业的金融、咨询与技术背景。在QuarkChain主要负责市场,运营,公关等事务,对QuarkChain在全球启动、受到密切关注和好评起了重要作用。

徐英凯Kevin / BlockVC创始人

QuarkChain顾问,伦敦大学学院(UCL)计算机统计学与机器学习硕士。曾供职于瑞士信贷、闪银奇异、鼎铭金融等大型金融科技企业;曾参与ETF产品设计和产业基金管理,管理规模超过10亿人民币;目前其区块链资产管理规模超过2亿美金,所投资项目包括:QuarkChain, NKN, Celer Network, IoTex, DxChain, VeChain, Republic Protocol, Certik等。

Author image

About DxChain

DxChain is the world’s first decentralized big data and machine learning network powered by a computing-centric blockchain.