DxChain中文博客

DxChain:用区块链驱动人工智能


人工智能需要算力、算法和数据。三者缺一不可。即使有顶尖高手有顶尖算法,数据和算力也无法绕过。

对于大多数的公司来说,高质量的数据很难获得。大多数的数据都集中在巨头手中。数据是未来最核心的资源。巨头们不会轻易把它们共享给中小公司。比如谷歌地图拥有用户导航数据、Facebook拥有用户画像和行为数据、亚马逊拥有用户购物行为数据等,这些都是它们商业模式赖于存在的基础,都是它们数十年的积累,只会加强它们的势能。中小公司,只能望洋兴叹。

不仅如此,人工智能还需要大量的算力和存储,对于初创企业来说,这个开支也是非常大的。

在互联网的时代,初创企业和项目在人工智能领域确实看不到任何胜算的机会,要数据没数据,要算力没算力,要资金没资金。但区块链时代的到来,给中小企业打开了一扇窗。这也是蓝狐笔记非常关注区块链和人工智能结合项目的原因。

近期蓝狐笔记关注到DxChain,它可以构建多中心化的数据交易市场,也可以提供多中心化的算力和存储基础服务。这对于人工智能企业或希望用大数据分析来改善业务的企业来说,可以降低获取数据、算力及存储的成本,能够获得与大企业同台竞技的机会。

DxChain与人工智能

对于创业公司或项目来说,要想获得高质量数据,在目前的互联网情境下,几乎不可能。但区块链给了一个机会。

区块链首先可以让数据回归个人所有。用户掌控自己的数据,同时通过零知识证明、差别隐私、密码学等方式实现用户的隐私保护,免去了用户贡献数据的后顾之忧。同时,这些数据用户通过售卖还能获得收益,这也激励用户更主动分享和贡献自己的高质量数据。

可以说,区块链会带来高质量数据的爆发。这是中小项目和公司的机会。

DxChain通过区块链技术可以为数据需求的双方搭建数据交易市场,让对高质量数据有需求的企业可以以更低成本更高效地获得数据,而用户也无需担心自己的隐私泄漏,还可以获得价值回馈,这是一个双赢。而在传统的互联网平台,数据往往被大平台所垄断,用户也无法获得数据贡献的奖励。

除了数据,还需要算力和存储。对于财力不雄厚的中小公司来说,这也是一个很高的门槛。有没有可能降低算力和存储成本,给中小企业一个可能的竞争机会?这是DxChain要解决的一个重要问题。

DxChain试图通过区块链技术让算力和存储共享成为现实。这会降低算力和存储成本,让大数据和机器学习等更专注于算法的完善,模型的迭代,加速人工智能的发展。

总言之,人工智能和区块链的结合是绝配。两者都是科技的未来趋势,两者的结合,可以给彼此带来更快的进化速度。区块链有机会让人工智能加速。

DxChain试图顺应这个趋势,通过区块链给大数据分析和机器学习提供计算和存储服务,也通过数据交易,帮助中小企业以更低成本更高效率获得数据。这对于人工智能的发展来说,会是如虎添翼。

DxChain的关键词

  1. 为我所用

DxChain让蓝狐笔记印象深刻的一点是它善于利用“他人”之优点,构建出自己的区块链技术,发展出自己的创新,最终服务于大数据分析和机器学习的发展。

这个说起来简单,其实很难。首先要融会贯通,才能为我所用。DxChain架构借鉴了IPFS、HadoopHDFS、GFS、IoTeX、IOTA、Plasma、TrueBit、morpheo、Golem等,扬其长避其短,这个思路贯穿了它的整个架构设计之中。比如链上链的分层,也部分参考了IoTex的链中链设计,让主链和侧链担负不同的任务。

又比如DxChain引入了Hadoop,在进行多中心化的设计后, 让它成为DxChain的计算引擎,同时还有自己的共识创新,比如验证博弈(verification game)和可证明数据计算(Provable Data Computation)。DxChain的时空证明(Proof of Spacetime)共识机制也是从“数据持有性证明”演化而而来,让它更适合多中心化的网络。

2. 链上链的架构

从架构上,DxChain采用了链上链的结构。它要在多中心化数据存储的基础之上,提供多中心化的大数据分析和机器学习计算,要求很高,为了达成这个目标,DxChain采用了链上链的结构来管理主链、存储链以及计算侧链。

通过这样的架构设计,可以便于信息、数据和资产的跨链操作,能够满足速度要求、并实现可扩展。

DxChain是两层区块链,包括链主链和侧链。主链负责存储账本和资产信息,包括状态、交易、智能合约等。它存储较少信息。侧链承载数据存储和计算任务。

DxChain主链使用基于账户的模型进行交易和资产信息的存储,包括账户状态、跨账户交易和收据。它有常规账户和合约账户。DxChain兼容以太坊的数据结构,由哈希链接的区块组成。数据存储在网络全节点中。

数据侧链(Data Side Chain)建立在P2P分布式文件存储系统上,存储非资产类信息。计算侧链(Computing Side Chain)主要是为了完成计算任务,计算任务是基于真实业务需求的任务。计算单元可以读取数据侧链的数据,并把结果写入数据侧链。

当任务完成,最终的状态会通过智能合约存储在主链上。中间状态或任务级交易信息保存在侧链中。数据侧链和计算侧链通过链上链微服务实现互操作,可以进行数据和消息互通。侧链则通过智能合约跟主链进行沟通。

这样,主链和侧链执行不同任务,可以通过智能合约或微服务实现通信,同时还有各自的独立性,还有一个好处是即使侧链出问题,主链也不受影响。

链中链架构的设计有助于实现它为大数据和机器学习提供计算和存储服务的目标,这跟比特币主要用于实现金融交易的目的不同。设计侧链架构的核心目的是为了高效、扩展性以及满足具体的业务场景需求。

DxChain主链保持低成本,侧链实现计算和数据存储的高效,并通过智能合约实现主链和侧链沟通,最终形成一个整体的服务架构。因为要实现多中心化,存储侧链和计算侧链都有自己的共识算法。这在下面也会提到。

另外,通过把侧链的有效交易写入主链,可支持主链和侧链之间的资产转移,侧链和主链使用相同token,侧链也可以定义自己的token。

3. 多中心化的算力服务

目前的人工智能需要大量的算力来支持,但算力意味着大量的资金投入。通过中心化的方式来完成大规模的计算任务,先不说中小企业,就算是巨头,也是有压力的。

DxChain要为大数据和机器学习提供算力服务。它的方式通过多中心化的方式来解决这个问题。一是可以把空余算力共享出来,二是算力也会因为基于特定任务而被高效利用。

DxChain的算力跟比特币的算力不同,它不仅是为了网络安全,同时也解决实际业务需求。而DxChain不是要提供一种数字货币,而是提供一个多中心化的计算环境。

为了验证计算的正确性,需要共识机制来确保。DxChain提出了两个共识算法。一是验证博弈(Verification game),一是可证明数据计算(Provable Data Computation)。

验证博弈用来验证计算过程的正确性。可证明数据计算可以从一组不被信任的节点中找到一个小概率被攻击的正确答案。

验证博弈的核心角色是求解者、挑战者以及法官。求解者是矿工,负责完成计算任务,提供解决方案。挑战者则不同意求解者的解决方案。法官则提供正确的计算。

验证博弈并不关心参与者的声誉或系统中的任何受信方。它有一个惩罚机制,求解者和挑战者执行任务都需要押金。任何犯错的参与角色,都会失去押金。这样会让不受信任玩家被淘汰。

可证明数据计算中,一个计算任务通过网络进行广播,N节点执行任务,生成同一答案的最先M个节点答案为有效答案。

DxChain还整合Hadoop实现多中心化的计算。Hadoop的核心组件是作业跟踪器(job tracker)、任务跟踪器(task tracker)、map-reduce中的工作节点。参考了Hadoop,DxChain设计了D-Jobtracker和D-Tasktracker的角色。在DxChain的多中心化系统中,角色需要押金,矿工诚实执行任务,可获得报酬,否则失去押金。

Map-reduce是中心化的系统。它的作业跟踪器负责管理集群资源和任务调度。任务跟踪器管理节点中的任务,同时跟作业跟踪器通信。而DxChain是多中心化的系统,在分布式网络中保持两个节点的实时通信很不容易。在DxChain中,不需要检查任务节点的状态,一个节点或几个节点离线,不会对最终结果产生影响。而在Hadoop系统中,它会通过心跳来了解节点活跃度,如果节点出现问题,作业跟踪器需要重新分配任务到新节点。

节点完成计算,作业跟踪器将结果发送到计算侧链,验证博弈或可证明数据计算会进行验证。计算侧链保存工作分配信息和结果。任何矿工节点都可以领取任务。

4. 多中心化的数据存储服务

DxChain提供了多中心化的计算环境,同时它也是多中心化的存储网络。它把计算结果和计算中间状态存储为文件。

数据侧链会建立在p2p分布式存储网络上,比如IPFS、Swarm等。数据侧链是激励层,它本身不用做数据存储。数据和文件被分成小块,存储进入p2p网络。

同时,小块的元信息和哈希采用类似Merkle Patricia Tree结构存储在侧链中,表示文件状态。为了数据跨链互通,DxChain为文件设计了跨链统一资源标示符。

在侧链和P2P存储网络之间,DxChain还有一个虚拟逻辑层,包括存储任务发布者、文件导入和导出的矿工、验证者。

因为是多中心化的方式,提供存储的矿工需要有一个共识机制来进行激励和确保网络安全。

DxChain存储侧链的共识机制是时空证明(Proof of Spacetime),用它来验证存储贡献。数据侧链管理存储任务,连接到主链可以为存储矿工给到奖励,连接到计算侧链可以存储计算状态。它具有交易费用低、交易速度快、更好隐私保护等特点。

时空证明改进了“数据持有性证明(Provable Data Possession)”,让它更适合多中心化的环境。数据持有性证明主要是为了允许客户在不可信服务器上存储数据,在不检索数据的前提下,验证服务器是否存储其原始数据。从客户端持续发送挑战,验证服务器是否存储某文件,确保在一定的连续时间内存储了某文件。

时空证明则是适用于多中心化网络的,它通过算法能够预防女巫攻击,确保系统的完备和安全。任何诚实的节点存储了文件,它能够产生有效证明并说服验证者,同时它也能阻止各种恶意攻击行为。

时空证明共识也是可以公开验证的。也为了保护隐私和防止其他恶意行为,时空证明还通过零知识证明等实现验证,可以向验证者证明自己,同时不揭示具体内容。

5. 隐私保护

通过大数据的相关性分析可以识别出个人身份的信息。DxChain对于隐私保护也重视。

DxChain通过如下几个方面进行隐私保护。一是数据模型。DxChain支持结构化数据集的数据模型。客户端可在提交到网络之前加密敏感数据的列。二是差分隐私。差分隐私可以降低一个用户倾斜查询结果的概率,也就是降低让信息可以追溯到某个用户的概率。如果只是为统计分析提供数据,比如平均值,DxChain可以有工具方便用户在提交文件到网络之前运行差分隐私。

三是矿工存储加密。每个本地节点使用存储矿工的公钥对数据块进行加密。可以保护网络免遭入侵。四是把文件进行切分。一个大文件根据不同策略切分成小块,只获取其中一个部分不会泄漏整体信息。最后是在文件传输过程中加密。文件复制到存储矿工之前,使用矿工的公钥加密。

当然,客户希望数据被私密存储,在提交到网络之前最好对数据进行加密。

6. AI的基础设施

从以上的描述,我们可以看到DxChain是要成为大数据分析和机器学习的基础设施。它支持不同行业,比如广告、金融、游戏、医疗、出行、能源、物流、供应链、教育等,这些行业都可以利用DxChain进行机器学习、数据挖掘、数据存储,在它基础上开发出各种不同的多中心化应用。

对于AI的发展来说,DxChain如能落地,它就是一个基础设施。对中小企业和项目尤其重要。很多中小公司缺乏高质量的数据。大多数高质量的数据都需要从其他大型公司购买,甚至花钱也无法获得。

从数据共享和交换的角度,DxChain的数据模型对数据进行标准化,数据供应商可以开放API,实现数据的交易和共享。这对于有高质量数据需求的需求方来说,有很大的吸引力,尤其是人工智能厂商。

DxChain也是一个数据交易平台。用户可以定义交易哪些数据,以及交易的价格等。这会让数据需求方和供应方都收益。

不仅如此,计算和存储的成本也很高。DxChain通过构建多中心化的大数据和机器学习网络,可以让人工智能厂商降低成本,可以利用DxChain建立自己的机器学习平台和应用。它的数据保存在存储矿工的磁盘上,矿工共享带宽,可以降低数据存储和网络流量成本。

比如医疗保健行业,通过智能设备可以为用户提供远程的诊断,让更多人受益。但这样的系统依然很贵,医疗保险费用不低,很多低收入人群无法获益;医疗智能设备碎片化,很难集成;用户的数据很容易被滥用。

这个时候,DxChain有机会发挥自身的优势。它本身是一个多中心化的大数据和机器学习网络。医疗行业的开发者可以利用它来构建自己的大数据和机器学习平台和应用。

因为DxChain多中心化的方式,可以更高效利用计算和存储资源,会降低自建人工智能平台的成本,也会带来医疗费用的降低,让更多人能够获益。医疗智能设备,比如身体状况追踪器、智能手表等上传的数据会被加密,会安全存储到区块链上,不会被泄漏和滥用。这些数据的使用,要得到用户的授权,如果用户愿意售卖自己的数据,还能获得经济收益。

最后,基于医疗设备采集的数据,可以让医疗保健供应商建立自己的人工智能技术监测病人健康,提前作出预警。

总的来说,基于DxChain,各行业都可以构建自己的大数据和机器学习平台和应用,可以极大降低人工智能发展的成本,可以帮助不同行业的开发者以更低成本获取更多高质量数据,同时还能以更低成本获得算力和存储。这对于促进人工智能发展有很大的帮助。

结语

人工智能的发展离不开数据的喂养,离不开算力和存储,算法再牛,也需要这些基础设施的支持。

在区块链之前,这些大多是巨头们的领地。但随着区块链的到来,人们贡献数据和获取数据的方式会发生改变。用户在保护个人隐私的情况下,可以把自己高质量数据售卖给数据的需求方,比如人工智能厂商、广告商等。而中小人工智能厂商也有机会以更低成本获得高质量的数据。这是破解传统互联网时代数据垄断的最佳方式。

不仅如此,区块链还带来多中心化的算力和存储共享服务,可以通过激励算力和存储矿工贡献自己的服务,从而降低成本。这让中小人工智能企业,各个行业也有了以较低成本构建自己的大数据和机器学习平台和应用的机会。

DxChain正是希望通过区块链技术,融合其他项目的优点,设计出一种可以用于大数据和机器学习的架构,实现更高效率更安全可扩展的人工智能基础设施服务。

在这设计中,它提出了链上链的设计,有一个主链和两个侧链;设计了验证博弈和可验证计算的共识机制;把Hadoop整合到DxChain,方便大数据和机器学习等。这些设计都是从大数据和机器学习业务需求角度出发的。它的区块链的不仅有多中心化的考虑,也有落地场景需求的考虑。

如DxChain能够顺利落地,对于希望用人工智能进行优化和提升的行业来说,会是一个很大的利好,期待DxChain的早日落地!

Author image

About DxChain

DxChain is the world’s first decentralized big data and machine learning network powered by a computing-centric blockchain.