=本文内容纯属个人猜想,仅供参考=
=增量数据卡尺和减量数据卡尺=
增量数据和减量数据,本身就是一种源文件+增量和减量和修改数据日志的方式来记录。
本身就是对数据的每一次改动和注释,都可追溯。
比如:
某地星期一,西红柿的售价是5元每斤;西瓜的售价是10元每斤;胡萝卜的售价是2元每斤。
到了星期二,价格有所改变,西红柿变成了3元每斤(记为星期一西红柿价格-2元每斤=星期二西红柿价格);西瓜变成9元每斤(记为星期一西瓜价格-1元每斤=星期二西瓜价格);胡萝卜变成3元每斤(记为星期一胡萝卜价格+1元每斤=星期二胡萝卜价格)。
也就是说,当一个大数据,只有一部分有改动,改动只要没有达到百分之五十兼或设定值,那么就只能以日志的方式来存储,避免需要两个三个数据库硬件,一个数据库硬件为源文件数据库,一个数据库硬件为日志改动数据库,还有一个数据库为结果数据库,当用源文件+日志=结果数据库的方式,把结果数据库作为源文件数据库,那么就能够当做新的源文件数据库,这对于不需要调用历史数据的数据库很方便,然而对于需要调用历史数据库的数据,就很成问题。
特别是相互关联数据的调用,这也就导致一个包含100年时间1ZB数据中,可能需要调用的,只是其中特定10年的1GB数据,这就导致了无端的解压缩过程中的硬件调用资源浪费,也就是非要把所有数据都解压缩成压缩前文件,才能应用,那么问题来了,物理考古学家,需要特定10年的物理当时的科研数据,生物考古学家,需要特定100年的生物当时的科研数据,古语言学家需要调用20年当时的语言数据,而物理数据包含在一个100年时间1ZB数据中,生物数据包含在一个1000年1024ZB数据中,语言数据包含在一个5000年4096ZB数据中,怎么弄?
全部都全网在单机,每个使用者对应一个超级电脑用于解压缩,然后索引需要用到的内容?
70亿个使用者呢?是不是需要建造70亿个超级电脑硬件啊?
特别是有很多历史变迁问题,比如10年前,某个学科专有名词的学术名是A,10年后,该学科专有名词的学术名是B,然后每隔一段时间,学术名都有改变,突然一下去找100年前,这个学术名,那就麻烦了。
学科用大数据的应用,如果只考虑到当代使用,很容易就解决,可能最多需要3个超级电脑就足以应对,可是如果面对的是时间跨度可能需要百万年的古生物研究呢?地球考古学研究呢?历史新闻研究呢?会面对什么问题?
还有一种问题,那就是语言是一种主观存在,包含的含义,在每一代可能都有偏差,比如流氓一词,可能某些词义没有被编写进入字典中,没有编入辞典中,就被后来人当做通假字论了,还不排除有的写书的人,本身喜欢另辟蹊径,自己创造一些词语组合,也不排除创作者词不达意。
这也就导致,搜索可能需要完全展开整个数据库的所有内容都变成最终的未压缩版本,这是刚性需求,特别是使用者使用模糊搜索兼或用未来的术语来搜索历史上的术语。
然而随着数据采集越来越精密,很多全息数据,都可以大到没边,把无限大+无限大+无限大的数据,都聚集到数据库中,能用很小的存储硬件来存储可以解压缩成为无损数据来使用,然而解压缩时,硬件不足怎么办?航线航天器,在飞行过程中,百分之八十都被陨石击穿,而又没有足够的资源来修复,而又急需用历史数据来找到某个问题的参考答案?怎么弄?无参考答案的去创新方法来解决?
当参考答案没有变质,没有过期,那么参考答案就是宝贝,多多益善;当参考答案变质了,过期了,不适合当下和当前环境了,那么参考答案就是垃圾,还不如就地创新,还浪费了观看者的时间去了解并不适用的参考答案。
越是历史久远的文明,越容易累死在对历史的继承上,米国需要继承的历史很短,就100年,用不了1年时间就能讲明白,中国需要继承的历史很长,上下5000年,可能需要用20年都不一定足以讲明白。
打仗都知道需要有轻骑兵,需要有重骑兵,怎么说呢?中国就是有太多的历史传承,导致如同重骑兵一样,尾大不掉,当护甲(历史)有用时,护甲是个大宝贝,当护甲(历史)没用时,护甲是个大累赘。
米国的现状是什么?历史一穷二白,没有几千代的创业可以继承,所以一个个成了现实主义者,一个个成为了群体急性子,必须创新,不创新就是空白。
中国的现状是什么?历史丰富多彩,有几千代的创业可以继承,所以一个个成了博大精深者,一个个成了群体慢性子,不是一定需要创新,不创新就照抄历史,大不了交白卷。
中国创新难,不是因为中国文化什么的不行,而是因为需要学的东西太多太多,而这些东西之中,有重点,有非重点,可以抓重点,然而不能只抓重点,为什么有舍得的说法?因为中国的传承之博大精深,导致了不可能样样全,不可能样样会,所以需要有放弃的传承,也有需要坚持的传承。