基于互联的大数据之 ——大数据的力量

来源:搜狐 发布日期:2020-01-13 点击:11271

任何理论,都要有落地的机制,需要高新科技的支撑。大数据方法就是支撑《医学新思维》的重要力量。

大数据是当下的热点,抱歉的是,人们被现代科学所影响,还在传统的框架下想问题,还没有真正认识到大数据的独特价值。本人结合互联生产力,结合医学的任务和需求,提出了新的见解,供各位朋友借鉴。

《大数据时代》有这样一个例子:在2009年那次著名的甲型HIN1流感爆发的几周前,互联网巨头谷歌公司的工程师们在《自然》杂志上发表了一篇引人注目的论文。它令公共卫生官员们和计算机科学家感到震惊。文中解释了谷歌为什么能够预测冬季流感的传播:不仅是全美范围的传播,而且可以具体到特定的地区和州。把谷歌的预测结果和政府后来公布的数据对比,发现准确度达到97%。

能取得如此令人惊愕的成就,能发现以往无法揭示的真相,秘籍就是大数据分析:谷歌是西方人首选的搜索引擎。该公司强大的数据库保存了来自全球的搜索指令,每天超过30亿条,其中的地址信息记录了用户从哪儿发起搜索,可以具体到每个街区。

海量数据如何帮助得到谷歌需要的答案?研究者假设了两个事实:人们感受到流感,无论他自己,还是周围的人得了流感,还是在网上知道了流感传播的消息,就可能搜索某些特征关键词,如“咳嗽和发热的药物”、“流感症状”、“如何预防流感”;第二个假设是,这类习惯或行为没有大变化,如果过去几年发生过类似的传染,人们进行过某种搜索,新的感冒流行也会触动类似搜索。

照此思路,谷歌先检索了5000万条美国人最频繁使用的词条,然后去疾控中心找过去几年的流感流行统计数据,监测在不同流行情况下这5000万条记录的变化规律。经过大量模型运算,研究者发现了45个词条的组合,能很好地匹配过去每次流行情况。新的流感逼近,人们往往会重复过去的搜索动作,把近期的搜索过程进行类似分析,就能预测新流感的流行情况。

预测流感蔓延是专业任务,谷歌提出的却是通用解决方案,工程师并不需要医学专家帮忙,他们也不关心哪些词条更重要,所建立的系统并不依赖医疗相关的语义理解,他们关注特定词条的使用频率与流感传播之间的联系。这暗示了大数据方法的普适性,只要建立一套这样的系统,稍加修改,就可用于其他目的。

大数据被奉为至宝,在各行各业有具体表现。有人根据过去几十年的机票销售数据,预测未来机票的走向;有人用全球夜景的历史数据建立模型,过滤掉噪音,做出投资房地产和消费领域的研究报告;有人根据社交网络中某些词语的出现频率,预测下一部大片的票房收入;研究者发现,用某种文本和语义分析方法对Twitter进行监测和评估,就能预测股票趋势和价格,投资者的收益能够得到平均15%的提高。

大数据允许人们充分思考复杂的世界,在诸元之间建立联系以解决问题。比如,要分析严重雾霾天气对人的影响,可从移动电信的信号数据库里,取雾霾天气严重后的几天内去往医院基站的数据,剔除过去的背景行为,就得到因雾霾而产生的数据,再把这些数据和人们在网上的数据“杂交”,就能知道是哪些人群容易染病,染病的严重程度、治疗过程和结果等。

这些冲动的本质,都是从纷繁世界的表象入手,在诸多表象之间建立联系,发现其中恒定不变的东西,并加以利用。

英特尔公司宣布,他们建造了一种单词预测机,其核心是大数据支撑下的“语境感知”技术,以让设备猜到使用者的需求,例如提醒他们预约的时间,以及去买东西时带够钱,工程师说:“未来几年内,人们就能同自己的电子设备‘心心相印’。”这是在挖掘以往的数据,找出内质规律,以预测下一次行为。

类似思路可以应用于医学,人们可以充分观察人的外在表现,感知他受到的刺激,理解相应的变化,以理解他的内质。足够多的样本整合,就能挖掘很多生命真相。