一条关于病人的医疗和临床信息,80%是由非结构化数据形成而来,例如,*医生的书写笔录、顾问的备注、*科的注释、病理结果、医院的出院备注等。
舒尔特在被任命为CEO之前,是Apixio首席医疗官的*医生,他说,“如果我们想学习如何更好地照顾个人和了解更多关于整个人口的健康,我们需要挖掘非结构化数据的见解。”
在LevelⅠ的基础上更要求掌握多元统计、时间序列、数据挖掘等理论知识,掌握*数据分析方法与数据挖掘算法,能够熟练运用SPSS、SAS、Matlab、R等至少一门****分析软件,熟悉适用SQL访问企业数据库,结合业务,能从海量数据提取相关信息,从不同维度进行建模分析,形成逻辑严密能够体现整体数据挖掘流程化的数据分析报告。
大企业对由年轻的初创企业来处理自己基础设施的关键部分的谨慎是可以理解的。还有,令创业者感到绝望的是,许多(还是大多数?)企业仍顽固地拒绝把数据迁移到云端(至少不愿迁移到公有云)。
还需要理解的另一个关键是:大数据的成功不在于实现技术的某一方面(像 Hadoop 什么的),而是需要把一连串的技术、人和流程糅合到一起。