数据分析-回归模型的新方法

号称在科学杂志上发表2篇以上文章就有资格去参加院士评选,牛!

在数据分析中,有很大的问题就是如何确认自变量和因变量的关系,常用的方式包括线性回归和非线性回归模型。尽管在R中,有很多方式可以逐步求精,比如Step,但是对于非连续的离散型数据还是很难处理,比较依赖于分析者的经验。
科学杂志,有篇文章:《Detecing Novel Associations in Large Data
Sets》,采用了网格模型来判断数据的集中程度,从而来判断数据的关联关系。
1.划分网格G,X行Y列,要求X和Y的乘积小于N的0.6次方,N是样本个数(注意,未必等宽)
2.概率密度函数p(x,y)定义为,指定方格内样本点数量占全体样本点数量的比例
3.数据分析-回归模型的新方法
然后计算MIC值(the Maximal Information Coefficient)
1.M(x,y) = max{Ig}/log min{x,y}
2.MIC=max{M(x,y)}
困难在于计算M(x,y)因为要取所有可能的(x,y)对。
-近视的逼近算法:
http://www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1
-MINE计算MIC的程序(Java和R)
http://www.exploredata.net/Downloads
ark一下~