数据分组

如题所述

对一批观测数据进行整理,为了运算方便,往往要将数据按照一定要求分组。特别是在数据较多时分组计算的优越性尤为明显。数据分组之后也便于制图,如频数(数据落在每个组的数目称频数)分布直方图、频率(频数/总频数)直方图、累积频率(样本分组数据中各组频率累积之和)分布图等。下面以228个伽马数据为例,具体说明分组、列表、制图的方法。

(一)分组

将观测数据划分多少组,要根据数据的多少、数据的性质、数据的变化范围、观测质量等来适当划分。一般不宜少于5组,也不必多于15组或20组。一组中的最小值叫组下限,一组中的最大值叫组上限。分组时前一组的组上限,又是后一组的组下限。组上限与组下限之差叫组距;分组一般用等间距,组距记为L。各组中的中点数值为组中值。有些观测数据,如微量元素的含量等,往往要将元素含量取常用对数(微量元素含量不服从正态分布,而服从对数正态分布),然后将对数值按等差的方法分组。

分组具体步骤如下:

1.确定数据上界和下界

上界可比数据中最大值稍大一点,下界可比数据中最小值稍小一点。在对某花岗岩的γ测量中共有228个数据,最小值为18γ,最大值为51γ,那么下界可定为17γ,上界可定为53γ。

2.决定组距和组数

组距决定于极差R(上界-下界),此例中R=53γ-17γ=36γ,组距可定为4γ,分成9组。假定用n代表分组数,l为组距,计算公式如下:

放射性勘探技术

3.决定分组点

一般要求分组点比原观测精度高一位,使分组严密,避免一个数据可分在上一个组也可分在下一个组,由于值都是整数,于是取n.5为组限。将数据可分为如下9组:17.5~21.5,21.5~25.5,…,49.5~53.5。

4.统计频数

用选举唱票的方法计算出落在每个组的数目,即频数,并计算出频率与累积频率。

(二)列表

将统计结果列成表,如表8-1所示。

表8-1 某矿区伽马测量资料统计表

(三)制图

主要是绘制频数(或频率)分布直方图和累积频率折线图

1.绘制频数(频率)分布直方图

在横坐标上标出分组点,纵坐标为对应的频数(频率),以组距为底画出高度为频数(频率)的矩形,便得频数(频率)直方图,如图8-1所示。

图8-1 某区伽马测量频数直方图和频率曲线图

2.绘制累计频率折线图

仍以横坐标标出分组点,纵坐标为累积频率f值(%)。在各组组上限处立一高为相对应的累积频率的虚线段,依次联结各虚线段的顶点,就构成了累积频率曲线图,如图8-2所示。

可以设想,如果取更多的样本,组分得更细,那么各样本值或者各组频率将趋于一个稳定的值。且由于组距L不断减小以至趋近于零,频率直方图的形状将逐渐趋近于一条曲线。换句话说,频率分布的极限,可以考虑一个稳定的函数。当样本值是连续变量(可以取一个或几个区间中,甚至整个数轴上一切数值的变量,叫连续变量,如某岩体的γ辐射照射量率)的情形,这个函数y=f(x)将表达一条光滑的曲线。这条曲线叫频率分布曲线。若数据波动的规律不同,频率分布曲线的形状也就不一样。在放射性物探工作中,形状如图8-2的曲线最多,应用也最广,称为正态分布曲线

由于频率之总和(累积频率)为1(100%)。不难看出,如果纵坐标取为“频率/组距”,那么频率直方图矩形面积的总和等于1。换句话说,分布曲线y=f(x)与横轴所夹的面积等于1,显然可用积分之值来表示。即

放射性勘探技术

图8-2的纵坐标的含意是,在横轴的单位长度上平均分布有多少频率,也就是频率分布密度。所以由频率分布曲线所确定的函数y=f(x),叫作频率分布密度函数。

图8-2 某区伽马测量累积频率曲线图

温馨提示:答案为网友推荐,仅供参考
相似回答