第十班数学


统计数据

简介

分组数据平均值

观测值的平均值是所有观测值的总和除以观测值的总数。

如果x1, x2,…,xn是分别出现频率f1, f2,…,fn的观测值,那么这意味着观测值x1出现f1次,x2出现f2次,依此类推。

现在,所有观测值的和= f1x1 + f2x2 +…+ fnxn,

观察次数之和= f1 + f2 +…+ fn。

数据的均值x由

“x = (f_1x_1 + f_2x_2 +…f_nx_n) / (f +₂+…fn)”

或者,“x =(Σ_(张)\ ^ n \ f_1x_1) /(Σ_ (i = 1) \ ^ nf_1”


例如:某学校X班30名学生在一篇100分的数学论文中所获得的分数如下表所示。求学生所得分数的平均值。

获得的分数xi 10 20. 36 40 50 56 60 70 72 80 88 92 95
学生人数 1 1 3. 4 3. 2 4 4 1 1 2 3. 1

解决方案:为了找到平均值,我们需要每个xi与相应频率fi的乘积。

获得的分数(xi) 学生人数(fi) fixi
10 1 10
20. 1 20.
36 3. 108
40 4 160
50 3. 150
56 2 112
60 4 240
70 4 280
72 1 72
80 1 80
88 2 176
92 3. 276
95 1 95
总计 Σf= 30 Σfx= 1779

“x =(Σf_i \ x_i) /(Σf_i)”

' = (1779) / (30) = 59.3


直接求平均值法:

在我们现实生活中的大多数情况下,数据通常非常大,为了进行有意义的研究,需要将其压缩为分组数据。因此,我们需要将给定的未分组数据转换为分组数据,并设计一些方法来求其均值。

让我们通过形成宽度为15的类间隔,将例1中的未分组数据转换为分组数据。请记住,在为每个班级分配频率时,任何班级上限的学生都将被考虑在下一个班级,例如,4名获得40分的学生将被考虑在40-55年级,而不是25-40年级。有了这个约定,让我们形成一个分组频率分布表。

类的间隔 汽车销售 批准 40-55 55 - 70 70 - 85 85 - 100
学生人数 2 3. 7 6 6 6

现在,对于每个类区间,我们需要一个点作为整个类的代表。假设每个类区间的频率以其中点为中心。因此,可以选择每个类的中点(或类标记)来表示落在类中的观测值。

班级分数=(班级上限+班级下限)/2

组距 学生人数(fi) 班级标志(xi) fixi
汽车销售 2 17.5 35
批准 3. 32.5 97.5
40-55 7 47.5 332.5
55 - 70 6 62.5 375.0
70 - 85 6 77.5 465.0
85 - 100 6 92.5 555.0
总计 Σf= 30 Σfx= 1860

“x =(Σf_i \ x_i) /(Σf_i)”

' = (1860) / (30) = 62

这种求平均值的方法被称为直接法。在这里,59.3是准确的平均值,而62是一个近似的平均值。

假设平均方法:

有时,当xi和fi的数值很大时,求xi和fi的乘积变得乏味和耗时。因此,对于这种情况,让我们想一个减少这些计算的方法。

fi不能做任何事情,但每个xi可以改变为一个更小的数字,使计算更容易。

第一步是从xi中选择一个作为假设的平均值,并用“a”表示。此外,为了进一步减少计算工作量,我们可以取“a”为位于x1, x2,…,xn中心的xi。因此,我们可以选择a = 47.5或a = 62.5。

设a = 47.5。

下一步是求a和每一个xi之间的差di,也就是说,a与每一个bdapp官方下载安卓版xi的偏差。

即,di = xi - a = xi - 47.5

第三步是求di与对应fi的乘积,然后求所有fi di的和。

组距 学生人数(fi) 班级标志(xi) Di = xi - a fidi
汽车销售 2 17.5 -30年 -60年
批准 3. 32.5 -15年 -45年
40-55 7 47.5 0 0
55 - 70 6 62.5 15 90
70 - 85 6 77.5 30. 180
85 - 100 6 92.5 45 270
总计 Sum fi = 30 和fidi = 435

所以,偏差的均值

' d =(Σf_i \ d1) /(Σf_i) = (435) / (30) = 14.5

由于d由xi减去a得到,所以x可得如下:

' x = d̅+ a = 14.5 + 47.5 = 62 '

阶梯偏差法求均值:

在上面的方法中,di的所有值都是15的倍数,这相当于类的大小。因此,为了使计算更简单,让我们将di的所有值除以15,以得到更小的fidi

组距 学生人数(fi) 班级标志(xi) Di = xi - a UI = di/h fiui
汽车销售 2 17.5 -30年 -2 4
批准 3. 32.5 -15年 -1 3
40-55 7 47.5 0 0 0
55 - 70 6 62.5 15 1 6
70 - 85 6 77.5 30. 2 12
85 - 100 6 92.5 45 3. 18
总计 Sum fi = 30 Sum fiui = 29

“u =(Σf_i \ u_i) /(Σf_i) = 29/30 '

“x = a +胡”
“xx29/30 = 47.5 + 15 = 62”

(因为u是在d除以类大小后得到的,所以' a+d = a+hu ')

注意事项:

分组数据的模式

模态是观测值中最常出现的值,也就是说,观测值的频率最大。有可能有多个值具有相同的最大频率。在这种情况下,数据被称为多模态数据。

模式”= l + ((f_1-f_0) / (2 f_1-f_0-f_2))特加重的

式中l =模态类的下限,

H =类间隔的大小(假设所有类大小相等),

F1 =模态类的频率,

F0 =模态类之前的类的频率,

F2 =继模态类之后的类的频率。

让我们根据上表计算模式:

L =40, h = 15, f1 = 7, f0 = 3, f2 = 6

模式”= 40 + (7)/ (14-3-6)xx15 = 52 '

分组数据中位数

中位数是集中趋势的度量,它给出了数据中最中间的观察值。找到中位数的第一步是按升序对数据进行分组。

如果中间观测值位于奇数位置,则中位数' =(n + 1)/(2) '

如果中间观测值在偶数位置,则median =

中位数' = (n / 2 + n / 2 + 1) / (2) '

也就是说,它是中间观测值和中间观测值后继值的平均值。

让我们从第一个表中获取数据:

是获得 频率 累积频率
10 1 1
20. 1 2
36 3. 5
40 4 9
50 3. 12
56 2 14
60 4 18
70 4 22
72 1 23
80 1 24
88 2 26
92 3. 29
95 1 30.

这里的观察数是30

因此,中位数将是第15次和第16次观测值的平均值。

第十五次观测是60

第16次观测是70

平均= 65中位数

均值是集中趋势最常用的度量,因为它考虑了所有的观测值,并且位于极端值之间,即整个数据的最大和最小观测值。它还使我们能够比较两个或多个分布。

但是,数据中的极值会影响平均值。

在个别观察结果不重要的问题中,我们希望找到一个“典型的”观察结果,中位数更合适,例如,寻找工人的典型生产率,一个国家的平均工资等。这些都是极端值可能存在的情况。所以,我们用中位数代替平均值,来更好地衡量集中趋势。

在需要确定最常见的价值或最受欢迎的项目的情况下,该模式是最好的选择,例如,找到最受欢迎的电视节目。

备注:

集中趋势的三种测量方法之间存在经验关系:

3中位数=模式+ 2平均值



半岛公司背景

Baidu
map