例如:某学校X班30名学生在一篇100分的数学论文中所获得的分数如下表所示。求学生所得分数的平均值。
获得的分数xi | 10 | 20. | 36 | 40 | 50 | 56 | 60 | 70 | 72 | 80 | 88 | 92 | 95 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
学生人数 | 1 | 1 | 3. | 4 | 3. | 2 | 4 | 4 | 1 | 1 | 2 | 3. | 1 |
解决方案:为了找到平均值,我们需要每个xi与相应频率fi的乘积。
获得的分数(xi) | 学生人数(fi) | fixi |
---|---|---|
10 | 1 | 10 |
20. | 1 | 20. |
36 | 3. | 108 |
40 | 4 | 160 |
50 | 3. | 150 |
56 | 2 | 112 |
60 | 4 | 240 |
70 | 4 | 280 |
72 | 1 | 72 |
80 | 1 | 80 |
88 | 2 | 176 |
92 | 3. | 276 |
95 | 1 | 95 |
总计 | Σf我= 30 | Σf我x我= 1779 |
“x =(Σf_i \ x_i) /(Σf_i)”
' = (1779) / (30) = 59.3
直接求平均值法:
在我们现实生活中的大多数情况下,数据通常非常大,为了进行有意义的研究,需要将其压缩为分组数据。因此,我们需要将给定的未分组数据转换为分组数据,并设计一些方法来求其均值。
让我们通过形成宽度为15的类间隔,将例1中的未分组数据转换为分组数据。请记住,在为每个班级分配频率时,任何班级上限的学生都将被考虑在下一个班级,例如,4名获得40分的学生将被考虑在40-55年级,而不是25-40年级。有了这个约定,让我们形成一个分组频率分布表。
类的间隔 | 汽车销售 | 批准 | 40-55 | 55 - 70 | 70 - 85 | 85 - 100 |
---|---|---|---|---|---|---|
学生人数 | 2 | 3. | 7 | 6 | 6 | 6 |
现在,对于每个类区间,我们需要一个点作为整个类的代表。假设每个类区间的频率以其中点为中心。因此,可以选择每个类的中点(或类标记)来表示落在类中的观测值。
班级分数=(班级上限+班级下限)/2
组距 | 学生人数(fi) | 班级标志(xi) | fixi |
---|---|---|---|
汽车销售 | 2 | 17.5 | 35 |
批准 | 3. | 32.5 | 97.5 |
40-55 | 7 | 47.5 | 332.5 |
55 - 70 | 6 | 62.5 | 375.0 |
70 - 85 | 6 | 77.5 | 465.0 |
85 - 100 | 6 | 92.5 | 555.0 |
总计 | Σf我= 30 | Σf我x我= 1860 |
“x =(Σf_i \ x_i) /(Σf_i)”
' = (1860) / (30) = 62
这种求平均值的方法被称为直接法。在这里,59.3是准确的平均值,而62是一个近似的平均值。
假设平均方法:
有时,当xi和fi的数值很大时,求xi和fi的乘积变得乏味和耗时。因此,对于这种情况,让我们想一个减少这些计算的方法。
fi不能做任何事情,但每个xi可以改变为一个更小的数字,使计算更容易。
第一步是从xi中选择一个作为假设的平均值,并用“a”表示。此外,为了进一步减少计算工作量,我们可以取“a”为位于x1, x2,…,xn中心的xi。因此,我们可以选择a = 47.5或a = 62.5。
设a = 47.5。
下一步是求a和每一个xi之间的差di,也就是说,a与每一个bdapp官方下载安卓版xi的偏差。
即,di = xi - a = xi - 47.5
第三步是求di与对应fi的乘积,然后求所有fi di的和。
组距 | 学生人数(fi) | 班级标志(xi) | Di = xi - a | fidi |
---|---|---|---|---|
汽车销售 | 2 | 17.5 | -30年 | -60年 |
批准 | 3. | 32.5 | -15年 | -45年 |
40-55 | 7 | 47.5 | 0 | 0 |
55 - 70 | 6 | 62.5 | 15 | 90 |
70 - 85 | 6 | 77.5 | 30. | 180 |
85 - 100 | 6 | 92.5 | 45 | 270 |
总计 | Sum fi = 30 | 和fidi = 435 |
所以,偏差的均值
' d =(Σf_i \ d1) /(Σf_i) = (435) / (30) = 14.5
由于d由xi减去a得到,所以x可得如下:
' x = d̅+ a = 14.5 + 47.5 = 62 '
阶梯偏差法求均值:
在上面的方法中,di的所有值都是15的倍数,这相当于类的大小。因此,为了使计算更简单,让我们将di的所有值除以15,以得到更小的fidi
组距 | 学生人数(fi) | 班级标志(xi) | Di = xi - a | UI = di/h | fiui |
---|---|---|---|---|---|
汽车销售 | 2 | 17.5 | -30年 | -2 | 4 |
批准 | 3. | 32.5 | -15年 | -1 | 3 |
40-55 | 7 | 47.5 | 0 | 0 | 0 |
55 - 70 | 6 | 62.5 | 15 | 1 | 6 |
70 - 85 | 6 | 77.5 | 30. | 2 | 12 |
85 - 100 | 6 | 92.5 | 45 | 3. | 18 |
总计 | Sum fi = 30 | Sum fiui = 29 |
“u =(Σf_i \ u_i) /(Σf_i) = 29/30 '
“x = a +胡”
“xx29/30 = 47.5 + 15 = 62”
(因为u是在d除以类大小后得到的,所以' a+d = a+hu ')
注意事项:
- 如果所有di都有公因式,那么步进偏差法应用起来很方便。
- 三种方法得到的平均值是相同的。
- 假设均值法和步进偏差法只是直接法的简化形式。
分组数据的模式
模态是观测值中最常出现的值,也就是说,观测值的频率最大。有可能有多个值具有相同的最大频率。在这种情况下,数据被称为多模态数据。
模式”= l + ((f_1-f_0) / (2 f_1-f_0-f_2))特加重的
式中l =模态类的下限,
H =类间隔的大小(假设所有类大小相等),
F1 =模态类的频率,
F0 =模态类之前的类的频率,
F2 =继模态类之后的类的频率。
让我们根据上表计算模式:
L =40, h = 15, f1 = 7, f0 = 3, f2 = 6
模式”= 40 + (7)/ (14-3-6)xx15 = 52 '
分组数据中位数
中位数是集中趋势的度量,它给出了数据中最中间的观察值。找到中位数的第一步是按升序对数据进行分组。
如果中间观测值位于奇数位置,则中位数' =(n + 1)/(2) '
如果中间观测值在偶数位置,则median =
中位数' = (n / 2 + n / 2 + 1) / (2) '
也就是说,它是中间观测值和中间观测值后继值的平均值。
让我们从第一个表中获取数据:
是获得 | 频率 | 累积频率 |
---|---|---|
10 | 1 | 1 |
20. | 1 | 2 |
36 | 3. | 5 |
40 | 4 | 9 |
50 | 3. | 12 |
56 | 2 | 14 |
60 | 4 | 18 |
70 | 4 | 22 |
72 | 1 | 23 |
80 | 1 | 24 |
88 | 2 | 26 |
92 | 3. | 29 |
95 | 1 | 30. |
这里的观察数是30
因此,中位数将是第15次和第16次观测值的平均值。
第十五次观测是60
第16次观测是70
平均= 65中位数
均值是集中趋势最常用的度量,因为它考虑了所有的观测值,并且位于极端值之间,即整个数据的最大和最小观测值。它还使我们能够比较两个或多个分布。
但是,数据中的极值会影响平均值。
在个别观察结果不重要的问题中,我们希望找到一个“典型的”观察结果,中位数更合适,例如,寻找工人的典型生产率,一个国家的平均工资等。这些都是极端值可能存在的情况。所以,我们用中位数代替平均值,来更好地衡量集中趋势。
在需要确定最常见的价值或最受欢迎的项目的情况下,该模式是最好的选择,例如,找到最受欢迎的电视节目。
备注:
集中趋势的三种测量方法之间存在经验关系:
3中位数=模式+ 2平均值