一米树

网站正在维护中,请稍后访问。

联系电话:15283161253

技术支持: 优河马

00278 社会统计学
2021-07-30 16:06:40

社会统计学 知识点

.统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学,而非实质性学科。

.某班级有100名学生,为了了解学生消费水平,将所有学生按照学习成绩排序后,在前十名学生中随机抽出成绩为第三名的学生,后面以10为间隔依次选出第13、23、33、43、53、63、73、83、93九名同学进行调查,这种调查方法属于系统抽样

.样本(specimen)是观测或调查的一部分个体,总体是研究对象的全部。总体中抽取的所要考查的元素总称,样本中个体的多少叫样本容量。例如:为了解IT行业从业者收入水平,某研究机构从全市IT行业从业者随机抽取800人作为样本进行调查,此处800人就是样本。

.估计标准误说明回归直线的代表性,因此估计标准误数值越大,说明回归直线的代表性越小

.在频数分布表中,频率是指各组频数与总频数之比。在频数分布表中,比率是指不同小组的频数之比。在频数分布中,频率之和等于1(100%),所以频率密度之和也不一定等于1(100%)。

.职工的工龄属于数量标志

.统计总体是统计所要研究的事物的全体,由许多具有某种共同属性或特征的个别事物组成。组成总体的个别事物称为总体单位。统计总体同时具备同质性、大量性、变异性三个特征。

.所有的统计指标都是变量。

.两个定类变量之间的相关分析可以使用系数。离散系数的主要目的是比较多组数据的离散程度。两组数据的平均数不相等但是标准差相等,那么平均数大的离散程度小。

. 标准正态分布的均值一定等于0.正态分布中,值越小,则离散趋势越小。标准正态分布的均值一定等于0

.抽样推断的目的是以样本指标推断总体指标

.在某市随机抽取10家企业,7月份利润额(单位:万元)分别为72.0、63.1、20.0、23.0、54.7、54.3、23.9、25.0、26.9 ,那么这10家企业7月份利润额均值为39.19

.异众比率(variation ratio)是统计学名词,是统计学当中研究现象离中趋势的指标之一。异众比率指的是总体中非众数次数与总体全部次数之比。异众比率越大,各变量值相对于众数越离散。

.判定系数主要是用于说明回归方程中拟合优度的统计量。

.要了解400个学生的学习情况,则总体单位是每一个学生

.品质标志是说明总体单位的特征的,是不能用数值来表示的。如职工的性别、学历等。

.数值型变量(metric variable)是说明事物数字特征的一个名称,其取值是数值型数据。例如:工资收入。按照变量的连续性,可以把变量分为连续变量和离散变量。

.关于学生t分布,适用于任何形式的总体分布说法不正确

.根据一个样本均值求出的90%的置信区间表明总体均值有90%的概率会落入该区间内。

.推断统计是研究如何利用样本数据来推断总体特征的统计方法,对有限总体应该应用推断统计的方法。

.按照变量的连续性,可把变量分为连续变量和离散变量

.方差分析的目的是研究各分类自变量对数值型因变量的影响是否显著。在方差分析中,自变量是定类变量。在方差分析中,某一水平下样本数据之间的误差称为组内误差。

.分析统计资料,可能不存在的平均指标是众数

.对于线性回归,在因变量的总离差平方和中,如果回归平方和所占比例越大,那么两个变量之间相关程度越大

.随机误差是在遵守随机原则的条件下,用样本指标代表总体指标不可避免存在的误差

.简单随机抽样是从含有N个元素的总体中,抽取n个元素作为样本,同时保证总体中每个元素都有相同的机会入选样本。

.健康状况、企业所有制、工资级别可理解为品质标志

.线路图只是近似地按比例作图,在图上表注相应的距离,而线图是用线条表示和度量距离,因此要求准确地按比例绘制。例如:某地区2001-2010年人口总量(单位:万人)分别为98,102,103,106,108,109,110,111,114,115 .采用线图最适合描述这些数据

.若A与B是任意的两个事件,且P(AB)=P(A)*P(B),则称事件A与B相互独立

.中位数把总体单位某一数量标志的各个数值按照大小排序,位于正中处的变量值即为中位数。

.如果一组数据中某一个数值的标准分值为-1.5,这表明该数值比平均数低1.5个标准差

.在因变量的总离差平方和中,如果回归平方和所占的比例越大,则两变量之间相关程度越高

.在社会现象中,即使相同的意识作用也完全可能有不确定的结果,这就提供了概率论应用的可能性。

.组中值是上下限之间的中点数值,以代表各组标志值的一般水平。例如:某企业职工的月收入水平分为以下五组:1)1500元及以下;2)1500-2000元;3)2000-2500元;4)2500-3000元;5)元及以上,则3000元及以上这一组的组中值近似为3250元;例如:某城市居民家庭按年收入水平分为6组:10000元以下,10000~20000元,20000~30000元,30000~40000元,40000~50000元,50000元以上。则第一组和第六组的组中值分别为5000和55000

.对于右偏分布,平均数、中位数和众数之间的关系是平均数>中位数>众数

.以样本统计量估计总体参数,要求估计量的数学期望等于被估计的总体参数,这一数学性质称为有效性

.相关系数越大,两变量的相关程度不一定越高。

.影响抽样平均误差的因素。(1)总体指标的变异性 (2)样本容量的大小 (3)抽样组织的方式。

.如果物价与销售量之间的线性相关系数为-0.87,而且二者之间具有统计显著性,那么二者之间存在着高度相关。在假设检验中,虚无假设和备择假设有且只有一个成立

.总体和总体单位总体,就是作为统计研究对象的、由许多具有共性的单位构成的整体。也有人称之为母体。构成总体的每一个个体称为总体单位,简称单位,也成为个体。

.置信区间的大小表达了区间估计的精确性。用样本统计量的值构造一个置信区间,作为总体参数的估计,这种方法称为区间估计。

.当我们用图形描述甲乙两地区的人口年龄结构时,适合选用环形图。如果用一个图形描述比较两个或多个样本或总体的结构性问题时,适合选用环形图

.连续变量连续变量的数值是连续不断的。相邻两值之间可作无限分割,即可取无限数值。

.随机事件是在随机试验中,可能出现也可能不出现,而在大量重复试验中具有某种规律性的事件叫做随机事件(简称事件),例如:抛掷一枚硬币,观察其出现正面或反面的过程,就是随机试验,“正面向上”就是随机事件

.在因变量的总离差平方和中,如果回归平方和所占的比例越小,则自变量和因变量之间相关程度越低。

.随机误差在同一条件下,对同一量值进行多次测量时,其数值和符号以不可预见的方式而变化的那部分误差。

.统计分组就是根据统计研究的需要,按照一定的标志,将统计总体划分为若干个组成部分的一种统计方法。在统计分组时,在全距一定的情况下,组距越大,组数越少。

.分层抽样分层抽样也叫类型抽样,就是先将总体按照某种特征或属性分若干类别或层次,再按照一定比例在各个子类别或层次中随机抽取,最后将各抽取的单位合并成样本。

.对于线性回归,在因变量的总离差平方和中,如果残差平方和所占比例越大,那么两个变量之间相关程度越小。

.调查统计是整个统计工作的基础,只要有准确的统计数据,统计分析也不一定能得到准确的结论。统计调查中的调查时间有两个时间概念,即资料的所属时间和搜集资料的工作时间。

.对于左偏分布,平均数、中位数和众数之间的关系是众数>中位数>平均数。

.一盒乒乓球有6个新球,4个旧球,不放会抽取,每次任取一个,共取两次,可得(1)第二次才取到新球的概率;(2)发现其中之一是新球,可知另一个也是新球的概率。

解:设Ai= 第i次取得新球,i=1,2

  • 设C={第二次才取得新球},有C=12

P(C)=P(12)=P(1)P(21)=×=;

  • 设事件D= {发现其中之一是新球},E={其中之一是新球,另一个也是新球}

P(ED)=P(12)=P(1)P(21)=×=;

P(D)=P(12)+P(12)+P(12)  

   =+P(1)P(21)+P(1)P(2 1);

  =+×+×=;

P(E∣D)=== ;

.在假设检验中,如果所计算出的P值越大,那么检验的结果越不显著。

.为研究某种商品的价格(X)对其销售量(Y)的影响,收集了12个地区的有关数据,通过分析得到以下方差分析表为

  • 变差来源为SS,回归为6,残差为40158.08,总计为1642866.68
  • 变差来源为df,回归为1,残差为10,总计为11
  • 变差来源为MS,回归为6,残差为4015.808

商品销售量的变差中有97.56%是由价格引起的,具体算法为

.如果收入与支出之间的线性相关系数为0.92,而且二者之间具有统计显著性,那么二者之间存在着高度相关。

.在假设检验中,不拒绝虚无假设意味着没有证据证明虚无假设是错误的。统计检验可以帮助我们否定一个假设,却不能帮助我们肯定一个假设。

.某单位对该厂第一加工车间残品率估计高达13%,而该车间主任认为该比例 p偏高。如果要检验该说法是否正确,则假设形式应该为(H0:p≥0.13; H1:p<0.13)

.方差是各数值与均值离平方的平均数 ,标准差是方差的平方根。如果两个相互独立的随机变量X和Y的标准差分别是6和8,则(X+Y)的标准差是10。

.抽样单位是一次直接的抽样所使用的基本单位;抽样框指一次直接抽样时样本中所有抽样单位的名单。

.抽样调查是从总体中选取部分个体组成样本进行调查的一种方式,其目的在于根据样本的调查结果推断总体特征。因此,在各种非全面的调查组织形式中,重点调查和典型调查都重要。

.假设检验中的两类错误。(1)第I类错误(弃真错误),原假设为真时拒绝原假设,第I类错误的概率记为α,即显著性水平。(2)第II类错误(取伪错误),原假设为假时接受原假设,第II类错误的概率记为β。

.参数是研究者想要了解的总体的某种特征值;统计量是根据样本数据计算出来的一个量。

.配对样本是指一个样本中的数据与另一个样本中的数据相对应的两个样本;独立样本是指我们得到的样本总体之间是相互独立的。

. 总体和总体单位不是固定不变的。总体是构成它的所有个体的集合;样本就是从总体中按照一定方式抽取的一部分个体的集合。对某市高校的科研所进行调查,则统计总体是某市所有高校的科研所。

.抽样分布是指样本统计量的概率分布,它是在重复选取容量为N的样本时,由每个样本计算出来统计量数。

.总体的三个基本特征:大量性、同质性和变异性。

.二维表就是交叉的表格,将两个变量一个分行排放,一个分列排放,行列交叉处就是同属于两个变量的不同类的数据,也称为列联表。

.相关系数就是对变量之间相关关系程度和方向的度量。根据两现象计算的相关系数R中,R=0.86、R=-0.92、R=0.65中相关程度最高的是R=-0.92

.误差减少比例是在预测变量Y的值时,知道变量的X值时所减小的误差(E1-E2)与总误差E1的比值。

.散点图是在坐标系中,用横轴表示自变量X,用纵轴表示因变量Y,而变量组(X,Y)则用坐标系中的点。

.最小二乘法是对于变量X和Y的观察值,我们可以用很多直线去描述,但我们需要选用距离各观察值最近的一条直线,用它来描述X和Y之间的关系与实际的误差最小,根据这一思想来确定回归方程中参数的方法。

.概率,亦称“或然率”,它是反映随机事件出现的可能性(likelihood)大小。例如:在10道对错题中,每道题答对的概率是0.5,若各道题的回答相互独立,则答对5道题的概率为0.25。

.中位数是对中心趋势的一种测量,是将一组数据排序后,处于中间位置的变量值,用Me表示。

.分别说明数量标志和品质标志,并举例。(1)凡能用数量的多少来标识的标志,称为数量标志,如年龄。(2)凡不能用数量的多少来标识而只能用文字表述的标志,称为品质标志,如性别。

.区间估计是在估计总体参数时给出的不是一个数值,而是一个区间,是根据统计量的抽样分布的特点来进行估计,同时给出总体参数落入这一区间的可能性大小。

.假设检验是首先先对总体参数建立一个假设,然后根据样本信息去检验这一假设是否正确。

.均值是集中趋势最主要的测量值,它是将全部数据进行加总然后除以数据总个数。

.从装有24个球的袋中,随机抽出4个,其中有一个红球,说明红球的概率为0.25,那么袋中不一定有6个红球。

.假设检验的一般步骤。(1)陈述原假设和备择假设。(2)从所研究的总体中抽出一个随机样本。(3)确定一个适当的检验统计量.并利用样本效据算出其具体数值。(4)确定一个适当的显著性水平,并计算出其临界值,指定拒绝域。(5)将统计量的值与临界值进行比较,作出决策。(6)统计量的值落在拒绝域,拒绝HO,否则接受HO。

.置信水平就是将构造置信区间的步骤重复多次,置信区间包含总体参数真值的次数所占的比例。置信度与显著性水平之和为1。置信水平为95%的置信区间的含义是指在相同条件下多次抽样下,在所有构造的置信区间里大约有95%包含总体参数的真值。

.离散变量是指如果一个变量的变量值是间断的,可以一一列举的,这种变量称为离散变量;连续变量是值指如果一个变量的变量值是连续不断的,可以取无线多个数值的,这种变量称为连续变量。

.众数是一组数据中出现频数最多的数值,用Mo表示。众数对极端值的变化是最不敏感的

.某单位为研究其商品的广告费用(X)对其销售量(Y)的影响,收集了过去12年的有关数据。通过分析得到以下方差分析表:

变差来源

SS

df

MS

F

Sig.

回归

1602708.6

B

D

G

0.000

残差

40158.08

C

E

——

——

总计

A

11

——

——

——

 

  • 计算上表中的ABCDEG处的值。
  • 商品销售量的变差中有多少是由广告费的差异引起的?
  • 销售量与广告费之间的相关系数是多少?(可不用计算出具体数值)

解:

  • A=SS回归+SS残差=1602708.6+40158.08=1642866.68  

B=1                                                 

C=总计-B=11-1=10                                     

D=1602708.6/B=1602708.6                              

E=40158.08/C=4015.808                                 

G=D/E=1602708.6/4015.808=399.10                       

  • R2===0.9756                     
  • R==

销售量与广告费用之间的相关系数为             

.调查方法主要包括:(一)普查(census):为特定目的专门组织的非经常性全面调查,如人口普查、工业普查等 2.通常是一次性或周期性的3.一般需要规定统一的标准调查时间 4.数据的规范化程度较高 5.应用范围比较狭窄,只能调查一些最基本、最一般的现象;(二)抽样调查 1.从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来来推断总体特征的数据收集方法2.具有经济性、时效性强、适应面广、准确性高等特点。(三)重点调查 1.重点调查是指在调查对象中,只选择一部分重点单位进行的非全面调查。重点单位:着眼于现象量的方面而言,尽管这些单位在全部单位中只是一部分,但它们在所研究现象的标志总量中却占有绝大的比重,在总体中具有举足轻重的作用。(四)典型调查 典型调查是一种专门组织的非全面调查。根据调查的目的,在对所研究的对象进行初步分析的基础上,有意识地选取若干具有代表性的单位进行调查和研究,借以认识事物发展变化的规律。有人也认为它是“目的抽样” ,以若干具有代表性的单位为样本。

.对立事件是若事件A与事件B为互不相容事件,且在以此实验或观察中都必有其一发生,则称事件A与事件B为对立事件。

.回归是由英国著名统计学家 Francis Galton在19世纪末期研究孩子及其父母的身高时提出来。Galton发现身材高的父母,他们的孩子也高。比较矮的父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高要比他们父母的平均身高高。Galton把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他给出的研究两个数值变量之间数量关系的方法称为回归分析。回归分析是对具有相关关系的变量拟合数学方程,通过一个或一些变量的变化解释另一变量变化的方法。 如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称一元线性回归分析。

.统计调查误差可以分为抽样误差和非抽样误差。非抽样误差是由于调查过程中各有关环节工作失误造成的,从理论上看,这类误差是可以避免的。抽样误差是利用样本推断总体时所产生的误差,是不可避免的,但是可以计量和控制的。

.统计表主要是由标题(总标题和标目) 、横行和纵栏和数字资料三部分构成。统计表一般都包括总标题、横标题、纵标题、数字资料、单位、制表日期。总标题是指表的名称,它要能简单扼要地反映出表的主要内容,横标题是指每一横行内数据的意义;纵标题是指每一纵栏内数据的意义;数字资料是指各空格内按要求填写的数字;单位是指表格里数据的计量单位。在数据单位相同时,一般把单位放在表格的左上角。如果各项目的数据单位不同时,可放在表格里注明。制表日期放在表的右上角,表明制表的时间。各种统计表都应有“备考”或“附注”栏,以便必要时填入不表内各项的事实或说明。

.假设我国出口凤尾鱼罐头,标准规格是每罐净重250克,根据以往经验,标准差是3克。现某食品厂生产一批供出口用的这种罐头,从中抽取100罐检验,其平均净重是251克。假定罐头重量服从正态分布,规定显著性水平α=0.05,已知=1.96。那么检验这批罐头是否符合出口标准(即净重为250克)的方法为:假设H0:μ=250;H1:μ≠250,已知罐头重量服从正态分布,α=0.05,n=100  标准差为3,所以由此计算,那么Z=3.33>=1.96所以拒绝原假设H0,接受H1。即罐头的净重偏高,这批罐头不符合出口标准。

.某公司招聘职员时,要求对职员进行两项基本能力测试。已知, A 项测试中平均分数为90 分,标准差是12 分;B 考试中平均分数为200 分,标准差为25 分。一位应试者在A 项测试中得了102 分,在B 项测试中得了215 分。若两项测试的成绩均服从正太分布,该测试者在A项测试中比平均分高出1 个标准差,而在B项测试中比平均分高出0.6 个标准差。因而,可以说该测试者A 项测试比较理想

.某校社会学专业同学统计课成绩如下:学号为223023、223024、223025、223026、223027、223028、223029、223030、223031、223032、223033、223034、223035、223036,其成绩分别为:76、91、87、78、86、96、87、86、90、91、80、81、80、83、78、87,那么考试成绩由低到高排序:76  78  78  80  80   81  83  86  86  87  87  87  90  91  91  96,其众数为87,中位数为(86+85)/2=86.那么按照考试成绩分组(1)70~80分:频数为3,频率为19% 累积频率为25%;(2) 80~90分:频数为9,频率为56% 累积频率为75%;(3)90-100分:频数为4,频率为25% 累积频率为100%

.一项关于大学生体重状况的研究发现,男生的平均体重为60 千克,标准差为5 千克;女生的平均体重为50 千克,标准差为5 千克。那么Vs男<Vs女,即女生体重差异大,是因为根据离散系数公式,得到男女生体重离散系数为:;那么男生中有体重在55 千克-65 千克之间的是68.26%,;女生中有多少比重的人体重在40 千克-60 千克之间是95.44%;

.某汽车生产商欲了解广告费用(万元)对销售量(辆)的影响。收集了过去12 年的有关数据,通过分析得到:方程的截距为363,回归系数为1.42 ,回归平方和SSR=1600,残差平方和SSE=450。那么出销售量y 与广告费用x 之间的线性回归方程是y=363+1.42x;假如明年计划投入广告费用为25 万元,根据回归方程估计明年汽车销售量为当x=25 时,y=363+1.42×25=398.5;计算判定系数表明在商品销售量的总变差中,有78%可以由回归方程解释,说明回归方程的拟合程度较好。

 

热门题目

专业推荐

该网站由优河马创建
该网站由优河马创建 立即创建