第三节 问卷和抽样的设计
一、问卷设计(熟悉)
(一)问卷的概念与类型
问卷也称调查表,它是调研者根据调研目的和要求,设计出的由一系列问题、备选答案及说明组成的、向被调查者收集资料的一种工具,也是市场调研中收集资料和数据的一种基本方式。
1.根据调研题目的类型,问卷可分为开放式问卷和封闭式问卷。
开放式问卷是问卷设计者提供问题,由被调查者自行构思,自由发挥,从而按自己意愿答出问题的问答题型。
封闭式问卷也称结构性问卷,是将问题的内容和可供选择的答案做了精心的设计,被调查者只能在规定的答案范围内进行选择。
封闭式问卷既便于被调查者回答,又便于资料的统计处理;开放式问卷则不限制回答范围,由被调查者自由回答。
目前市场调查中常用的问卷是封闭式的,但在问卷的最后加上一个或几个开放式问题,用于收集一些封闭式问题中未能包含在内的、更加生动活泼、具体的资料。
2.根据调研方式,问卷可分为派员访问问卷、电话调查问卷、邮寄调查问卷、网上调查问卷和座谈会调查问卷等。
3.根据问卷的填答方式,问卷可分为自填式问卷和代填式问卷。自填式问卷一般由被调查者使用,代填式问卷则由经过专业培训的调查员使用。
(二)问卷的结构
调查问卷一般由三大部分组成:问卷开头部分、问卷正文和结尾部分。
1.问卷的开头部分主要包括问候语、调查说明和编号
具体包括:(1)称呼、问候,(2)调查的主办单位、调查人员自我介绍,个人身份;(3)被访问者的通讯地址和联系方式,以备检查校对使用;(4)简要地说明调查的内容、目的、填写方法;(5)说明作答的意义或重要性,(6)说明所需时间;(7)保证作答对被调查者无负面作用,并替他保守秘密,(8)表示真诚的感谢,或说明将赠送小礼品。问卷的开头是十分重要的,语言表达要有说服力,要适合那些作为调查样本的调查对象。
2.问卷的正文
正文包括收集的资料和基础数据两部分:
(1)收集的资料是问卷的主体,也是使用问卷的目的所在。问卷的主体或内容包括了各种问题和备选答案。这些问题蕴含着大量的用来解决市场营销中实际存在的问题的信息,因此,对这部分内容的设计是问卷设计研究的重点;
(2)基础数据,一般包括家庭的人口统计学上的特征,如家庭的大小、性质和收入,以及被调查者的性别、年龄、文化程度、职业等。
3.结尾
同卷的结尾一般可以加上1—2道开放式题目,给被调查者一个自由发表意见的机会。然后,对被调查者的合作表示感谢。在问卷的最后,一般应附上一个“调查情况记录”。这个记录一般包括:(1)调查人员(访问员)姓名、编号,(2)受访者的姓名、地址、电话号码等,(3)问卷编号;(4)访问时同;(5)其他,如设计分组等。
(三)问卷设计的程序
问卷设计的程序是.
1. 明确所要收集的信息。明确所要收集的信息是问卷设计的第一步。
2.问题的内容。
3.问题的措词。(1)提问句要清晰、简明;(2)提问句的长度适当,尽可能保证简明扼要,(3)避免含糊不清、意思不明确;(4)避免易误解的词语和诱导性或负面问题;(5)尽量避免否定式问题;(6)避免对问题进行评估和概括;(7)避免假设性问题和暗含假设的问题;(8)答案选择不应重叠;(9)应该避免双重问题。
4.回答问题的方式。回答问题可以是开放式的,也可以是封闭式的。但一般情况下是以封闭式的为主,在结尾部分,安排1—2个问题采用开放式的。封闭式问卷中主要的题目类型有两项选择法、多项选择法、顺位法、李克特量表法、语义差异量表法、项目核对法、配合法、配对比较法等。
5.问题的顺序。一般来说,问题的顺序应从评估到诊断,然后进行归纳分类。
6.问卷的布局。
7.问卷的预测试和修订。
8.准备最后的问卷。
二、抽样设计(掌握)
(一)抽样调查概述
1.抽样调查的概念
抽样调查是指从研究对象的总体中抽取一部分单位作为样本进行调查,据此推断有关总体的数字特征。
总体 |
是根据一定研究目的而规定的所要调查对象的全体组成的集合。 |
例如:要对北京市的大学生月生活费进行调查,总体就是北京市所有的大学生,总体单位就是每一位大学生 |
样本 |
是总体的一部分,是由从总体中按一定程序抽选出来的那部分总体单位所组成的集合 |
假设北京有100 所高校,每所高校抽取20人,共2000人,形成样本。 |
2.抽样调查的特点
(1)抽样调查是非全面调查。它是按照科学的原理和计算,从若干单位组成的事物总体中,抽取部分样本单位来进行调查、观察,用得到的调查标志的数据代表总体,推断总体。
(2)调查样本是按随机的原则抽取的,在总体中每一个单位被抽取的机会是均等的。因
此,能够保证被抽中的单位在总体中的均匀分布,不致出现倾向性误差,代表性强。
(3)抽样调查是以抽取的全部样本单位作为一个“代表团”,用整个“代表团”来代表总体,而不是用随意挑选的个别单位代表总体,调查样本具有充分的代表性。
(4)所抽选的调查样本数量有保证。所抽选的调查样本数量是根据调查误差的要求,经
过科学的计算确定的,因此,在调查样本的数量上有可靠的保证。
(5)调查结果的准确程度较高。在调查前就可以根据调查样本数量和总体中各单位之间的差异程度进行计算,可以把样本误差控制在一定范围之内,调查结果的准确程度比较有把握。
基于以上特点,抽样调查被认为是非全面调查方法中推算和代表总体最完善、最有科学根据的方法。
3.抽样调查的步骤
(1)界定总体;(2)制订抽样框(或抽样结构:指总体的名单。例如要对北京市的大学生进行调查,总体就是全体大学生,抽样框就是所有大学生的名单);(3)分割总体;(4)决定样本规模;(5)确定调查的信度(可靠性)和效度(有效性);(6)决定抽样方式;(7)实施抽样调查并推测总体等。
(二)概率抽样方法
概率抽样也称随机抽样,是使总体中的每一个单位都有一个已知的、不为零的概率进入样本的抽样方法。
概率抽样具有三个特点:
(1)概率抽样是以随机原则为基础的;
(2)概率抽样必须通过一定的随机化程序来实现;
(3)概率抽样的抽样误差是可计算和可控制的。
概率抽样的方法主要有五种:
1.简单随机抽样
简单随机抽样也称纯随机抽样,即对总体单位不进行任何分组排列,仅按随机原则直接从总体中抽取样本,使总体中的每一个单位均有同等的被抽取机会。
如果总体规模不太大,实施起来也不困难,如果总体规模相当大,简单随机抽样实施起来就很难,因为首先它要求一个包括所有总体单位的抽样框,这很难办到。其次用简单随机抽样得到的样本单位较为分散,调查不易实施,因此在实际中直接采用简单随机抽样的并不多。
例如:采用简单随机抽样对全国的大学生进行调查,第一、很难拿到所有大学生的名单,第二、这些大学生太分散,不容易进行调查。
2.等距抽样
等距抽样也称为系统抽样或机械抽样。首先它将总体中各单位按一定顺序排列,根据样本容量的要求确定抽选间隔,然后随机确定起点,每隔一定的间隔抽取一个单位。
·根据总体单位排列方法,等距抽样的单位排列可分为三类:按有关标志排队、按无关标志排队以及介于按有关标志排队和按无关标志排队之间的按自然状态排列。
·按照具体实施等距抽样的做法,等距抽样可分为:直线等距抽样、对称等距抽样和循环等距抽样三种。
例:某连锁超市要从某地区的100个超市中抽取10个进行调查,采用等距抽样如下:
第一步,按销售额由小到大的方式将总体中所有个体排序并编号:1、2、…100
第二步,计算抽样间隔K,总体数(N)÷样本数(n)=100 ÷ 10=10,抽样距离为10;
第三步,用简单随机抽样在抽样距离内(1~K)确定起始编号,假设抽中3;
第四步,根据起始号和抽样间隔确定10个应抽取的个体,最终抽取的编号分别为3、3+1K、3+2k、…、3+9K,即3、13、23、33、…、93共10个超市组成样本。
优点 |
第一,易于实施,工作量少。与简单随机抽样一样,等距抽样也要收集总体的名单,将总体中的所有单位进行编号。不同的是,它不需要多次使用随机数表抽取个体,只需进行一次随机抽取,其他按抽样间隔抽取即可。此外,等距抽样在某种情况下不必像简单随机抽样那样对总体单位进行统一编号,只要总体单位的排列次序是随机的,就可依已排好的次序,从中等距抽取。 |
缺点 |
由于等距抽样是以总体单位的无规律排列为前提的,如果总体单位的排列出现规律性,特别是周期性时,就可能会使抽样出现系统偏差。 |
3.分层抽样
所谓分层抽样,就是先将总体按照一种或几种特征分为几个子总体(类、群),每一个子总体称为一层,然后从每一层中随机抽取一个子样本,将子样本合在一起,即为总体的样本。
按照各层之间的抽样比是否相同,分层抽样可分为等比例分层抽样与非等比例分层抽样两种。
例:根据某产品的销售统计数据,家庭用户总体为4万户,其中,低收入家庭为1.2万户,中等收入家庭为2万户,高收入家庭为8千户。为进一步研究该产品用户使用状况,需对300户进行抽样调查,如采用分层抽样,则低、中、高收入家庭用户的样本容量分别为:
家庭收入分层 |
户数(万) |
所占比例(%) |
各层样本容量 |
低 |
1.2 |
30 |
90 |
中 |
2 |
50 |
150 |
高 |
0.8 |
20 |
60 |
总计 |
4 |
100 |
300 |
优点 (1)当一个总体内部分层明显时,分层抽样能够提高样本的代表性,从而提高由样本推断总体的精确性; 缺点 调查者必须对总体情况有较多的了解,否则无法进行恰当的分层
(2)分层抽样特别适用于既要对总体参数进行推断,也要对各子总体(层)的参数进行推断的情形,例如一项全国性抽样调查,若以省为层,那么调查以后既可进行全国性的统计,也可获得各省的统计数据;
(3)分层抽样实施起来灵活方便,而且便于组织。
4.整群抽样
整群抽样是先将总体中各单位归并成若干个互不交叉、互不重复的群(或“集合”),然后以群为抽样单位抽取样本的一种抽样方式。整群抽样特别适用于缺乏总体单位的抽样框。
应用整群抽样时,要求各群有较好的代表性,即群内各单位的差异大,群间差异小。
例:调查某省的登记选民,可以选择用该省各县的清单作抽样框。假设该省共有1200个县,则抽样框中的数量为1200,从中抽取200个县进行调查。在这个方法中,每个县(或群)包含一组登记选民,而该省的每个登记选民只属于一个群。
优点 |
易于取得抽样框,便于组织,可以节省人力,物力和财力 |
缺点 |
样本分布不均匀,样本的代表性差。与其他抽样方法相比,在样本容量相同的情况下,抽样误差较大。 |
5.多阶段抽样
多阶段抽样也称为多级抽样,是指在抽取样本时,分为两个或两个以上的阶段从总体中抽取样本的一种抽样方式。其具体操作过程是:第一阶段,将总体分为若干个一级抽样单位,从中抽选若干个一级抽样单位入样;第二阶段,将入样的每个一级单位分成若干个二级抽样单位,从入样的每个一级单位中各抽选若干个二级抽样单位入样,依此类推,直到获得最终样本。
例:根据整群抽样的例子,如果针对选中的200个县,再从中按照简单随机抽样抽取样本,则属于二阶抽样,依次类推。
相对于分层抽样和整群抽样,多阶段抽样的优点在于适用于抽样调查的面特别广,没有一个包括所有总体单位的抽样框,或总体范围太大,无法直接抽取样本等情况,相对地,可以节省调查费用。其主要缺点是抽样时较为麻烦,而且由样本对总体进行估计比较复杂。
(三)非概率抽样方式
非概率抽样,又称为不等概率抽样或非随机抽样,是调研者根据自己的方便或主观判断抽取样本的方法。
可以根据样本调查的结果也可在一定程度上说明总体的性质、特征,但不能从数量上推断总体。
|
|
优点 |
缺点 |
例子 |
偶遇抽样 |
也称就近抽样、方便抽样或自然抽样。它是指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为调查对象,或者仅仅选择那些离得最近的、最容易找到的人作为调查对象 |
方便省力 |
样本的代表性差,有很大的偶然性,不能依赖偶遇抽样得到的样本来推论总体 |
街头拦访 |
主观抽样 |
也称目标式抽样、判断式抽样或立意抽样。它是调查者根据研究的目标和自己主观的分析,来选择和确定调查对象的方法。 |
可以充分发挥研究人员的主观能动性 |
样本的代表性难以判断,不能推论 |
要对福建省旅游市场状况进行调查,有关部门选择厦门、武夷山、泰宁金湖等旅游风景区作为样本调查 |
滚雪球抽样 |
无法了解总体情况时,可以从总体中的少数成员入手,对他们进行调查,向他们询问还知道哪些符合条件的人,再去找那些人并询问他们知道的人 |
|
|
例如针对非自愿下岗女工进行调查。 |
定额抽样 |
从对总体性质的了解开始,在某一总体中考虑具有某种属性的人数所占的比例,然后从具有这种属性的人群中收集数据,并按各类人在总体中的比例赋予它的适当的比重 |
|
定额的比例必须精确,但由于最新的关于总体性质变化的信息并不容易得到,往往造成抽样中的偏差 |
|
定额抽样例子:
某大学有4000名学生,其中男生占60%,女生占40%,管理类和理工类学生各占50%,大一、大二、大三和大四的学生比例分别为40%、30%、20%、10%,现要抽取500人进行调查
|
男 |
女 | ||||||||||||||
|
管理类 |
理工类 |
管理类 |
理工类 | ||||||||||||
年级 |
一 |
二 |
三 |
四 |
一 |
二 |
三 |
四 |
一 |
二 |
三 |
四 |
一 |
二 |
三 |
四 |
人数 |
60 |
45 |
30 |
15 |
60 |
45 |
30 |
15 |
40 |
30 |
20 |
10 |
40 |
30 |
20 |
10 |
(四)抽样中的误差问题
进行抽样调查可产生两类误差,一类是抽样误差,另一类是非抽样误差。
1.抽样误差
■抽样误差是指严格按照随机原则抽样时,所得样本统计值与总体参数值之差,主要指样本平均数与总体平均数之差、样本比率与总体比率之差。
■抽样平均误差,是指所有可能出现的样本统计值的标准差。
通常运用最多的抽样平均误差是指样本平均数或样本比率的标准差。
在重复抽样条件下,运用得最多的计算抽样平均误差公式是简单随机抽样的平均误差公式。它又可以分为:
(1)样本平均数的抽样平均误差公式,即: ,式中ux为样本平均数的抽样平均误差,σ为总体标准差,n为样本个案数;
(2)样本比率的抽样平均误差公式: ,式中up为样本比率的抽样平均误差,P为总体比率,n为样本个案数。上述两个公式中的总体标准差σ与总体比率P都是未知的,因此实际计算时,则以样本标准差代替总体标准差,以样本比率代替总体比率。
对于不重复抽样,在总体个案数很大时,而样本个案数相对很小的情况下,一般都采用重复抽样的平均误差公式来代替。
虽然抽样误差不可避免,但可以减小,其措施有:(1)增加样本个案数;(2)适当选择抽样方式。例如,在同样条件下,不重复抽样比重复抽样的抽样误差小,又如在总体现象分类比较明显时,采用分层随机抽样比其他方法的抽样误差小。
2.非抽样误差
非抽样误差是指除抽样误差之外,由其他原因引起的样本统计量与总体真值之间的差异。导致非抽样误差的原因主要有:
(1)抽样框误差,是指因不准确或不完整的抽样框而引起的误差,如丢失目标总体单位(例如北京市女性消费习惯,采用电话调查,则排除了那些没有电话的女性)、包含非目标单位、复合连接(例如银行对储户进行调查,则在该银行有多个账户的顾客容易被抽中)、不正确的辅助信息和抽样框老化等;
(2)无应答误差,主要表现为低的答复率、不具代表性的样本;
(3)应答误差,主要表现为力图给出一个愉悦调查人员的答复、错误的记忆、疲劳或弄错了问题的性质、对主题缺乏了解、力图给出社会认同的答复、受到访问人员的影响等,这些误差都可能导致应答误差。
(五)样本容量的确定
样本容量又称“样本数”。它指一个样本的必要抽样单位数目。
1.直觉。即根据直觉来确定样本包含多少个样本单元。这种方法通常是在非概率抽样中应用。
2.统计精度。概率抽样的样本容量是在计算的基础上确定的,即在其他条件已定情况下,样本容量的确定主要取决于满足估计精确度的要求。样本量的基本公式为:n=Z2σ2/d2(式中:n为样本量,Z为置信区间,d为抽样误差范围,σ为标准差,一般取0.5)。
3.成本限制。根据分配给项目的经费来决定样本容量。
4.行业经验数值。行业经验数值指的是那些根据经验得到的数据。在运用非概率抽样方法,如定额抽样时,利用行业经验数值是非常有效率的。