在IEEE通信学会的主题专家的方向在IEEE ICC这全文论文同行评审的出版2009程序敏感数据要求:做网站询问是否正确?克雷格A.树和Minaxi古普塔计算机科学系印第安纳大学{cshue,minaxi}@摘要:为了确保敏感的Web内容的安全性,一个组织必须使用TLS以确保这样做正确。
然而,很少有人知道如何使TLS实际使用在网站上。
在这项工作中,我们进行大规模的网络范围内的测量,以确定如果网站需要使用TLS的时候,当他们这样做,确保他们使用它正确。
我们发现,其中TLS几十万页要么不使用要么使用不当,将会使敏感数据处于危险之中。
引言该网站提供了电子商务前所未有的机遇。
此类交易的安全性是一般通过使用传输层安全提供性(TLS)协议[1],在标准跟踪安全的后继套接字层(SSL)协议。
TLS允许客户端验证他们访问和服务器的真实性保证在客户端之间的通信的保密性和服务器安全。
虽然以前的工作分析TLS证书和该协议本身,很少的工作重点在其网站上使用。
本文由愿望所驱使,了解TLS是怎么在今天的网络上被使用的。
Web内容的很大一部分是公开可用的,并且不要求保密性。
在很多情况下,如阅读新闻的文章或使用搜索发动机,TLS保护的好处不超过性能开销与该协议有关。
在其他情况下,敏感信息被发送并应通过TLS进行保护。
然而,仅仅使用TLS不够了;它仍然必须正确使用。
调查TLS使用在网络上,我们提出两个主要问题:是否有在网络上的网站,不使用TLS时,他们应注意什么?做到这一点使用TLS这样做正确的网站?动力对于第一个问题是敏感信息可能通过窃听者很容易被截获,除非使用TLS。
第二个问题是通过观察,TLS动机保护必须从Web服务器发送一个表格前到客户端。
否则,将含有一个表格页可以被攻击者改变,允许敏感截取数据。
几大机构,包括,,或,建立了TLS客户端后,保护已下载的网页,但在此之前提交表单数据。
这种做法,被称为安全的岗位,是通常由具有高体积的组织用户流量从未签署到页面上的表单。
此特别常见的,当窗体出现在主一个网站的页面。
这些组织使用安全后,以避免与TLS的nonauthenticating相关的性能开销客户端。
不幸的是,这种做法提供了anopening 攻击者假冒网站和推出 一个中间人攻击的Web 客户端。
为了研究这些安全性差的做法的程度,我们 实现了一个网络爬虫和检查HTML 表单 430万网页。
我们做了几个关键的观察 从这样的分析。
首先,网页31-36%不使用TLS 在所有的时候,他们应该。
为了解决这个问题,我们 已经实现了浏览器扩展,警告用户约 进入网页上做的核潜艇和信用卡号码 除了不使用TLS 来识别领域的询问敏感 数据。
这导致更少的,但更精确的警告。
在 手动评估分机的有效性,我们没有发现假阳性和两种可能的假阴性。
其次,我们发现不安全的网页,有形式,1.65%的 - 4.49%有被通过HTTPS 提交的至少一种形式中, 导致安全交漏洞。
如果剥削,不安全 入口点可能会导致欺诈,可能与显著 财务影响的用户和脆弱的部位。
我们提出了一个浏览器扩展,试图验证这些 使用TLS 提交敏感数据的切入点和 如果这样的验证失败发出警告。
本文的其余部分的结构如下。
在第二节, 我们讨论我们的数据收集和方法。
在第三节, 我们研究的网站,不提供TLS 保护敏感数据并提出了一些预防措施,用户可以利用。
在第 第四,我们分析认为滥用TLS 和建议clientbased 网站 策略来解决这个问题。
我们回顾相关 在第五节工作,并得出结论:在第六节。
II 。
数据收集和方法为了获得对TLS 使用的见解,我们进行了大规模的, Internet 范围的Web 爬行。
我们把我们的抓取成四 数据集,其被选择来捕获不同类型的 网页:热门的网页,这些访问的机器上我们 网络,并且这些随机选择的。
在第一数据集,我们把它称为DMOZ 广度的数据集,我们获得了从一个网址列表 DMOZ 开放目录项目[2]。
DMOZ 的项目包括 形成一个目录查找用户提交的链接的数据,而不是使用一个检索的方法。
数据集,收集在2008年2月13日,载9165163链接。
的这些,4025911联系是独一无二的。
大多数这些链接使用HTTP,HTTPS不,这意味着他们没有使用TLS。
共的2312链接使用TLS。
我们消除这些TLS保护因为在这些任何形式进一步考虑链接网页将牢固地被默认发送。
在courseof几个星期,我们能够以检索总共3213764从DMOZ链接的网页。
这广度为基础的抓取是肤浅的;它只检查直接链接的页面DMOZ。
虽然这种策略让我们的抓取工具来检查从大量的域的页面,它会无法捕捉形式的二级页面。
对于其余的数据集,我们进行了更详细的爬行。
对于每个这些数据集,我们得到一个URL一个首页,下载的网页和链接的任何页面从该页面是一样的DNS域的内原来的页面。
这个更详细的爬行限制的广度域,而发现的形式被直接从挂钩主页。
某些URL可能存在于多个数据集。
由于其独特的爬行方法,我们允许DMOZ宽度数据集与剩余的三个重叠没有试图消除??重叠。
所述第二数据集(DMOZ深度)再次使用从链接在DMOZ开放目录项目。
然而,而thanconduct一个完整的扫描,我们随机选择了16,500独特的链接来执行我们的抓取。
这使我们能够直接比较浅表抓取诗句详细的爬网的策略寻找形式。
我们获得78 726Web从这个抓取网页。
在我们的第三个数据集(Alexa的),我们分析了流行的Web站点。
我们使用的Alexa网络信息服务[3],这居互联网上最流行的Web站点,获取1,000最流行的网站在每个16顶级类别,以及前500个最流行的网站的整体。
有些网站存在于多个类别;在删除重复,我们发现15,341独特的网站。
我们使用的每个站点来自Alexa的获得首发的Web爬行网页。
此爬行导致344,868的网页。
在最后的数据集(DNS),我们针对实际用户行为。
要创建这个数据集,我们捕捉到所有的DNS对于为期一周的发行我们部门的网络上查询期。
我们使用包含在A(地址)的主机名记录查询为基础的Web爬行的URL。
此数据中包含164,145唯一的主机名。
从这个爬行,我们获得642,013的网页。
对于每一个数据集,我们分析每个网页的HTML代码我们下载。
我们使用的形式HTML标记来识别请求数据。
对于每一个表格,我们提取的地址服务的形式,所述形式的目的地,以及页面因为每个相关联的输入域。
从这些数据,我们可以表征数据的类型被发送,以及是否从用户请求的数据将被安全地传送。
我们研究了430万网页。
并非所有weexamined所含形式的网页。
然而,许多页containedmultiple形式,如表Ⅰ所示。
例如,在DMOZ 广度数据集,我们发现,一共有692869(21.55%)页包含总共1710819形式。
使用动作在每个表单标签属性,我们推测,如果正在使用TLS通过寻找HTTPS的存在。
否则,我们推断该形式传输不安全。
在每一个数据集,过95%与形式的网页只包含HTTP(不安全)形式。
数量相对较少,1.65%-4.49%,包含只能通过HTTPS提交表单。
我们注意到,热门的网页,那些在Alexa的数据集,具有页更高百分比表单和一些每页表格较高。
减热门的网页有形式的使用远远低利率。
总的来说,我们的数据包含3,333,646(96.69%),不安全的形式和113,994(3.31%),安全形式。
在接下来的两节中,我们分别检查不安全和安全的方式。
III。
在敏感数据请求TLS我们试图回答第一个问题是:是否有网站在网络上未使用TLS时,他们应注意什么?我们分析所有的333万的形式传输不安全朝着这个目标努力。
表征数据的传输的类型通过下表,我们推测使用的name属性在每个表格输入标记,以及类型属性HTML标记的被使用。
例如,在HTML下面的代码示例中,第三行包含一个输入标签同的类型属性“密码”,这很可能是考虑到Web用户敏感。
我们注意到,3线5,“用户名”和“密码:”只是为标签最终用户知道哪些数据在该领域进入;技术原因,这些目前尚未包括在我们的启发。
<form action=""method="post">Username: <input type="text"name="user"><br>Password: <input type="password"name="pass"><br><input type="submit" name="page"value="Login"></form>我们采用了两个简单的启发式分类材料敏感。
首先,我们检查是否有输入HTML场均型“密码”。
其他启发式是检查任何形式的相关标签的name属性以此来推断它们的用法。
例如,输入与字段“用户”作为名称属性可以推断放置“用户名”,一个数据,我们认为敏感。
与领域“查询”或“搜索”作为名称的属性更likelyto参与网络搜索;我们不认为这数据是敏感的。
我们开发的模式相匹配的值与name属性的表单字段来确定相关的数据请求。
我们进行分类,涉及到用户的数据身份证或户口敏感。
因此,我们认为用户名,密码,账号,地址,(信贷)信用卡号码,电子邮件地址,真实姓名,城市和电话号码是敏感的数据。
一些这方面的信息被认为是比其他数据更敏感。
例如,信用卡信息是可能比一个更敏感电子邮件地址。
然而,电子邮件地址被绑定到用户的身份和可用于跟踪目的。
有些人可能考虑自己的家乡城市是敏感数据,而其他人可能不是。
在这种分析中,我们专注于几件敏感数据,以确定请求的数目为数据,而不是创建一套详尽的敏感数据。
在表二中,我们列出要求敏感数据的类别通过不安全的形式。
每个输入字段进行分类完全通过一系列的规则。
例如,一个场与“密码”的类型属性分类只一个“密码字段,”不管在任何其他比赛中name属性。
然而,一个页面可以有多个类别敏感的表单字段,在这种情况下,它是根据每个计数的类型。
总体而言,我们发现,与网页31.39%-36.00%不安全的形式包含至少一个敏感的领域。
具体来说,我们发现,超过24万的网页包含不安全有输入标签为“密码”的形式类型属性。
每个密码字段导致Web浏览器模糊输入到字段中的文本,以防止他人看到进入用户的屏幕上的数据。
显然,在Web网站认为这个数据是有点敏感,但不它提供了切实的保障。
对领域的类别,其余在表二所列,我们寻找的名称模式输入标签的属性来推断请求的数据的类型。