yijie.net
域名年龄: 21年4个月23天HTTP/1.1 302 Found 连接:关闭 其他指令:不缓存 缓存控制:不缓存 目标网址:/ HTTP/1.1 200 OK 缓存控制:不缓存 其他指令:不缓存 类型:text/html; charset=utf-8 Content-Encoding: gzip 过期时间:2025年07月27日 08:39:11-1 动作:Accept-Encoding 服务器:Microsoft-IIS/7.5 ASP.NET版本:4.0.30319 语言环境:ASP.NET 访问时间:2014年11月08日 12:56:08 文件大小:332 文件时间(秒):0 连接:keep-alive 网站编码:utf-8
矿工采集器博客Skip to content← Older postssocket接收chunked数据Posted on 2013 年 7 月 20 日 by sominer一般情况下,socket在进行http请求并接收数据,是根据返回的头部信息content-length来确定数据大小的,但对于 chunked编码方式,返回的头部没有content-length信息,只有transfer-coding:chunked,表示采用了 chunked编码传输内容。特别注意:请求http时,必须是1.1,http1.1之后支持chunked,如果是采用1.0,返回的头部信息即不包含content-length也不包含transfer-coding,看来熟悉http协议非常必要啊,就这个小问题让我困扰的一阵子。如 果采用了chunked,接收数据时,需要按照chunked的格式进行接收,实际chunked的格式非常好理解,16进制数字\r\n数据\r \n{…..}0\r\n\r\n,16进制数字代表数据的长度,这是一组数据,会有很多组,最终以0\r\n\r\n结束;实际只要知道了是这样的 一种格式,就很容易了。首先接收http头信息,接收完成后,判断头信息结束标识为:\r\n\r\n,接收完成后,判断 transfer-coding:chunked,如果采用了chunked编码,则首先开始接收16进制数字,判断标准\r\n结束,转换成10进 制,c#转换 Convert.ToInt32(接收的数据, 16),转换后,定义数组,并开始接收数据,数据接收完成后,继续接收数据,并判断是否为0\r\n\r\n,如果是,则结束,如果不是,则开始进行循环 接收数据。如果采用了GZip编码,接收数据后,拼接一个大数组,该解压解压,该转成源码就转成源码,其他的操作就都一样了。Posted in 杂谈|Leave a commentV5.0.1增加的功能Posted on 2013 年 7 月 2 日 by sominer恢复了触发器的功能;增加了二次提取数据可下载文件的功能;增加了部分数据编辑规则:处理下载文件、转拼音;支持数据加工插件多次调用加工数据;增加强制直接提交sql语句进行数据发布操作,直接提交sql意味着您可用sql函数了;强制多页采集时,数据进行1对1的合并操作;增加了网址同步参数增加了网址当前日期及8位日期参数;增加发布数据支持获取cookie类插件的支持;Posted in 杂谈|Leave a comment74CMS发布插件讲解Posted on 2013 年 7 月 1 日 by sominer当前已经针对74CMS制作了用户注册插件及招聘信息发布插件,马上还会提供简历发布插件。插件的使用与其他插件相同,简单介绍一下74cms插件的使用流程1、采集数据,采集数据后,可通过数据加工规则,按照企业名称产生用户名,可将企业名称的无用信息去掉,同时自动产生拼音字段;2、根据产生的用户名调用插件进行用户自动注册,注册时,需要选择“注册后自动完善企业注册信息”此时在注册用户时,系统会自动将企业信息进行完善,如果您在采集的时候也采集了企业数据,可以通过采集的数据进行完善,如果您未采集企业数据,可在下面的表格中输入固定的企业资料,发布招聘信息时可以对联系方式进行修改;3、发布企业招聘信息,实际74cms发布数据并不是很复杂,有个麻烦的地方是需要将采集的数据与74cms的字典数据进行对应,譬如:地区,需要对应到74cms中的地区信息,对于这样的对应,在采集的时候可以进行数据的合法性处理,可以首先将数据规范化为74cms可识别的数据样式,在发布时直接发布即可。插件自带字典数据,此字典数据为74cms的字典。Posted in 插件规则|Leave a comment网络矿工伪原创的应用Posted on 2013 年 6 月 27 日 by sominerV5.0版本,数据加工规则增加了两个与伪原创有关的加工规则:同义词替换及段落合并;矿工系统支持用户自定义词库,同时也默认了一个系统词库,只要选择了同义词替换,系统就会根据系统词库的同义词进行替换操作,同时如果要用户指定了用户词库,小矿还会进行用户词库的替换。系统词库一般用来进行通用的同义词替换操作,譬如:很多->许多;但用户自定义词库替换可以指定一些行业相关的同义词,譬如:采集软件->采集器段落合并的意思是可以将小于一定字数的段落进行合并操作,改变分段,不影响整体文章。对于伪原创,还可以通过其他的规则来进一步实现,譬如:针对标题,附加一些前缀和后缀,改变标题,譬如:加一个分类什么的。针对伪原创第一步先这样实现,后期会继续优化此功能。Posted in 使用培训|Leave a comment30分钟掌握网络矿工视频教程Posted on 2013 年 6 月 10 日 by sominerPosted in 杂谈|Leave a commentV2013SP3修改版本号V5并正式发布Posted on 2013 年 6 月 10 日 by sominer最近一直在忙于V5的最后测试发布工作,之所以改为V5.0,是因为从V5.0开始,网络矿工提供免费版本。V5主要在原有基础上主要增加了两个功能:1、同义词替换及段落合并;2、支持发布模版。一句话概括各版本区别:免费版:面向个人采集用户提供,完善的数据采、编、发功能,但不提供直接入库;支持可视化采集及智能采集,整合了外部数据源管理,实现多数据源发布管理。不提供专属客户服务,有问题到论坛和QQ群寻求解决;对于一般采集用户足以;个人版:在免费版基础上增加了直接入库、文章伪原创、代理轮询采集,在采集支持上,支持了网址再加工和外部参数的配置(外部参数可进行关键词查询采集),进一步提升采集能力,提供QQ客服支持;专业版:在个人版的基础上,支持了自定义参数的配置、asp.net翻页识别及自定义HTTP Header,可进行异常复杂的数据采集,譬如:导航的动态参数传递等等;同时增加OCR识别功能,提供了发布类插件支持;提供免费配置采集任务的服务,免费配置的数量请参见功能服务列表;旗舰版:在专业版的基础上全面支持插件,同时提供网路雷达,可实现竞价数据监测、舆情监测等,提供静默运行模式;提供一定的技术支持服务,提供个性化视频培训教程制作服务;下载地址:http://www.soukey.com/download/index.aspxPosted in 杂谈|Leave a comment网络矿工V2012SP3测试版发布Posted on 2013 年 6 月 3 日 by sominer暂定为V2012SP3,主要增加了发布模版的功能,同时配置好发布规则后,采集数据后实现一键发布的操作,包括图片的上传。从开发计划上来看,此版本还将提供伪原创功能,伪原创最初计划以插件形式开发,但此功能对用户而言为重要功能,所以将内置在网络矿工各个版本中,方便大家使用。新版本下载地址:http://www.soukey.com/download/soft/11.aspx注意:采集任务需要升级了Posted
© 2010 - 2020 网站综合信息查询 同IP网站查询 相关类似网站查询 网站备案查询网站地图 最新查询 最近更新 优秀网站 热门网站 全部网站 同IP查询 备案查询
2025-07-27 08:39, Process in 0.0092 second.