基于统计规则的族群网页正文提取方法及系统

被引:0
专利类型
发明
申请号
CN202211200790.9
申请日
2022-09-29
公开(公告)号
CN115510307B
公开(公告)日
2025-07-15
发明(设计)人
陈通 展一鸣 李晓 王瑞霜 杨春 纪丽萍
申请人
山东亿云信息技术有限公司
申请人地址
250101 山东省济南市高新技术产业开发区舜华路2000号舜泰广场3号楼12层
IPC主分类号
G06F16/9532
IPC分类号
G06F16/334 G06F16/958
代理机构
济南圣达知识产权代理有限公司 37221
代理人
祖之强
法律状态
著录事项变更
国省代码
江苏省 常州市
引用
下载
收藏
共 50 条
[31]
一种网页正文提取方法和装置 [P]. 
徐晓龙 ;
张志一 ;
张颍辉 ;
李健铨 ;
胡加明 .
中国专利 :CN118377950A ,2024-07-23
[32]
一种基于标点连续性的通用网页正文提取方法及其系统 [P]. 
胡海斌 ;
赵庸 ;
张雪峰 .
中国专利 :CN102591612A ,2012-07-18
[33]
基于最大文本密度的网页正文抽取方法 [P]. 
蒋昌俊 ;
陈闳中 ;
闫春钢 ;
丁志军 ;
王鹏伟 ;
何源 ;
夏琳娟 .
中国专利 :CN103714176A ,2014-04-09
[34]
基于标签路径和文本标点比特征融合的网页正文提取方法 [P]. 
黎嘉朗 ;
古万荣 ;
田绪红 ;
毛宜军 ;
李吉平 .
中国专利 :CN107894974A ,2018-04-10
[35]
一种改进的基于行块分布函数的网页正文提取方法 [P]. 
陈嘉锴 ;
戴宪华 .
中国专利 :CN115080891A ,2022-09-20
[36]
一种网页正文的识别处理方法及装置 [P]. 
禹庆华 ;
叶盛 ;
李凯 ;
沈鹏 ;
李国辉 .
中国专利 :CN110795933A ,2020-02-14
[37]
基于网页文本和图像的信息隐藏系统、方法及提取方法 [P]. 
王益 ;
常清雪 .
中国专利 :CN106777061A ,2017-05-31
[38]
一种网页正文解析方法、系统、介质及电子设备 [P]. 
辛国茂 ;
王瑞霜 ;
吴士伟 ;
陈通 ;
卢凤 ;
杨春 .
中国专利 :CN113392354B ,2021-09-14
[39]
基于词性分类统计的重复网页和近似网页的识别方法 [P]. 
安俊秀 ;
程芃森 ;
王鹏 .
中国专利 :CN102722526B ,2012-10-10
[40]
网页正文的识别方法、装置、电子设备及存储介质 [P]. 
余良 .
中国专利 :CN113537091B ,2024-05-03