| 首页 | 繁体中文 | 会员注册 | 会员登录 | 建议留言 |
杀庄分析杀庄推荐实用工具足球赛程完场赛果杀庄新闻杀庄赔率杀庄比分新二网1新二开户
新二网3新二网3新二网4新二网5新二手机网新二代理新二代理2新二查账此位招租此位招租

广告联系QQ:358973188  杀庄排行榜新文频道SEO知识百度的分词技术 产生了网站优化的奇迹

百度的分词技术 产生了网站优化的奇迹

文章分类:SEO知识   作者:114导航城   来源:网络   时间:2011/9/2 14:42:33   人气:2241   分享到QQ空间   收藏到QQ书签   推荐给朋友

百度的分词技术 产生了网站优化的奇迹 




    网站 优化 大家 都 知道 , 搜索引擎 工作 原理 中 有 一 步 预处理 , 将 抓取 的 页面 进行 几 道 工序 处理 下 , 为 之后 的 排名 机制 做好 初步 准备 。 在 预处理 过程 中 , 就 有 分词 这 一道 技术 工序 。 英文 是以 一个 单词 作为 基本 单位 , 单词 之间 用 空格 分割 连成 一句话 , 中文 是以 字 为 单位 中间 没有 连接 符 成为 一 句 话 。 所以 , 中文 分词 与 英文 分词 差别 很大 。 而 从 现 有的 搜索引擎 特别 是 百度 的 中文 分词 研究 表明 , 主要 是 基于 词典 匹配 和 基于 统计 。

    基于 统计 是 指 分析 大量 数据 样本 , 扫描 计算 出 字 或 词 或 句 出现 的 统计 概率 , 几 个 字 乡邻 出现 越多 , 就 越能 形成 一个 词 , 同样 的 可以 形成 句 。

    基于 词典 匹配 准确性 是 取决于 词典 的 完整性 和 时效性 , 速度 很快 。 基于 统计 的 分词 方法 更为 灵活 , 同时 有利于 消除 歧义 , 但 速度 较 慢 。 搜索引擎 的 中文 分词 往往 是 将 这 两 种 分词 技术 糅合 在 一起 使用 , 以 提高 速度 和 准确性 。

      这是 我们 所说 的 中文 分词 技术 , 那么 同样 的 基于 这些 中文 分词 技 术 , 我们 要 最大化 利用 , 回归 西安 网站 优化 博客 , 谈谈 对 中文 分词 技术 的 应用 和 揣测 。

 
    从 关键词 114导航城 优化 ” 会 被 拆分 为 “ 114 ” + “ 导航城 优化 ” , “ 114导航城 网站推广 ” 会 被 拆分 “ 114导航城 ” + “ 网站 ” + “ 推广 ” 或者 “ 114导航城 ” + “ 网站推广 ” 或者 “ 114导航城 网站 ” + “ 推广 ” 等 形式 。 这种 分词 可以 很 好 的 理解 , 并 在 我们 的 站点 中 得到 广泛 的 应用 。 百度 搜索 “ 114导航城 网站 优化 ” 前 20 个 结果 页 中 只有 一个 不是 完全 匹配 , “ 114导航城 网站推广 ” 前 20 个 结果 只有 四个 不是 完全 匹配

    从 关键词 “ 114 导航城 网站 优化 ” 可以 拆分 为 “ 114 ” + “ 导航城 ” + “ 网站 优化 ” 或 “ 114 导航城 ” + “ 网站 优化 ” 或 “ 114 ” + “ 114导航城 网站 优化 ” , 但是 这里 可以 基于 统计 拆分 为 “ 114导航城 网站 优化 ” + “ 114 ” 。 依 此 , 我 博客 的 标题 就 能 拆分 为 “ 114导航城 ” + “ 网站推广 ” 、 “ 114 ” + “ 网站 优化 ” 。 从 效果 上 看 , 有 这 几 点 因素 :

    ( 1 ) 有 个 主 次之 分 , 将 竞争 力大 的 词 放 一起 , 竞争力 小 的 词 进行 组合 拆分 。 我 博客 主 做 “ 114导航城 优化 ” , 分词 “ 114导航城 网站 优化 ”

    ( 2 ) 站点 中 要 出现 拆分 过 的 词 , 如 “ 114导航城 网站 优化 ” 等 , 这 是在 提醒 搜索引擎 是 这样 的 分词 , 还 可以 将 它们 加 粗 、 反 显 、 锚 文本 等 突出 分词 效果 。

    ( 3 ) 在外 部 链接 或 友情链接 建设 过程 中 , 除了 主 做 关键词 外 , 还要 做 拆分 的 词 。

    现在 还有 一 种 观点 就是 搜索引擎 逐渐 做到 去 模拟 中文 语法 , 去 理解 句子 。 “ 114导航城 网站 优化 - 导航城 网站推广 - 导航城 网站 优化 ” 完全 可以 拆分 为 “ 114导航城网站 优化 ” + “ 114导航城 网站 优化 ” + “ 114导航城 网站推广 ” + “ 114 导航城 网站推广 ” + “114 导航城 网站 优化 ” + “ 114导航城 网站 优化 ” 。 当然 汉语 的 博大精深 , 目前 的 机器 语言 还是 很 难 做到 基于 理解 的 分词 技术 。

    基于 词典 匹配 是 指 将 目标 词 或 句 与 已 有的 词典 中 的 词条 进行 匹配 处理 , 扫描 之后 匹配 成句 、 词 、 字 形式 。

    按照 扫描 方向 不同 , 可 分为 正向 匹配 和 逆向 匹配 。

    按照 匹配 长度 优先级 不同 , 可 分为 最大 匹配 和 最小 匹配 。

    按照 扫描 方向 和 长度 优先 混合 匹配 , 可 分为 正向 最大 匹配 和 逆向 最大 匹配 等 (114导航城更新-转载请注明:114导航城)

文章百度的分词技术 产生了网站优化的奇迹由本站会员【admin】发表 
上一篇:怎么样合理分配网站权重  下一篇:114导航城讲解 网站优化的网... 
【以上文章信息来自于网络,不代表本站观点,浏览者或使用者须自行承担有关责任,本网站恕不负责!】

更多 【相关文章浏览】

【每日阅读排行】

【每日热门站点】