使用 Node.js 对文本内容分词和关键词抽取

在讨论技术前先卖个萌，吃货的世界你不懂~~

众成翻译的文章有 tag，用户可以基于 tag 来快速筛选感兴趣的文章，文章也可以依照 tag 关联来进行相关推荐。但是现在众成翻译的 tag 是在推荐文章的时候设置的，都是英文的，而且人工设置难免不规范和不完全。虽然发布文章后也可以人工编辑，但是我们也不能指望用户或管理员能够时时刻刻编辑出恰当的 tag，所以我们需要用工具来自动生成 tag。

在现在开源的分词工具里面，jieba是一个功能强大性能优越的分词组件，更幸运地是，它有 node 版本。

nodejieba 的安装和使用十分简单：


npm install nodejieba
var nodejieba = require("nodejieba");
var result = nodejieba.cut("帝国主义要把我们的地瓜分掉");
console.log(result);
//[ '帝国主义', '要', '把', '我们', '的', '地', '瓜分', '掉' ]result = nodejieba.cut('土地，俺老孙的金箍棒在哪里？');
console.log(result);
//[ '土地', '，', '俺', '老', '孙', '的', '金箍棒', '在', '哪里', '？' ]result = nodejieba.cut('大圣，您的金箍棒就棒在特别配您的头型！');
console.log(result);
//[ '大圣','，','您','的','金箍棒','就','棒','在','特别','配','您','的','头型','！' ]

我们可以载入自己的字典，在字典里给每个词分别设置权重和词性：

编辑 user.uft8
地瓜 9999 n
金箍 9999 n
棒就棒在 9999
然后通过 nodejieba.load 加载字典。


var nodejieba = require("nodejieba");
nodejieba.load({
 userDict: './user.utf8',
});
var result = nodejieba.cut("帝国主义要把我们的地瓜分掉");
console.log(result);
//[ '帝国主义', '要', '把', '我们', '的', '地瓜', '分', '掉' ]result = nodejieba.cut('土地，俺老孙的金箍棒在哪里？');
console.log(result);
//[ '土地', '，', '俺', '老', '孙', '的', '金箍棒', '在', '哪里', '？' ]result = nodejieba.cut('大圣，您的金箍棒就棒在特别配您的头型！');
console.log(result);
//[ '大圣', '，', '您', '的', '金箍', '棒就棒在', '特别', '配', '您', '的', '头型', '！' ]

除了分词以外，我们可以利用 nodejieba 提取关键词：


const content = `

HTTP、HTTP/2与性能优化

本文的目的是通过比较告诉大家，为什么应该从HTTP迁移到HTTPS，以及为什么应该添加到HTTP/2的支持。在比较HTTP和HTTP/2之前，先看看什么是HTTP。

什么是HTTP

HTTP是在万维网上通信的一组规则。HTTP属于应用层协议，跑在TCP/IP层之上。用户通过浏览器请求网页时，HTTP负责处理请求并在Web服务器与客户端之间建立连接。

1/3 1 2 3 下一页尾页

使用 Node.js 对文本内容分词和关键词抽取

office向程序发送命令时出现错误解决方法

什么是刻录技术

什么是重复数据删除技术？

吉吉影音怎么卸载吉吉影音卸载教程

搜狗输入法不见了解决方法

世界之窗浏览器怎么设置主页

火狐浏览器怎么样

qq邮箱怎么发匿名邮件 qq邮箱匿名邮件如何发

qq怎么发语音消息

3秒钟教你qq校友图标怎么点亮和怎么灭

office向程序发送命令时出现错误解决方法

什么是刻录技术

什么是重复数据删除技术？

吉吉影音怎么卸载吉吉影音卸载教程

搜狗输入法不见了解决方法

世界之窗浏览器怎么设置主页

火狐浏览器怎么样

qq邮箱怎么发匿名邮件 qq邮箱匿名邮件如何发

qq怎么发语音消息

3秒钟教你qq校友图标怎么点亮和怎么灭

使用 Node.js 对文本内容分词和关键词抽取

office向程序发送命令时出现错误解决方法

什么是刻录技术

什么是重复数据删除技术？

吉吉影音怎么卸载 吉吉影音卸载教程

搜狗输入法不见了解决方法

世界之窗浏览器怎么设置主页

火狐浏览器怎么样

qq邮箱怎么发匿名邮件 qq邮箱匿名邮件如何发

qq怎么发语音消息

3秒钟教你qq校友图标怎么点亮和怎么灭

office向程序发送命令时出现错误解决方法

什么是刻录技术

什么是重复数据删除技术？

吉吉影音怎么卸载 吉吉影音卸载教程

搜狗输入法不见了解决方法

世界之窗浏览器怎么设置主页

火狐浏览器怎么样

qq邮箱怎么发匿名邮件 qq邮箱匿名邮件如何发

qq怎么发语音消息

3秒钟教你qq校友图标怎么点亮和怎么灭

吉吉影音怎么卸载吉吉影音卸载教程

吉吉影音怎么卸载吉吉影音卸载教程