Dify中的分段设置参数

1.自动分段与清洗

自动设置分段规则与预处理规则,如果不了解这些参数建议选择此项。

rules字段的 JSON 格式化的配置,以及每个组件的解释:

{
    "pre_processing_rules": [
        {
            "id": "remove_extra_spaces",
            "enabled": true
        },
        {
            "id": "remove_urls_emails",
            "enabled": false
        }
    ],
    "segmentation": {
        "delimiter": "\n",
        "max_tokens": 500,
        "chunk_overlap": 50
    }
}

(1)pre_processing_rules(预处理规则):这是一个规则数组,在处理文本之前应用。

(2)segmentation(分段):定义如何将文本分段成小块。

此配置对于需要预处理和分段文本的任务非常有用。预处理规则帮助清理文本,分段规则确定如何将文本分割以进行进一步分析或处理。

2.自定义分段设置

可根据实际需要自定义分段规则、分段长度以及预处理规则等参数。默认规则参数如下:

DEFAULT_RULES = {  # 默认规则
    'mode': 'custom',
    'rules': {
        'pre_processing_rules': [
            {'id': 'remove_extra_spaces', 'enabled': True},
            {'id': 'remove_urls_emails', 'enabled': False}
        ],
        'segmentation': {
            'delimiter': '\n',
            'max_tokens': 500,
            'chunk_overlap': 50
        }
    }
}

相关推荐

  1. reactdiff算法

    2024-07-16 10:04:03       46 阅读
  2. dify/api/models/tool.py文件数据表

    2024-07-16 10:04:03       22 阅读
  3. dify/api/models/workflow.py文件数据表

    2024-07-16 10:04:03       22 阅读

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-16 10:04:03       67 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-16 10:04:03       72 阅读
  3. 在Django里面运行非项目文件

    2024-07-16 10:04:03       58 阅读
  4. Python语言-面向对象

    2024-07-16 10:04:03       69 阅读

热门阅读

  1. RandomAccessFile详细总结

    2024-07-16 10:04:03       20 阅读
  2. XML 解析异常问题解决

    2024-07-16 10:04:03       27 阅读
  3. GCN、GIN

    2024-07-16 10:04:03       23 阅读
  4. c#中的事件

    2024-07-16 10:04:03       26 阅读
  5. QT下,如何获取控制台输入

    2024-07-16 10:04:03       25 阅读
  6. Ajax是什么?如何在HTML5中使用Ajax?

    2024-07-16 10:04:03       24 阅读
  7. C 语言 do while 语句

    2024-07-16 10:04:03       25 阅读
  8. Apache Spark 的基本概念和在大数据分析中的应用

    2024-07-16 10:04:03       21 阅读