Organisez vos transcriptions en paragraphes avec Amazon Transcribe

Organize your transcriptions into paragraphs with Amazon Transcribe.

Amazon Transcribe est un service de reconnaissance vocale qui génère des transcriptions à partir de fichiers vidéo et audio dans plusieurs langues et accents pris en charge. Il est livré avec un ensemble riche de fonctionnalités, y compris l’identification automatique de la langue, le support multi-canal et multi-locuteur, les vocabulaires personnalisés et la rédaction de transcription.

Amazon Transcribe prend en charge deux modes de fonctionnement : le mode batch et le mode streaming. En mode batch, un travail de transcription est créé pour traiter des fichiers résidant dans un compartiment Amazon Simple Storage Service (Amazon S3) ; en mode streaming, la source audio est intégrée en temps réel avec Amazon Transcribe via des appels HTTP/2 ou des sockets Web.

Dans ce post, nous explorons comment organiser automatiquement la transcription générée en paragraphes en mode batch, augmentant la lisibilité de la transcription générée.

Sortie de transcription

Amazon Transcribe utilise la représentation JSON pour sa sortie. Il fournit le résultat de la transcription dans deux formats différents : le format texte et le format détaillé.

Le format texte fournit la transcription dans son ensemble, sous forme de bloc de texte, tandis que le format détaillé fournit la transcription sous forme d’éléments transcrits ordonnés chronologiquement, avec des métadonnées supplémentaires pour chaque élément. Les deux formats existent en parallèle dans le fichier de sortie.

En fonction des fonctionnalités sélectionnées lors de la création du travail de transcription, Amazon Transcribe crée des vues supplémentaires et enrichies du résultat de la transcription. Voir le code d’exemple suivant :

{
    "nomDuTravail": "2x-speakers_2x-channels",
    "identifiantDuCompte": "************",
    "résultats": {
        "transcriptions": [
            {
                "transcription": "Salut, bienvenue."
            }
        ],
        "étiquettes_des_orateurs": [
            {
                "étiquette_de_canal": "ch_0",
                "orateurs": 2,
                "segments": [
                ]
            },
            {
                "étiquette_de_canal": "ch_1",
                "orateurs": 2,
                "segments": [
                ]
            }
        ],
        "étiquettes_de_canal": {
            "canaux": [
            ],
            "nombre_de_canaux": 2
        },
        "éléments": [
            
        ],
        "segments": [
        ]
    },
    "statut": "COMPLÉTÉ"
}

Les vues sont les suivantes :

  • Transcriptions – Représentées par l’élément transcriptions, elles ne contiennent que le format texte de la transcription. Dans les scénarios multi-locuteurs et multi-canaux, la concaténation de toutes les transcriptions est fournie sous forme de bloc unique.
  • Orateurs – Représentés par l’élément étiquettes_des_orateurs, ils contiennent à la fois les formats texte et détaillé de la transcription regroupés par orateur. Ils sont disponibles uniquement lorsque la fonctionnalité multi-locuteurs est activée.
  • Canaux – Représentés par l’élément étiquettes_de_canal, ils contiennent à la fois les formats texte et détaillé de la transcription, regroupés par canal. Ils sont disponibles uniquement lorsque la fonctionnalité multi-canaux est activée.
  • Éléments – Représentés par l’élément éléments, ils ne contiennent que le format détaillé de la transcription. Dans les scénarios multi-locuteurs et multi-canaux, les éléments sont enrichis de propriétés supplémentaires, indiquant l’orateur et le canal.
  • Segments – Représentés par l’élément segments, ils contiennent à la fois les formats texte et détaillé de la transcription, regroupés par transcription alternative. Ils sont disponibles uniquement lorsque la fonctionnalité de résultats alternatifs est activée.

Métadonnées de transcription dans la vue des éléments

Dans la vue des éléments, les éléments sont fournis sous forme de liste ordonnée chronologiquement, chaque élément contenant des informations supplémentaires sur les métadonnées :

{
    "résultats": {
        "éléments": [
            {
                "étiquette_de_canal": "ch_0",
                "heure_de_début": "1.509",
                "étiquette_de_l_orateur": "spk_0",
                "heure_de_fin": "2.21",
                "alternatives": [
                    {
                        "confiance": "0.999",
                        "contenu": "Salut"
                    }
                ],
                "type": "prononciation"
            },
            {
                "étiquette_de_canal": "ch_0",
                "étiquette_de_l_orateur": "spk_0",
                "alternatives": [
                    {
                        "confiance": "0.0",
                        "contenu": ","
                    }
                ],
                "type": "ponctuation"
            },
            {
                "étiquette_de_canal": "ch_0",
                "heure_de_début": "2.22",
                "étiquette_de_l_orateur": "spk_0",
                "heure_de_fin": "2.9",
                "alternatives": [
                    {
                        "confiance": "0.999",
                        "contenu": "bienvenue"
                    }
                ],
                "type": "prononciation"
            },
            {
                "étiquette_de_canal": "ch_0",
                "étiquette_de_l_orateur": "spk_0",
                "alternatives": [
                    {
                        "confiance": "0.0",
                        "contenu": "."
                    }
                ],
                "type": "ponctuation"
            }
        ]
    }
}

Les métadonnées sont les suivantes:

  • Type – La valeur du type indique si l’élément spécifique est une ponctuation ou une prononciation. Les exemples de ponctuations prises en charge sont la virgule, le point et le point d’interrogation.
  • Alternatives – Un tableau d’objets contenant la transcription réelle, ainsi que le niveau de confiance, classé par niveau de confiance. Lorsque la fonctionnalité des résultats alternatifs n’est pas activée, cette liste ne comporte qu’un seul élément.
    • Confiance – Une indication de la confiance d’Amazon Transcribe quant à la correction de la transcription. Elle utilise des valeurs de 0 à 1, 1 indiquant une confiance de 100%.
    • Contenu – Le mot transcrit.
  • Temps de départ – Un pointeur de temps du fichier audio ou vidéo indiquant le début de l’élément au format ss.SSS.
  • Temps de fin – Un pointeur de temps du fichier audio ou vidéo indiquant la fin de l’élément au format ss.SSS.
  • Étiquette de chaîne – L’identifiant de chaîne, qui est présent dans l’élément uniquement lorsque la fonctionnalité d’identification de chaîne a été activée dans la configuration de la tâche.
  • Étiquette de locuteur – L’identifiant de locuteur, qui est présent dans l’élément uniquement lorsque la fonctionnalité de partitionnement des locuteurs a été activée dans la configuration de la tâche.

Identification des paragraphes

L’identification des paragraphes repose sur les informations de métadonnées dans la vue des éléments. En particulier, nous utilisons les informations de temps de départ et de fin ainsi que le type et le contenu de la transcription pour identifier les phrases, puis nous décidons desquelles sont les meilleurs candidats pour les points d’entrée de paragraphe.

Une phrase est considérée comme une liste d’éléments de transcription qui existe entre des éléments de ponctuation qui indiquent un point final. Les exceptions à cela sont le début et la fin de la transcription, qui sont par défaut des limites de phrase. Le graphique suivant montre un exemple de ces éléments. L’identification des phrases est facile avec Amazon Transcribe car la ponctuation est une fonctionnalité intégrée, avec les types de ponctuation virgule, point et point d’interrogation. Dans ce concept, nous utilisons un point final comme limite de phrase.

Toutes les phrases ne devraient pas être des points de paragraphe. Pour identifier les paragraphes, nous introduisons une nouvelle notion au niveau de la phrase appelée retard de début, comme illustré dans le graphique suivant. Nous utilisons un retard de début pour définir le délai que le locuteur introduit dans la prononciation de la phrase actuelle par rapport à la précédente. Le calcul du retard de début nécessite le temps de début de la phrase actuelle et le temps de fin de la phrase précédente par locuteur. Étant donné qu’Amazon Transcribe fournit les temps de début et de fin par élément, le calcul nécessite l’utilisation des premiers et derniers éléments des phrases actuelle et précédente, respectivement.

En connaissant les retards de début de chaque phrase, nous pouvons appliquer une analyse statistique et déterminer l’importance de chaque retard par rapport à la population totale des retards. Dans notre contexte, les retards significatifs sont ceux qui dépassent la durée typique de la population. Le graphique suivant montre un exemple. Pour ce concept, nous décidons d’accepter les phrases avec des retards de début supérieurs à la valeur moyenne comme étant significatifs, et d’introduire un point de paragraphe au début de chaque phrase. Outre la valeur moyenne, il existe d’autres options, comme accepter tous les retards de début supérieurs à la médiane, ou au troisième quartile ou à la valeur de la clôture supérieure de la population.

Nous ajoutons une étape supplémentaire à ce processus d’identification des paragraphes, en prenant en compte le nombre de mots contenus dans chaque paragraphe. Lorsque les paragraphes contiennent un nombre significatif de mots, nous effectuons une opération de division, ajoutant ainsi un autre paragraphe au résultat final.

Dans le contexte des dénombrements de mots, nous définissons comme significatifs les dénombrements de mots qui dépassent la valeur de la clôture supérieure. Nous prenons cette décision délibérément, afin de limiter les opérations de division aux paragraphes qui se comportent vraiment comme des valeurs aberrantes dans nos résultats. Le graphique suivant montre un exemple. L’opération de division sélectionne le nouveau point d’entrée de paragraphe en considérant la notion de retard de début de phrase maximale. De cette façon, le nouveau paragraphe est introduit à la phrase qui présente le retard de début maximal à l’intérieur du paragraphe actuel. Les divisions peuvent être répétées jusqu’à ce qu’aucun nombre de mots ne dépasse la limite sélectionnée, dans notre cas la valeur de la clôture supérieure. Le graphique suivant montre un exemple.

Conclusion

Dans cet article, nous avons présenté un concept permettant d’introduire automatiquement des paragraphes dans vos transcriptions, sans intervention manuelle, en fonction des métadonnées fournies par Amazon Transcribe ainsi que de la transcription réelle. Ce concept n’est pas spécifique à une langue ou à un accent, car il repose sur des métadonnées non linguistiques pour suggérer des points d’entrée de paragraphe. Des variations futures pourraient inclure des informations grammaticales ou sémantiques pour chaque langue, améliorant ainsi la logique d’identification de paragraphe.

Si vous avez des commentaires sur cet article, veuillez les soumettre dans la section des commentaires. Nous sommes impatients de vous lire. Consultez les fonctionnalités d’Amazon Transcribe pour découvrir des fonctionnalités supplémentaires qui vous aideront à tirer le meilleur parti de vos transcriptions.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

L'IA est cruciale pour la cybersécurité en santé

Les organisations de santé font partie des cibles les plus fréquentes des attaques des cybercriminels. Même si de plu...

AI

Comment les ressources humaines sont utilisées dans les systèmes de paie 4 exemples

En ce qui concerne la gestion d'entreprise, l'entrelacement des fonctions des ressources humaines et de la paie peut ...

AI

Équilibrer la technologie et l'esprit l'IA pour la santé mentale

Découvrez l'entrelacement de l'IA et de la santé mentale, dévoilant les bénéfices potentiels et les défis dans notre ...

AI

Pratiques optimales en matière d'automatisation des tests

Dans l'industrie informatique d'aujourd'hui, où tout va très vite, il est essentiel de fournir rapidement des logicie...

AI

IA et Efficacité énergétique une Révolution Durable

Explorez la révolution durable menée par l'IA dans la gestion de l'énergie, en mettant l'accent sur l'efficacité éner...

AI

Explorer l'interaction entre l'intelligence artificielle et l'intelligence humaine

Cet article met en évidence ce que l'humanité a à gagner lorsque l'intelligence artificielle et l'intelligence humain...